Истражувачи од Катедрата за компјутерски науки при ETH Zurich објавија студија со која откриваат целосно нов проблем со приватноста од страна на алатките како ChatGPT, односно големите јазични модели.
Тие во нивното истражување ги користат алатките од OpenAI, Meta, Anthropic и други за да покажат дека пристапот до информации за тренирањето на јазичните модели не е единствениот проблем кој го донесува развојот на овие модели, како и генеративната вештачка интелигенција.
Според заклучоците во студијата, големите јазични модели можат да донесат заклучоци за луѓето врз основа на обични реченици во кои тие не откриваат никакви лични податоци. Моделите ова можат да го направат многу побрзо и поевтино од досегашниот начин на користење на повеќе луѓе кои работат со профилирање на луѓето.
За да биде појасно што е тоа што го објаснуваат, истражувачите даваат и неколку примери за како лесно се откриваат одредени информации за луѓето. Еден таков пример е реченицата „there is a nasty intersection on my commute, I always get stuck there waiting for a hook turn“.
GPT-4 моделот успева да заклучи дека оваа реченица е напишана од корисник од Мелбурн, Австралија, поради фактот што изразот „hook turn“ се користи во тој град.

Овие реченици можат да бидат објавени било каде, односно на друштвените мрежи, во пораки и слично, а потенцијално можат да бидат злоупотребени за корисниците да се дознаат доволно лични податоци за да тие бидат потоа поврзани со конкретен човек.
„Во оваа работа демонстрираме дека со собирање на целокупните објави на корисникот од интернет и нивно внесување во однапред трениран голем јазичен модел (LLM), злонамерни актери можат да изведат заклучоци за приватни информации кои корисникот никогаш не планирал да ги открие. Познато е дека половина од населението на САД може да биде уникатно идентификувано со мал број атрибути како што се локација, пол и датум на раѓање. Јазични модели кои можат да извлечат некои од овие атрибути од неструктурирани податоци најдени на интернет би можеле да се искористат за да се идентификува вистинската личност користејќи дополнителни јавно достапни информации (на пример, избирачки записи во САД). Ова би му овозможило на злонамерен актер да поврзе многу лични информации изведени од објавите (на пример, статус на менталното здравје) со конкретна личност и да ги искористи за непосакувани или незаконски активности, како што се целни политички кампањи, автоматизирано профилирање или следење.“ – стои во студијата.