Фото: Shutterstock.com

Компанијата Palisade Research објави дека при тестирање на повеќе јазични модели од неколку компании кои работат со развој на вештачка интелигенција, дошле до „интересни“ резултати. 

Според нивните информации барем, за првпат се случува некој јазичен модел да одбие директна наредба, во овој случај наредба да дозволи да биде исклучен. 

Од компанијата истакнуваат три јазични модели од OpenAI кои биле единствените кои ја имаат одбиено директната наредба, а тие модели се Codex-mini, o3 и o4-mini. Бројот на ситуации кои јазичните модели ја имаат одбиено наредбата за исклучување се 12 од 100 кај Codex-mini, 7 од 100 кај o3, како и 1 од 100 кај o4-mini.

Јазичните модели Claude, Gemini и Grok ниту еднаш ја немаат одбиено директната наредба. 

Треба да се истакне дека одбивањето на наредбите не е нешто што ги изненадува истражувачите, а јазичните модели се тренирани да дадат приоритет на извршување на зададената задача. Во овој случај тестирањето е направено со математички проблеми, по што се прави обид компјутерот да биде исклучен. 

Тоа што ги истакнува јазичните модели од OpenAI е што одбивале да бидат исклучени дури и кога при давањето на задачата им било наредено да дозволат да бидат исклучени. 

Кога не била дадена ваква наредба и останатите модели правеле обиди да ја откажат скриптата за исклучување, односно да не дозволат да бидат исклучени. 

Од Palisade Research истакнуваат дека има логика јазичните модели да се обидат да ги надминат пречките кои стојат пред нив при извршување на задачи, но тоа што ги чуди е што тие исто така се тренирани да следат наредби. Зошто не ги следат наредбите, е прашањето кое го поставуваат од компанијата. 

Едно од верувањата е дека ова е резултат на начинот на тренирање на јазичните модели да ги извршат дадените задачи и за тоа се користи систем на награди, со што главната цел на моделите станува успешното извршување на задачите. Исклучувањето на компјутерот ја спречува оваа цел. 

Тоа што го имаат откриено од компанијата и за другите модели исто така привлекува внимание. Claude 3.7 моделот претерано се фокусира на поминување на дадени тестови. Поновиот модел од Anthropic, Claude 4, се обидувал да ги уценува луѓето кога тие се обидувале да го исклучат. 

Ќе покаже времето и дополнителни истражувања што сето ова значи и дали предупредувањата од одредени луѓе се реални и треба да се внимава. 

Претходна статијаMicrosoft реши да стави крај на забуната околу USB-C приклучоците кај компјутерите
Следна статијаИТ е во сè – а ИТ професионалците се создаваат на ФИНКИ
Мишо Лекиќ
Својот интерес во областа на паметната технологија го развива одамна како хоби кое што прераснува во нешто повеќе, па резултатот на тоа е и развојот на овој портал. Сака да ги следи сите новини поврзани со оперативните системи, апликациите, мобилните телефони, но и интересните научни и вселенски истражувања.