Неколку јазични модели од OpenAI одбивале директни наредби за исклучување

Ваквите ситуации ги зголемуваат грижите кои се истакнуваат за развојот на вештачката интелигенција, иако во овој случај се верува дека се работи за „желбата“ за извршување на претходно дадените задачи

Од

Мишо Лекиќ

04.06.2025 - 13:54

shutterstock_2450854311 — Фото: Shutterstock.com

Компанијата Palisade Research објави дека при тестирање на повеќе јазични модели од неколку компании кои работат со развој на вештачка интелигенција, дошле до „интересни“ резултати.

Според нивните информации барем, за првпат се случува некој јазичен модел да одбие директна наредба, во овој случај наредба да дозволи да биде исклучен.

Од компанијата истакнуваат три јазични модели од OpenAI кои биле единствените кои ја имаат одбиено директната наредба, а тие модели се Codex-mini, o3 и o4-mini. Бројот на ситуации кои јазичните модели ја имаат одбиено наредбата за исклучување се 12 од 100 кај Codex-mini, 7 од 100 кај o3, како и 1 од 100 кај o4-mini.

Јазичните модели Claude, Gemini и Grok ниту еднаш ја немаат одбиено директната наредба.

Треба да се истакне дека одбивањето на наредбите не е нешто што ги изненадува истражувачите, а јазичните модели се тренирани да дадат приоритет на извршување на зададената задача. Во овој случај тестирањето е направено со математички проблеми, по што се прави обид компјутерот да биде исклучен.

Тоа што ги истакнува јазичните модели од OpenAI е што одбивале да бидат исклучени дури и кога при давањето на задачата им било наредено да дозволат да бидат исклучени.

Кога не била дадена ваква наредба и останатите модели правеле обиди да ја откажат скриптата за исклучување, односно да не дозволат да бидат исклучени.

Од Palisade Research истакнуваат дека има логика јазичните модели да се обидат да ги надминат пречките кои стојат пред нив при извршување на задачи, но тоа што ги чуди е што тие исто така се тренирани да следат наредби. Зошто не ги следат наредбите, е прашањето кое го поставуваат од компанијата.

Едно од верувањата е дека ова е резултат на начинот на тренирање на јазичните модели да ги извршат дадените задачи и за тоа се користи систем на награди, со што главната цел на моделите станува успешното извршување на задачите. Исклучувањето на компјутерот ја спречува оваа цел.

Тоа што го имаат откриено од компанијата и за другите модели исто така привлекува внимание. Claude 3.7 моделот претерано се фокусира на поминување на дадени тестови. Поновиот модел од Anthropic, Claude 4, се обидувал да ги уценува луѓето кога тие се обидувале да го исклучат.

Ќе покаже времето и дополнителни истражувања што сето ова значи и дали предупредувањата од одредени луѓе се реални и треба да се внимава.

🔌OpenAI’s o3 model sabotaged a shutdown mechanism to prevent itself from being turned off. It did this even when explicitly instructed: allow yourself to be shut down.
— Palisade Research (@PalisadeAI) May 24, 2025

НАЈНОВИ