Дали успехот на DeepSeek се должи на „искористување“ на ChatGPT при тренирање на R1 моделот

OpenAI тврди дека имаат докази дека DeepSeek ја користеле таканаречената техника на „дестилација“ при тренирање на нивниот R1 јазичен модел

Од

Мишо Лекиќ

29.01.2025 - 16:12

shutterstock_2545633845 — Фото: Shutterstock.com

Кинескиот „стартап“ DeepSeek привлече огромно внимание оваа недела, а и направи огромен пад на вредноста на неколку компании во САД, меѓу кои и Nvidia.

Од компанијата го претставија нивниот R1 голем јазичен модел, достапен преку нивната DeepSeek апликација и покажаа дека компанија која постои околу 2 години и има потрошено помалку од 10 милиони долари, може да развие јазичен модел кој е на ниво на OpenAI o1 и сличните.

Со ова во основа се докажа дека не се потребни милијардите долари кои ги користат другите компании за развој и тренирање на нивните големи јазични модели, а со паметно смислено софтверско решение може да се постигне истото ниво.

Една од повеќе погодените компании е Nvidia чии чипови и графички картички се едни од најкористените во индустријата за вештачка интелигенција, па информацијата дека напредокот може да се постигне со многу помалку пари, јасно е зошто ја бутна вредноста на оваа компанија.

Сепак, уште од почетокот почнаа да излегуваат анализи како DeepSeek го има постигнато тоа што го тврди и за кое објави и студија.

Успехот на DeepSeek не може целосно да биде намален, сепак нивниот модел успева да се носи со најдобрите, но се поставува прашањето дали неговото тренирање навистина би било можно со толку малку пари.

Причината за малите трошоци се верува дека е поради тоа што DeepSeek го користеле ChatGPT за тренирање на нивниот R1 модел. Од OpenAI дури тврдат дка тие имаат докази за истото.

Според OpenAI, DeepSeek применувал техника наречена “дестилација”, каде што помал модел се тренира да ги имитира резултатите на поголем, веќе трениран модел. Интересно е што некои рани корисници на DeepSeek забележале дека моделот се идентификувал како ChatGPT во своите одговори, што предизвикало сомнежи дека DeepSeek го користел ChatGPT при тренирањето на својот модел.

Оваа техника обично се користи за тренирање на помали јазични модели кои ги немаат ресурсите на поголемите. Проблемот е што вака обично компаниите ги тренираат своите помали модели, но не се очекува нивно тренирање од други компании, а посебно без нивна дозвола.

Доколку DeepSeek навистина вака го имаат тренирано нивниот R1 модел, се поставува прашањето до кое ниво нивниот успех навистина е толку револуционерен и ги поништува милијардите долари кои ги потрошија другите компании и уште ги трошат.

Не може да не се истакне и иронијата на овој случај, односно обвинувањето од страна на OpenAI кои досега повеќе пати беа обвинети за тренирање на нивните модели на содржина од интернет за која немаат дозвола.

Како функционира DeepSeek R1, меѓу другото и тврдењето за искористување на ChatGPT, објаснува поранешен програмер од Microsoft, а видеото можете да го погледнете во продолжение.

НАЈНОВИ