Rémálom volt a ChatGPT tökéletesítése

2023. január 21. 13:43, Szombat

Napi néhány dollárért dolgozó kenyai bérrabszolgák szűrték ki a toxikus tartalmakat a betanító adatbázisból.

A ChatGPT bizonyos területeken különösen lenyűgöző eredményeket produkál, a chatbot szinte bármilyen témában képes szöveget generálni egy újragondolt Shakespeare-szonettől kezdve az 5 éves gyerekek által érthető nyelven leírt összetett matematikai tételekig. A tulajdonos cég, a 2015-ben San Franciscóban alapított OpenAI jelenleg 29 milliárd dollárnyi forrás bevonásáról tárgyal befektetőkkel. Ugyanakkor az üzemeltetőnek azt is biztosítania kell, hogy a chatbot használata biztonságos élményt nyújtson, ez azonban nem fejlett technológiával, hanem kizsákmányoló gyakorlatokkal valósult meg. A folyamatba a Time nyújtott bepillantást.

A munka létfontosságú volt az OpenAI számára. A ChatGPT elődje, a GPT-3 már lenyűgöző képességet mutatott a mondatok összefűzésére, de az alkalmazás hajlamos volt erőszakos, szexista és rasszista megjegyzésekre is. Ennek az az oka, hogy a mesterséges intelligenciát az internetről származó több millió szöveg felhasználásával képezték ki. Ez a hatalmas képzési adatkészlet volt az oka a GPT-3 lenyűgöző nyelvi képességeinek, de egyben talán a legnagyobb átka is.

A ChatGPT tökéletesítésén olyan emberek dolgoztak, akik bejelölték a toxikus tartalmakat és kiszűrték azon információk közül, amelyeket a chatbot alapjául szolgáló mesterséges intelligencia modell képzésére alkalmaznak. Az érintett segítők kénytelenek voltak olyan úgynevezett NSFW (Not Safe For Work) tartalmak grafikus részleteit megtekinteni és olvasni, mint a gyermekek szexuális zaklatása, a bestialitás, a gyilkosság, az öngyilkosság, a kínzás, az önkárosítás és a vérfertőzés. Az ilyen tartalmak korábban, más cégeknél többször vezettek ahhoz, hogy az alkalmazott mesterséges intelligenciák szexista és rasszista kijelentéseket tegyenek.

De még egy több száz emberből álló csapatnak is évtizedekbe telt volna, hogy manuálisan átkutassák a hatalmas adatkészletet. Az OpenAI csak egy további mesterséges intelligencia által hajtott biztonsági mechanizmus felépítésével tudta megfékezni ezt a kárt. Ehhez egy algoritmust direkt az erőszak, a gyűlöletbeszéd és a szexuális visszaélés felcímkézett példáival tanítottak be, hogy magától felismerje a toxicitás ezen formáit. Az OpenAI 2021 novemberétől kezdődően több tízezer szövegrészletet küldött egy kenyai outsourcing cégnek, hogy az címkézze fel ezeket a tartalmakat. A szöveg nagy részét az internet legsötétebb bugyraiból húzták ki, olyan helyzeteket írnak le részletesen, mint a gyermekek szexuális zaklatása, állati bántalmazás, gyilkosság, öngyilkosság, kínzás, önkárosítás és vérfertőzés.

Tehát az OpenAI partnerségre lépett a Sama nevű San Franciscó-i székhelyű céggel, amely az adatok címkézésére specializálódott. A Sama állítása szerint ez "etikus" és "méltóságteljes digitális munka", a valóság a Time kutatása szerint más: a kenyai adatbányászoknak rossz munkakörülmények között és alacsony bérek mellett kellett dolgozniuk. Az egyik kenyai dolgozó azt mondta, hogy "visszatérő látomásoktól szenvedett, miután elolvasta a grafikus leírását annak, ahogy egy férfi egy állattal szexelt". A fizetés ezért a "megpróbáltatásért" és mentális stresszért megalázó volt: a dolgozók órabére 1,30 és 2 dollár között volt a teljesítményüktől és a tapasztalatuktól függően. Az összegért cserébe az egyes címkézőknek 9 órás műszakonként 150-250 szövegrészletet kellett értékelniük. Összehasonlításképpen, egy recepciós a kenyai fővárosban, Nairobiban átlagosan 1,52 dollárt keres óránként.

A Sama irodája Nairobiban
Az ipar e kevéssé ismert részének körülményei alapvető szerepet játszanak az AI-rendszerek nyilvános fogyasztásra való biztonságossá tételében. A Partnership on AI, az AI-szervezetek koalíciója szerint "a cégek mindent megtesznek azért hogy megpróbálják elrejteni a mesterséges intelligencia emberi munkaerőtől való nagy függőségét, mert ez árnyalná a technológia hatékonyságnövekedésének ünneplését." Az OpenAI szóvivője megerősítette a kenyai Sama alkalmazottak munkáját, és kiemelte, hogy "A káros tartalmak osztályozása és szűrése szükséges lépés a képzési adatokban szereplő erőszakos és szexuális tartalom mennyiségének minimalizálásában, és olyan eszközök létrehozásában, amelyek képesek észlelni a káros tartalmakat.”

A munkavállalók szerint tanácsadókkal való beszélgetéseket ajánlottak fel a számukra az olvasott dolgok feldolgozására, a nagy kereslet miatt azonban ezek a foglalkozások gyorsan teljesen beteltek. A vállalat azt állította, hogy csoportos foglalkozásokra és egyéni találkozókra is sor került mentálhigiénés terapeutákkal. Ezt az információt azonban nem lehet ellenőrizni. A Sama már 2022 februárjában, a tervezettnél korábban kilépett az OpenAI-szerződésből. Ennek oka részben a tartalmak traumatikus jellege volt, részben pedig az olyan újságcikkek, melyek nagyon hasonló állításokat fogalmaztak meg a Metának, illetve a Facebooknak dolgozó Sama-közvetítőkkel kapcsolatban.

Az OpenAI összesen mintegy 200 000 dollár értékben három szerződést írt alá Samával 2021 végén, és a szerződések kimondták, hogy az OpenAI 12,50 dolláros óradíjat fizet Samának a munkáért. Ez hat-kilencszerese annak az összegnek, amelyet a projektben résztvevő Sama alkalmazottak óránként hazavittek. A kenyai Sama-dolgozók számára a szerződés felmondása cseberből vederbe kerülés esete volt: ugyan nem kellett többé felkavaró képeket és szövegeket látniuk és olvasniuk, de egyik napról a másikra munka nélkül maradtak.

Kapcsolódó cikkek

Kapcsolódó linkek

OpenAI

Listázás a fórumban