Az OpenAI szerint az Egyesült Államok érdeke, hogy lopjanak

2024. január 9. 10:41, Kedd

December végén a The New York Times beperelte az OpenAI-t és az avval szorosan együttműködő és abba befektető partnerét, a Microsoftot, mert szerintük megsértették a szerzői jogokat azzal, hogy generatív MI-modelleket képeztek ki a Times tartalmain. Az OpenAI most nyilvános választ adott, amelyben - nem meglepő módon - azt állítja, hogy a Times keresete alaptalan.

Az OpenAI hivatalos blogján közzétett levélben a vállalat megismétli álláspontját, miszerint az MI-modellek képzése a világháló nyilvánosan elérhető adatainak felhasználásával - beleértve a Times cikkeihez hasonló cikkeket is - tisztességes felhasználásnak minősül. Más szóval, az OpenAI úgy véli, hogy a GPT-4-hez és a DALL-E 3-hoz hasonló generatív mesterséges intelligencia rendszerek létrehozásakor - amelyek több milliárd műalkotás, e-könyv, esszé és egyéb példából "tanulnak", hogy emberhez hasonló szövegeket és képeket generáljanak - nem köteles licencelni vagy más módon fizetni a példákért, még akkor sem, ha pénzt keres a modellekből. "Ezt az elvet igazságosnak tartjuk az alkotókkal szemben, szükségesnek az innovátorok számára, és kritikus fontosságúnak az Egyesült Államok versenyképessége szempontjából" - írja az OpenAI.

Az OpenAI levelében foglalkozik a regurgitációval is, azzal a jelenséggel, amikor a generatív MI modellek szó szerint (vagy majdnem szó szerint) kiköpik a képzési adatokat, ha bizonyos módon kérik őket - például olyan fotót generálnak, amely megegyezik egy híres fotós által készített fotóval. Az OpenAI arra hivatkozik, hogy a regurgitáció kevésbé valószínű, hogy egyetlen forrásból (pl. The New York Times) származó képzési adatokkal történik, és a felhasználókra hárítja a felelősséget, hogy "felelősségteljesen járjanak el", és ne ösztönözzék szándékosan a modelleket a regurgitációra.

"Érdekes módon a The New York Times által a perben hivatkozott regurgitációk úgy tűnik, hogy olyan több éves cikkekből származnak, amelyek harmadik fél weboldalán is megjelentek" - írja az OpenAI. "Úgy tűnik, hogy szándékosan manipulálták a parancssort, amely gyakran hosszú cikkrészleteket is tartalmazott, hogy rávegyék a modellünket a regurgitálásra. Még ilyen felszólítások használata esetén sem viselkednek a modelljeink jellemzően úgy, ahogyan a The New York Times sugallja, ami arra utal, hogy vagy utasították a modellt a regurgitálásra, vagy sok kísérletből válogatták ki a példáikat" - olvasható a cikkben.

Az OpenAI ugyanezt az álláspontot képviselte a brit Lordok Háza kommunikációs és digitális bizottsága által a mesterséges intelligenciamodellek kockázatairól és lehetőségeiről folytatott vizsgálatra adott válaszában. A beadványban arra figyelmeztetnek, hogy modelljei nem fognak működni anélkül, hogy szerzői jogvédett tartalmakon képeznék ki őket. "Mivel a szerzői jog ma gyakorlatilag mindenféle emberi kifejezésre kiterjed - beleértve a blogbejegyzéseket, fényképeket, fórumbejegyzéseket, szoftverkódfoszlányokat és kormányzati dokumentumokat -, lehetetlen lenne a mai vezető MI-modelleket szerzői jogvédelem alatt álló anyagok felhasználása nélkül betanítani" - közölte a cég. "A képzési adatoknak a több mint egy évszázaddal ezelőtt készült, ma már közkincs könyvekre és rajzokra való korlátozása érdekes kísérletet eredményezhet, de nem biztosítana a mai polgárok igényeinek megfelelő mesterséges intelligencia-rendszereket."

Az OpenAI válaszával szemben az IEEE Spectrumban most megjelent cikkben Gary Marcus, egy neves MI-kritikus és Reid Southen, egy vizuális effekteket készítő művész bemutatta, hogy az MI-rendszerek - köztük a DALL-E 3 is - akkor is felöklendeznek tréning-adatokat, ha nem kifejezetten erre kérik őket - így az OpenAI ezzel ellentétes állításai kevéssé hitelesek. Marcus és Southen szerint szinte biztos, hogy a Midjourney és az OpenAI szerzői jogvédett anyagokon képezte ki az MI képgeneráló modelljeit. "Nem gondoljuk, hogy a nagy generatív mesterséges intelligenciával foglalkozó vállalatoknak azt kellene feltételezniük, hogy a szerzői jog és a védjegyjogszabályok elkerülhetetlenül átíródnak majd az igényeik szerint." Marcus és Southen egyébként a The New York Times perére is hivatkozik írásában, megjegyezve, hogy a Times képes volt "plagizáló" válaszokat kicsikarni az OpenAI modelljeiből, egyszerűen azzal, hogy a Times cikkek első néhány szavát adta meg.

A felhasználók nem biztos, hogy tudják, hogy használatukkal megsértik-e a szerzői jogokat. "Ezek a rendszerek nem tájékoztatják a felhasználókat, amikor ezt teszik. Nem adnak semmilyen információt az általuk előállított képek eredetéről. A felhasználók nem tudhatják, amikor egy képet előállítanak, hogy az jogsértő-e". Egyik cég sem hozta teljes mértékben nyilvánosságra a mesterséges intelligenciamodelljeik elkészítéséhez használt képzési adatokat. Southen megjegyezte, hogy a Midjourney a jogsértő tartalmakból hasznot húz az előfizetési bevételeken keresztül. "A Midjourney felhasználóinak nem kell eladniuk a képeket ahhoz, hogy potenciálisan szerzői jogsértés történjen, a vállalat már most is profitál a képek létrehozásából." Az OpenAI szintén előfizetési díjat számít fel.

Marcus, az IEEE-jelentés társszerzője a közösségi médiában tegnap közzétett, lent olvasható bejegyzésében durván kifigurázza az OpenAI álláspontját: "Nem leszünk mesésen gazdagok, ha nem engedik, hogy lopjunk, ezért kérem, ne tegyék a lopást bűncselekménnyé! Ne kényszerítsenek minket díjak fizetésére sem! Persze lehet, hogy a Netflix évente milliárdokat fizet licencdíjakért, de nekünk nem kellene! Több pénzt nekünk, moar!"

https://t.co/uRFhsJGshF
— Gary Marcus (GaryMarcus) January 8, 2024

A Times csak a legutóbbi szerzői jogtulajdonos, aki beperelte az OpenAI-t a szellemi tulajdonjogok egyértelmű megsértése miatt. Több ezer regényíró, köztük Jonathan Franzen és John Grisham azt állítja, hogy az OpenAI az engedélyük vagy tudomásuk nélkül használta műveiket tréningadatként. Több programozó pedig a Microsoft, az OpenAI és a GitHub ellen indított pert a Copilot, egy MI-alapú kódgeneráló eszköz miatt, amelyet a felperesek szerint az ő szellemitulajdon-védelem alatt álló kódjuk felhasználásával fejlesztettek ki.

Néhány hírügynökség ahelyett, hogy a generatív mesterséges intelligenciával foglalkozó gyártókkal a bíróságon harcolna, inkább licencszerződéseket köt velük. Az Associated Press júliusban kötött megállapodást az OpenAI-val, az Axel Springer, a Politico és a Business Insider német kiadója pedig decemberben hasonlóképpen járt el. Az OpenAI az American Journalism Projecttel és a NYU-val is kötött megállapodást. A kifizetések azonban általában meglehetősen csekélyek. A The Information szerint az OpenAI - amelynek éves bevétele állítólag 1,6 milliárd dollár körül mozog - évi 1 millió és 5 millió dollár közötti összeget ajánl fel a szerzői joggal védett hírcikkek licenceléséért, amelyekkel a mesterséges intelligencia modelljeit képzi. Egészen a közelmúltig a The New York Times is tárgyalt az OpenAI-val egy "nagy értékű" partnerség létrehozásáról, amely magában foglalja márkájának "valós idejű megjelenítését" a ChatGPT-ben, az OpenAI MI-alapú chatbotjában. A tárgyalások azonban az OpenAI szerint december közepén megszakadtak.

Felmérések szerint a nyilvánosság a kiadók oldalán áll. A The Policy Institute független agytröszt nemrégiben végzett felmérése szerint válaszadók, miután tájékoztatták őket a The New York Times és az OpenAI közötti per részleteiről, 59%-uk egyetértett azzal, hogy az MI-cégek nem használhatnak kiadói tartalmakat a modellek képzéséhez, míg 70%-uk szerint a cégeknek kártérítést kellene fizetniük a kiadóknak, ha szerzői jogvédelem alatt álló anyagokat akarnak felhasználni a modellek képzéséhez.

Kapcsolódó cikkek

Listázás a fórumban