A Google szerint semmi baj nincs azzal, hogy publikus adatokon tanítják be az MI-jüket

2023. július 7. 12:34, Péntek

A Google frissítette adatvédelmi szabályzatát és ebben megerősítette, hogy nyilvános adatokat tölt le az internetről az MI-modelljei és szolgáltatásai - köztük a Bard nevű chatbot és a felhőben hosztolt termékei - képzése céljából.

Az apró betűs rész a kutatás és fejlesztést részletező paragrafusnál mostantól így szól: "A Google az információkat szolgáltatásaink fejlesztéséhez, valamint olyan új termékek, funkciók és technológiák kifejlesztéséhez használja fel, amelyek a felhasználóink és a nyilvánosság javát szolgálják. Nyilvánosan elérhető információkat használunk fel a Google mesterséges intelligencia modelljeinek képzéséhez, valamint olyan termékek és funkciók fejlesztéséhez, mint a Google Fordító, a Bard és a felhőalapú mesterséges intelligencia képességek." A Google szabályzatának PDF-változata azt is kimondja: "Gyűjthetünk nyilvánosan elérhető online vagy más nyilvános forrásokból származó információkat, hogy segítsük a Google mesterséges intelligencia modelljeinek képzését, valamint olyan termékek és funkciók létrehozását, mint a Google Fordító, a Bard és a Cloud MI funkciók".

A változtatások meghatározzák a Google MI-képzésének hatókörét. Korábban a szabályzat csak "nyelvi modelleket" említett és a Google Fordítóra utalt. A megfogalmazás azonban úgy módosult, hogy az "MI-modellekre" is kiterjedjen, és magában foglalja a Bardot és más, a felhőplatformon alkalmazásokként épített rendszereket is. Érdemes leszögezni, hogy a frissítés nem jelenti, hogy alapvetően megváltozott volna az MI-modelljei képzésének módja. "Adatvédelmi szabályzatunk már régóta átláthatóvá teszi, hogy a Google a nyílt webről származó, nyilvánosan elérhető információkat használ a Google Fordítóhoz hasonló szolgáltatások nyelvi modelljeinek képzéséhez. Ez a legutóbbi frissítés csupán azt tisztázza, hogy az olyan újabb szolgáltatások, mint a Bard, szintén ide tartoznak. Az MI-alapelveinkkel összhangban beépítjük az adatvédelmi elveket és biztosítékokat az MI-technológiáink fejlesztésébe" - jelentette ki a cég szóvivője.

A fejlesztők évek óta szabadon használják az interneten elérhető forrásokat, legyenek azok fotóalbumok, könyvek, közösségi hálózatok, forráskódok, zenék, cikkek vagy bármi egyéb, hogy képzési adatokat gyűjtsenek a mesterséges intelligencia-rendszereik számára. A folyamat finoman szólva is ellentmondásos, tekintve, hogy ezen anyagokat általában szerzői jogok, felhasználási feltételek és licencek védik. Sokan nem örülnek annak, hogy a saját tartalmukat nemcsak a munkájukat lemásoló gépi tanulási rendszerek létrehozásához használják fel, és ezzel potenciálisan veszélyeztetik a megélhetésüket, hanem ráadásul a modellek kimenete sokszor szintén sérti a szerzői jogokat vagy licenceket, például azzal, hogy ezek a képzési adatok változatlan formában jelennek meg a használók számára.

Balra a Getty sportfotósa által lőtt felvétel, jobbra egy MI-által generált kép - rajta maradt a vízjel
A mesterséges intelligencia fejlesztői azzal érvelnek, hogy cselekményük a tisztességes felhasználás hatálya alá tartozik, és hogy a modellek kimenete egy új szellemi termék, és valójában nem az eredeti képzési adatok másolata. Jelenleg is több per van emiatt folyamatban, a Stability AI-t például beperelte a Getty Images, mert a képgeneráló kimeneten konkrétan megjelent a fotószolgáltatás vízjele torzított formában. Ezzel egyértelművé vált, hogy az algoritmus képzéséhez több millió jogdíjas fotót töltöttek le és használtak fel a szövegből képet készítő eszközeik betanításához. Az OpenAI és annak tényleges tulajdonosa, a Microsoft ellen is több per van folyamatban, mert "300 milliárd szót töltöttek le az internetről, "könyvekből, cikkekből, weboldalakról és posztokból - beleértve a hozzájárulás nélkül megszerzett személyes információkat", és nyilvános adatbázisokból származó forráskóddal hozták létre a programozókat segítő GitHub Copilot nevű mesterséges intelligencia-eszközt.

A Google képviselője nem volt hajlandó tisztázni, hogy a keresőóriás a rendszereinek betanításához olyan nyilvános adatokat vagy közösségi média posztokat letöltött-e, amelyek szerzői jogvédelem alatt állhatnak, vagy amelyeket különleges licencfeltételek mellett terjesztenek. Mert az ugye mindenki számára egyértelmű, hogy csak azért, mert valami az interneten van, még nem jelenti azt, hogy automatikusan bármilyen célra felhasználhatja. Mindazonáltal mivel a cégek és szervezetek egyre inkább tájékozottak a mesterséges intelligencia-modellek képzésének módjáról, egyes internetes vállalkozások elkezdtek díjat kérni a fejlesztőktől az adataikhoz való hozzáférésért. Ez áll a Reddit alkalmazáshozzáférési díja vagy a Twitter olvasási korlátja mögött, míg más oldalak - például a Shutterstock és a Getty - úgy döntöttek, hogy direktben árusítani kezdik adataikat az MI-modellek készítőinek, és olyan cégekkel kötöttek partnerséget, mint a Meta és az Nvidia.

Kapcsolódó cikkek

Listázás a fórumban