Reprodukálhatósági problémákat okoz az MI a tudományban

Reprodukálhatósági problémákat okoz az MI a tudományban

2024. június 6. 13:02, Csütörtök
A brit Királyi Természettudományos Társaság, azaz a nagy presztízsű Royal Society tudósai arra figyelmeztetnek, hogy a mesterséges intelligencia alkalmazása a tudományban növeli a fontos eredmények megismételhetőségének problémáit. Az MI-modellek fekete dobozos jellege, a dokumentáció hiánya és a korlátozott hozzáférés a számítástechnikához akadályozza az eredmények megértésére irányuló erőfeszítéseket.

A 350 éves intézmény „A tudomány a mesterséges intelligencia korában” című jelentésében úgy érvel, hogy a mesterséges intelligencia bevezetése a tudományos kutatásba akadályozza a reprodukálhatóságot - vagyis azt, hogy egy adott eredményt a világ egy másik részén egy másik kutatócsoport megismételhessen - a dokumentáció hiánya, az alapvető számítástechnikai infrastruktúrákhoz és erőforrásokhoz való korlátozott hozzáférés, valamint a mesterséges intelligencia eszközök következtetései megértésének nehézségei miatt.

Eddig a technológiai ipar lelkesen hirdette azt az elképzelést, hogy a mesterséges intelligencia segíthet a tudományban. Tavaly decemberben kutatók azt állították, hogy a világ első tudományos felfedezését tették meg nagyméretű nyelvi modellek segítségével - ez az áttörés azt sugallta, hogy a ChatGPT-hez hasonló LLM-ek gyorsabban előremozdíthatják a kutatásokat, mint az emberek önmagukban. Alison Noble professzor, a Royal Society "Science in the Age of AI" munkacsoportjának elnöke azonban aggódik amiatt, hogy a mesterséges intelligencia gyors elterjedése a tudományban kihívások elé állítja a biztonságos és szigorú felhasználást. "Az eszközök szabadalmaztatott jellege miatt megismételhetetlen tanulmányok egyre növekvő száma aggályokat vet fel az MI-alapú felfedezések robusztusságával kapcsolatban” - jelentette ki.

A dokumentum figyelmeztet arra, hogy a mesterséges intelligenciára való támaszkodás a kutatásban „túlzott elvárásokhoz, eltúlzott pontossági állításokhoz vagy hamis összefüggéseken alapuló kutatási eredményekhez vezethet. A mesterséges intelligencián alapuló kutatások esetében egy vizsgálat reprodukálhatósága nemcsak a módszer megismétlését jelenti, hanem azt is, hogy képesek vagyunk reprodukálni a kódot, az adatokat és a környezeti feltételeket, amelyek mellett a kísérletet elvégezték (pl. számítástechnika, hardver, szoftver).”


A Royal Society-t 1660-ban alapították, és olyan tudósok tartoznak a korábbi elnökei közé, mint Isaac Newton, Humphry Davy vegyész vagy Ernest Rutherford, az atommag felfedezője. Dokumentumában a társaság arra figyelmeztet, hogy a reprodukálhatósági hibák nemcsak az egyes tanulmányok érvényességét veszélyeztetik, hanem a későbbi kutatásokat is torzíthatják. A Princeton Egyetem Statisztikai és Gépi Tanulás Központja által vezetett tanulmány szerint egyetlen kutatási projektben bekövetkező „adatszivárgás” - amely a gépi tanulási (machine learning) alkalmazásokban előforduló hibák egyik fő oka - 17 tudományterület 294 tanulmányát érintheti, köztük olyan nagy jelentőségű területeket, mint az orvostudomány.

A kereskedelmi környezetben kifejlesztett modellek tovább fokozhatják a problémát. „A legtöbb vezető LLM-et olyan nagy technológiai vállalatok fejlesztik, mint a Google, a Microsoft, a Meta és az OpenAI. Ezek a modellek szabadalmaztatott rendszerek, és mint ilyenek, korlátozott információkat tárnak fel a modellarchitektúrájukról, a képzési adatokról és a döntéshozatali folyamatokról, amelyek javítanák a megértést”. E kihívások kezelése érdekében a tudósoknak nyílt tudományos elveket kellene elfogadniuk - például az UNESCO nyílt tudományról szóló ajánlását. A tanulmány azt is javasolja, hogy a nagy kihívások - mint például az ML Reprodukálhatósági Kihívás, amely 11 vezető ML-konferencián megjelent publikációk reprodukálására szólítja fel a résztvevőket - segíthetnek.

Tavaly augusztusban a kutatók arra figyelmeztettek, hogy a gyenge adatminőség a mesterséges intelligencia alapú kutatásokban is problémát jelent, míg a mesterséges intelligencia által segített eredmények reprodukálásának nehézségei a mélytanulási modellek képzésének véletlenszerű vagy sztochasztikus megközelítéséből adódnak. A Stanford informatikai csoportja azzal érvelt, hogy a szabványosított benchmarkok és a kísérleti tervezés enyhítheti ezeket a problémákat. "A reprodukálhatóság javításának másik iránya a nyílt forráskódú kezdeményezések, amelyek nyílt modelleket, adatkészleteket és oktatási programokat tesznek közzé” - teszi hozzá a Royal Society kutatási tanulmánya.

Listázás a fórumban 
Adatvédelmi beállítások