Három másodperc alatt utánozza a hangokat a Microsoft megoldása

Három másodperc alatt utánozza a hangokat a Microsoft megoldása

2023. január 11. 17:03, Szerda
A társaság számos kép- és szöveggeneráló szoftver fejlesztésében vesz részt.

A gyakorlatilag a semmiből képeket és szövegeket létrehozó, mesterséges intelligenciára épülő eszközök egyre népszerűbbek napjainkban és az ismert képviselőik között megtalálható a ChatGPT és a Dall-E. Mindkettő fejlesztésében részt vesz a Microsoft is, amely egy másik program, a hangokat utánzó Vall-E megalkotásában is jelentős szerepet vállalt.

A mesterséges intelligencia sokáig nem volt több, mint egy üres divatszó a viszonylag banális gépi tanulás leírására. Ez utóbbi még mindig központi szerepet játszik, de az eredmények már annyira lenyűgözőek, hogy az intelligencia szó lassan valóban alkalmazható. Ezt jól mutatják az olyan OpenAI megoldások, mint a ChatGPT és a Dall-E. A Microsoft, amely az OpenAI egyik támogatója, szintén rendelkezik saját mesterséges intelligencia-kutatással, és szintén a Dall-E alapján választott nevet: Vall-E. Ez egy olyan szoftver, amely képes hangokat utánozni. Mindössze három másodperces mintára van szüksége ahhoz, hogy hitelesen tudja utánozni egy adott személy hangját.

Az AITopics és a Windows Central hívta fel a figyelmet arra, hogy az eszközt 60 000 órányi angol nyelvű beszédadattal képezték ki. A program különlegessége, hogy a mesterséges intelligencia hangja képes utánozni a beszélő hangszínét és érzelmeit is. A Cornell Egyetem kutatói több hangot vagy mondatot generáltak, amelyek meghallgathatók a GitHubon keresztül. A minőség azonban változó: egyes felvételek meggyőzően és természetesen hangzanak, mások viszont inkább mesterkéltek. Nem szabad azonban elfelejteni, hogy a kiindulópontokat három másodperces minták jelentették. Minél többet képezik a mesterséges intelligenciát, annál jobb lesz az eredmény és a technológia még mindig tanul.

A Vall-E egyelőre nem nyilvános, így nem próbálhatja ki bárki, hogy mennyire jól vagy meggyőzően működik, de ez talán jó is, mert sejthető, milyen károkat okozhat egy ilyen megoldás és a hozzá kapcsolódó hamisítványok.

Kapcsolódó linkek

Listázás a fórumban 
Adatvédelmi beállítások