Zenetömörítés az MP3 ezredrészére

2008. április 5. 18:41, Szombat

A Rochester Egyetem kutatói egy mp3 fájl közel ezredrészére tömörítettek egy zenerészletet. A 20 másodperces klarinét szólót kevesebb mint 1 kilobájtba sűrítették be. Az eljárás nem a hang felvételén, hanem hangszer és használatának újraalkotásán alapul.

A technikáról a Las Vegasban tartott Nemzetközi Akusztikus Beszéd- és Jelfeldolgozási Konferencián számoltak be, a kutatók szerint az eredeti előadás reprodukálása még nem tökéletes, azonban egyre közelebb kerülnek a célhoz.

A technika egyik kiagyalója, Mark Bocko professzor elmondta, gyakorlatilag a hangszer és a hangszeren játszott zene előadásának a reprodukálására hoztak létre egy rendszert, modellezve a klarinét és az azt megszólaltató zenész valós fizikáját. A professzor szerint nincs szükség a digitális technikák által alkalmazott, másodpercenkénti több ezer mintavételezésre, mivel az előadó ennél jóval lassabban használja a hangok képzéséhez szükséges szerveit, a klarinét esetében a tüdejét, nyelvét, ujjait. Ennek fényében elvileg most sikerült megtalálni egy zenedarab újraalkotásához szükséges lehető legkevesebb adatot, állítja Bocko.

A zene visszajátszásához a számítógép szó szerint újraalkotja az eredeti előadást azon ismeretei alapján, amit a klarinétról és a klarinétozásról tanult, illetve beleprogramoztak. Bocko hallgatóival felmérte a klarinét tulajdonságait és azok hangbefolyásoló tényezőit, a fúvóka vissznyomásától a különböző ujjmozdulatoknál, egészen a hang kisugárzásáig. Ezután elkészítették a klarinét számítógépes modelljét, a kapott virtuális hangszer így teljes egészében a valódi akusztikus mérésekre épül.

A virtuális hangszerhez kellett egy virtuális zenész is. A kutatók lemodellezték a játékos és a hangszer kapcsolatát, beleértve az ujj játékát, a kifújt levegő erejét és a játékos ajkai által kifejtett nyomást, hogy megállapíthassák, hogyan befolyásolja mindez a klarinétot, majd a kapott adathalmazt levetítették a virtuális hangszerre. Ezután a számítógéppel valódi klarinét előadást "hallgattattak", hogy az kikövetkeztethesse és rögzíthesse egy adott hang létrehozásához szükséges tevékenységeket.

Végül a játékos által végrehajtott mozzanatokat betáplálták a számítógépes modellbe és megpróbálták reprodukálni az eredeti hangot. Jelenleg a végeredmény nagyon közel áll az eredeti előadáshoz, ha még nem is tökéletes. Az itt meghallgatható két felvétel .wav formátumban került fel a világhálóra az összehasonlításhoz.

"Még dolgozunk a nyelv mozgásának modellezésén, hogy tökéletesebbé tegyük a hangok kezdését a staccato szakaszokban" - mondta Bocko. "A jobban kitartott és jobban összefonódó hangokból felépülő zenéknél a módszer kifejezetten jól működik, és valóban nehéz megkülönböztetni a szintetizált hangot az eredetitől"

A módszer finomításától a kutatók azt remélik, hogy a számítógépes zenészek még kifejezőbb zenéket alkothatnak a virtuális zenész beépítésével szintetizátoraikba. És bár az emberi vokális terület rendkívül összetett, Bocko szerint a módszer alapelveit tekintve az emberi hangképzés modellezésére is kiterjeszthető. A jelenlegi módszer egyszerre csak egy hangszert kezel, az Egyetem Zenei Kutató Laboratóriumának egy másik munkája, amit Gordana Velikic és Dave Headlam professzor vezet, előállított egy eljárást a különböző hangszerek szétválasztásához egy egyvelegben, így a két módszer kombinálásával egészen összetett hangfelvétel készíthető majd.

Bocko meggyőződése, hogy a minőség folyamatosan javulni fog az akusztikus mérések és az ebből eredő szintézis algoritmusok pontosabbá válásával, ez a folyamat pedig a zenei adattömörítés lehetséges maximumát jelentheti. "Talán a zenerögzítés jövője az előadók reprodukálásában és nem a felvételükben rejlik" - vélekedett Bocko.

Kapcsolódó cikkek

Listázás a fórumban