A részletesség határait feszegeti a Midjourney 6-os verziója

2024. január 7. 13:03, Vasárnap

Fejlesztés alatt áll a Midjourney képgenerátor hatos verziója, amelynek alfa kiadását bárki kipróbálhatja. A téli szünet alatt a modell rajongói próbára tették az új MI tudását, és az eredményeket megosztották a közösségi médiában. A tesztelők a jelenleg alapértelmezett v5.2-es verzióhoz képest sokkal több részletet és másfajta megközelítést figyeltek meg a promptolásban. A 6-os verzió már szöveggenerálásra is képes, de messze nem éri el a vezető chatbotok színvonalát.

A Discordon tett bejelentésében David Holz, a Midjourney készítője ismertette a v6-os verzió változásait, amely szerint az sokkal érzékenyebben reagál az utasításokra. Nem kell a parancssorba írni olyan dolgokat, mint "díjnyertes, fotórealisztikus, 4k, 8k", hanem egyértelműen azt, amit az ember látni szeretne. "Ez határozottan vad frissítés, jó és kevésbé jó értelemben egyaránt" - mondta Julie Wieland művész, aki gyakran osztja meg Midjourney alkotásait az interneten. "A részletek és a táj őrületes, a hátránya, hogy az alkotások nagyon nagy kontrasztúak és túlságosan telítettek. Alkalmazkodni kell és át kell gondolni a parancsokat, új struktúrákat kell kitalálni, mert most a kevesebb több a prompt tekintetében."

A mesterséges intelligencia által generált részletek drámaian megugrottak a Midjourney főbb verziói során, így felmerülhet a kérdés, hogy létezik-e olyan, hogy "túl sok részlet" egy mesterséges intelligencia által generált képen. A Midjourney v6 úgy tűnik, hogy éppen ezt a kérdést teszteli, mivel sok olyan képet hoz létre, amelyek néha irreális módon részletesebbnek tűnnek a valóságnál. Az új modell néha rosszabb eredményeket produkál, mint a v5.2, de a Midjourney veteránok szerint ezek különbségek nagyrészt annak köszönhetőek, hogy a v6.0 másképp értelmezi a promptokat. Ezt a fejlesztők idővel folyamatosan frissítik. A Midjourney egy webes felületen is dolgozik, amely a jelenlegi, csak Discord-on elérhető alternatívája, és potenciális helyettesítője lesz. Az új felülettől azt várják, hogy a Midjourney közönségét szélesítse, mivel hozzáférhetőbbé teszi azt.

A többi elérhető MI képszintetizáló modellel összehasonlítva a Midjourney még mindig a fotórealizmus bajnoka, de a DALL-E 3 és a Stable Diffusion XL finomhangolt változatai nem sokkal maradnak le mögötte. A DALL-E 3-mal összehasonlítva a Midjourney v6 lemarad a prompt hűség kategóriában, ugyanakkor a v6 a v5.2-nél jobban kezeli a leíró jellegű promptokat. "A 6-os verzió egy kicsit természetesebb nyelvezetű, kevesebb kulcsszót kell használni hozzá" - mondja Wieland.

Abraham Lincoln számítógépet használva ül asztala előtt - felül a DALL-E 3, alul a Midjourney v6 alkotása
A technikai fejlesztések ellenére a Midjourney továbbra is erősen megosztó és ellentmondásos termék. A szolgáltatás kritikusai erősen nehezményezik, hogy a Midjourney a modelljeit az internetről származó és engedély nélkül megszerzett, ember alkotta műalkotások felhasználásával képzi ki. A közösségi médiában annak sem jó a híre, hogy a technológia képes szimulálni számos létező művész stílusát. A képgenerátor képzési adatállományában szereplő művészek és stílusok novemberben kerültek nyilvánosságra a Midjourney ellen indított szerzői jogi per során, mert a cég semmilyen módon nem ellentételezi az alkotók műveinek felhasználását.

Néhány mesterséges intelligencia-modellt gyártó vállalat - például az Adobe - ezeket a problémákat úgy igyekszik elkerülni, hogy modelljeit csak engedélyezett képeken képzi ki. A Midjourney erőssége azonban vitathatatlanul abban rejlik, hogy képes a szellemi tulajdonnal való gyors és laza játékra. Tagadhatatlanul olcsóbb ingyenesen letölteni a képzési adatokat az internetről, mint több százmillió képet licencelni. Amíg nem oldódik meg az ilyen típusú adatgyűjtés jogszerűsége, vagy a Midjourney nem alkalmaz más képzési megközelítést addig nem számít, hogy a Midjourney mennyire részletes vagy ügyes, az etikája továbbra is vitatott lesz.

Kapcsolódó cikkek

Listázás a fórumban