SG.hu Fórum - Nyílt formátumra vált a Google Books

Cikk olvasása: Nyílt formátumra vált a Google Books

Fórum / Informatikai hírek fóruma

Ebbe a fórumba csak regisztrált és bejelentkezett fórumozók írhatnak!

Bejelentkezés

KillerBee 2009. aug. 30. 08:49 | válasz | #10
Világos, csak az már nem automatizálható, emberórák kellenek hozzá. Plusz gyakorság-elemzés sem árt, különben jönnek az olyan felismerési hibák, mint pl. a comer-corner, amellyel sok angol szövegben találkoztam már. Az r és az n majdnem összeolvadása miatt igen gyakori, hogy a corner helyett comer kerül a szövegbe, mert kétség esetén az OCR a szótárban elõrébb álló szót alkalmazta, holott a comer önálló szóként olyan ritka, mint a fehér holló - ellentétben a cornerrel.

Válasz 'Epikurosz' üzenetére (#9)
Epikurosz 2009. aug. 30. 01:24 | válasz | #9
A skálázásnak nincs akadálya, mert a 150 dpi-s képeket is jól kezeli.

Az, hogy volt szöveg dögivel, elhiszem, de nem olyan, amit én írtam.
Egyébként, ha van egy csomó szöveged, arra rá lehet ereszteni a helyesírásellenõrzõt, és kiválogatni az összes olyan szót, amelyet a gép nem ismer fel, majd esetleg azt, ami emberi ellenõrzés szerint mégis jó, vissza lehet dobni.

Válasz 'KillerBee' üzenetére (#8)
KillerBee 2009. aug. 30. 01:03 | válasz | #8
Tudom, hogy a 300 dpi a "szabvány" az OCR-nél. A beszkennelt grafikus file fejléce elvileg érvényes felbontási adatot tartalmaz, így a skálázásnak nem lenne akadálya. Bizonyára azért maradnak meg a fejlesztõk a 300 dpi mellett, mert a fejlécben lévõ felbontás-infó gyakran tényleg csak elvileg érvényes.

Nem hinném, hogy a tiédet használják, egy ilyen program elkészítése pár perces munka bármely adatbázis-kezelõben, szövegek pedig dögivel rendelkezésre állnak. Nagyobb gond az elírások és a helyesírási hibák kiszûrése, nehogy hibás szavak, szóalakok is belekerüljenek az adatbázisba.

Válasz 'Epikurosz' üzenetére (#7)
Epikurosz 2009. aug. 29. 18:55 | válasz | #7
Az OCR esetében a szabvány felbontás 300 dpi volt mindig, és az is marad.
A FineReadernek eleinte nem volt magyar nyelvû szótára, de lehetõséget biztosított, hogy a felhasználó saját szótárat hozzon létre, és azt hozzárendelje az adott nyelvhez. Én évekkel ezelõtt készítettem egy kis progit, amely nagy szövegállományokból szóadatbázist nyert ki (gyakorlatilag adatbázist készített a szövegben szereplõ szavakról, majd kidobálta a többszörös elõfordulásokat).

Még az is lehet, hogy most azt a szótárt használja a FR, mert én a rendszerem nyitottá tettem a részükre (automatikus visszajelzések stb.)
KillerBee 2009. aug. 28. 18:39 | válasz | #6
Nekem nem volt ilyen problémám, pedig már több könyvet szkenneltem és OCR-eztem. Eleinte Recognitával, majd késõbb Finereaderrel. Úgy rémlik, a Finereadernek is van magyar szótára, mert igen kevés olyan szó volt, amire rákérdezett. Na meg a szótár sem jelent 100%-os megoldást, ha több lehetõség közül kell választani. Korrektúrázni mindenképpen kell.

Nem mindegy, milyen felbontásban szkennel az ember. Én elõször azt hittem, jobb lesz a 600 dpi, de aztán kiderült, hogy sokkal többet hibázik, mint ha ugyanazt 300 dpi-vel szkennelem be.

Válasz 'Palinko' üzenetére (#4)
Epikurosz 2009. aug. 28. 15:38 | válasz | #5
Az Omnipage-nek van magyar szótára.
Én egy korábbi hsz-emben írtam, hogy a FineReadernek is. Nos, ebben nem vagyok biztos, de nekem van a FineReader alá telepített saját szótár, így ismeri a magyar szavakat is.

Válasz 'Palinko' üzenetére (#4)
Palinko 2009. aug. 28. 15:33 | válasz | #4
jaja, de remélem lesz valami fejlesztés az OCR ek között, mert nekem magyar nyelvû szöveget, új könyvbõl, akárhogy is scanneltem nem igazán olvasott be csak rengeteg hibával... na majd meglátjuk.

Válasz 'KillerBee' üzenetére (#2)
gulyasandras 2009. aug. 28. 15:21 | válasz | #3
"sokkal szélesebb körhöz jutnak el az írott mûvek, mint azt korábban megszokhattuk"

Az én környezetemben már alig olvas valaki (a fajsúlyosabb könyveket ne is hozzuk szóba). Bár erre mindig azt a választ szoktam kapni, hogy mindegy mit olvasunk, csak olvassunk. Tényleg mindegy, hogy Danielle Steel vagy Lawrence Durrell?

Ha jól emlékszem több felmérés szerint az olvasás jelentõsen visszaszorult más szabadidõs tevékenységekhez képest, és nem hiszem, hogy még ilyen fejlett technológiai segítséggel is újra az élre törhetne.
KillerBee 2009. aug. 28. 13:32 | válasz | #2
Nagyon rokonszenves döntés,

"fotókat készítenek minden egyes oldalról, ezt követõen pedig egy speciális eljárással kinyerik a szöveget"

Azt a "speciális eljárást" OCR-nek (optical character recognition) hívják. Ez még messze nem elég a hibátlan szöveghez, mert az OCR-program is hibázik, csak emberi felügyelet (korrektor) mellett célszerû használni. A végén egy proofreading sem árt.

"Az e-olvasó készülékek terjedésével ez még igaz is lehet."

Nélkülük is igaz már régóta.
moikboy 2009. aug. 28. 13:15 | válasz | #1
Nah, akik a sony e-readeres topikban sírtak a pdf-támogatás hiánya miatt, azok most örülhetnek.