Distributed Proofreaders: beszkennelsz egy könyvet, majd beküldöd lektorálásra. Több lépcsõben, önkéntesek ellenõrzik a szöveget.t, majd a könyv bekerül a Gutenberg projektbe. Szerintem a magyar része még nem igazán mûködik, valszeg kevés az önkéntes.
Épp beszkenneltem elég sok oldalt, és FineReaderrel OCR-eztem. A kilencessel. Ez már butális! Lényegében egyetlen hibát sem ejt a bestia, csak ott téved, ahol a papíron valami folt van, vagy gyûrõdött. Pedig a könyv betûkészlete nem most volt papírra vetve, hisz kb. 28 éves könyvrõl van szó. A sorvégeknél található elválasztójelek kiszedését kellett kézileg megoldanom, de szerintem ezt is be lehet állítani valahol.
Nekiestem a szkenner belsõ fedelén lévõ hófehér kartonlapnak, és filctollal sötétkékre festettem (épp nem volt fekete filcem). Ilyen lett: (Akár háttérképnek is beállíthatod! :-)
Hülyeség volt, mert macerás, helyette venni kell egy fekete papírlapot, és felragasztani.
A nagyon jó hírem az, hogy nem kell min. 65k ft-ért dokumentumszkennert venni, mert azoknál a multifunkciós nyomtatóknál, amelyeknél feltüntetik, hogy a szkenner tudja az ADF-et, 20 lapot automatikusan adagol a beolvasó.
ben gurion véletlenül nem az egyik legbrutálisabb zsidó terrorista volt aki késõbb elnök lett? :D
A fineReadernek is van szótára.
Jonah: Nekem tényleg nagy a mellényem. És igenis ez egy jelentõs oldal, mert különben nem jönnél ide. Bummm! Itt egyébként a hosszú élet titka meleltt tudomást szerezhetsz az ufókról, a következõ magyar kormány politikai összetételérõl, a relativitás elmélet mellett a húrelméletrõl és a villanyautóról is.
Ha neked ez nem tetszik, lehet menni a zIndex szemétdombjára. Én amióta idejárok, a koleszterinszintem csökkent 50 százalékponttal, õszülõ hajszálaim visszanyerték serdülõkori színüket, és elmúlt a lábkörömgombám is.
a karakter felismerés viszont más téma mint a feltételvizsgálat. Dehát te okos vagy, biztos ezt is tudod, ha már mindenkit ilyen nagy mellénnyel leosztasz.. én csak erre próbáltalak rávezetni iróniával. De ahogy elnézem, túl komolyra veszed a szereped egy jelentéktelen oldalon.
"Egy if (x>threshold) feltételvizsgálatot nem neveznék algoritmusnak..."
Pedig errol van szo, annyival kiegeszitve, hogy: -feher: x>threshold1 -fekete: x<=threshold1 && x>=threshold2 -kerdeses: x<threshold2 ahol threshold1/2-t ugy kell megvalsztani, hogy maximalis kontrasztot kapjunk (akar mind a 256 ertekre vegig lehet probaltatni a programmal es ami a legnagyobb kontrasztot adja az a jo)
A karakterek osszehasonlitasara a mintaillesztes a gyakori, ami gyakorlatilag jopar egymasba agyazott for ciklus, kozepen a minta es a vizsgalt kep pixel kulonbsegeinek szorasnegyzet/szorodas osszegenek minimumat kereso algoritmussal. Ahol ez az osszeg a legkissebb, az a kepreszlet/betu hasonlit legjobban a minta adatbazis adott bejegyzesere. Igy minden betut hasonlosagi valoszinuseg szerint sorba lehet rakni, majd ezek kozzul kell kivalasztani a legvaloszinubbet. (a recognita meg megdobta egy szotarral is, igy a valoszinu betuk kozzul azokat a betuket valasztotta amik legvaloszinubben adtak ertelmes szavakat)
Te, figyu!
Ha te ilyen okos vagy, akkor miért nem írsz ilyen OCR-t? A FineReader meg az Omnipage, vagy a Readiris azok ilyen kis for..while ciklusos szubrutinok, mi?
GoldenKéz: Nekem az a bajom a jelenlegi szkenneremmel, hogy ha kétoldalas nyomatot teszek be, a hátlapon lévõ akármi átüt. Tisztára palimpszeszt.
Rájttem, hogy a fedõ aljára, amit ráhajtok a szkennelendõ lapra, egy fehér papírszerû réteg van rögzítve, amely valamennyire fényáteresztõ. A megoldás az, hogy a szekkenelendõ lapot egy fekete színû lappal takarom le, nem a fedéllel. Jelenleg egy mûanyag jegyzetelõt használok erre.
Az a vicc az egészben, hogy nekem, sima fogyasztónak kell ilyeneket kitalálnom, azok a rohadt tervezõk és gyártók erre nem jöttek rá. Mert szerintük mindenki csak egyoldalas nyomato szkennel. A marhák. Tele van amúgy a világ ilyen "szakértõkkel". Kiadnak a kezükbõl egy terméket, de hogy végig próbálják vele a felhasználó által végzendõ feladatokat, arra nem képesek. Ja, ez egy epson szkenner, de a többi sem különb.
Már eldöntöttem, hogy ennek a fehér fedélbélésnek majd egyszer nekiesek, és fekete színûre lefestem.
Egyszer szórakoztam avval hogy beszkennelt blokkot próbáltam manipulálni (nagyon kis hatókörû lokális normalizációval ha valakit érdekel) amikor feltûnt hogy valami koszt látok rajta. Hát nem a másik oldalán levõ szöveget sikerült kinyernem? :)
persze, van elõtte egy egymásba ágyazott for ciklus :D
De az is lehet, hogy class-ba szervezték és most suliba jár ovi helyett :DDD
Ha a régi és az új pontosan fedik egymást, akkor ugyanazt írták :) Szerintem a betûk átfedése nem gond, az olyan, mint a halmaz metszete.
A thresholding azt jelenti, hogy egy adott szurkeseg feletti, alatti vagy ket ertek kozotti tartomanyt veszi figyelembe. A recognita pont ezt tette, egy adott ertek felett vizsgalt, mig ez a szoftver ket adott ertek kozott.
A fedesben levo teruletek ilyenkor feherek (kerdojelesek) maradnak, pont ugy mint amikor hibazik a fax vagy foltot hagy a fenymasolo, esetleg kopott az irogep kalapacsa. Ez egyetlen kulonbseg, hogy itt gyakori ez a fajta hiba. Ezt statisztikai szurokkel lehet korrigalni ahogy a recognita is tette. Ok ezt inpainting-nek hivjak.
A fenti kepbol thresholding-al lehet csinalni egy olyan fekete feher kepet, ami tartalmaz feher (papir), fekete (eredetileg szurke) es kerdojeles terluleteket (eredetileg az ujabb fekete tinta), majd egy statisztikai szurovel meg lehet nezni, hogy az adott irasjelek kepei kozzul melyikre hasonlit legjobban a hianyos betu es ha a hianyzo resz nagyjabol csak a kerdojeles reszre esik, akkor azt nagy bizonyossaggal ki lehet tolteni. Nem nehez feladat, hasonloak adnak kepfeldolgozas szaktargybol laborgyakorlatokon...
Ez egy specializált OCR szoftver. Nem hiszem, hogy a Recognita (ma Omnipage) használna ún. tresholding technikát. A pöttyök eltüntetése nem ugyanez. Itt, ha jól értem, arról van szó, hogy a régi írás haloványabb, mint a késõbbi. Nosza, be kell állítani egy olyan tónus vagy ilyesmi küszöbértéket, amely felett a szoftver kiszûri a mintákat, az elmosódottakat pedig meghagyja, és voilá, elõbukkan a régi szöveg. De mi történik, ha a régi és az új pontosan fedik egymást? Marad, nem marad? Erre is biztos gondoltak.
A technologia nagyon regi (meg itthon is tanitjak egyetemen algoritmuselmeletbol), viszont jo latni, hogy vegre hasznaljak is valamire. Szvsz. anno a recognita szovegfelismero hasznalta faxolt es foltosra fenymasolt szovegek feldolgozasahoz.