23.11.2018

Digitalizace textu – OCR

Digitalizace textu pomocí online nástroje

Každý potřebuje občas bez námahy zdigitalizovat nějaký text z tištěné předlohy. K tomu slouží OCR aplikace, které mají většinou u sebe dnes k sobě přibalené tiskárny, nebo skenery. Potíž je v tom, že v českém prostředí dávají často neuspokojivé výsledky. Koupil jsem si nedávno nový skener a zkoušel, zda si přiložené OCR poradí s textem knihy, kterou jsem se chystal zdigitalizovat. Text byl psaný obyčejným fontem, kontrast dostatečný. Výsledek byl zklamáním a proto jsem se vrátil ke svému osvědčenému online OCR, který naleznete na stránce PDF to Word .

Aplikace na stránce www.onlineocr.net umožňuje nastavit si jazykové prostředí a pak stačí jen uploadovat naskenovanou stránku v některém běžném formátu (jpg, tif, pdf …) a zkonvertovat. Na výběr je několik textových formátů, které lze ihned po konverzi stáhnout. Výsledek je překvapující, protože převedený text má správnou diakritiku a chyb není mnoho. Většina lze odstranit hromadným nahrazením, nebo postupně pomocí vyhledání a nahrazení. Hromadné nahrazení se nejvíce uplatní pochopitelně ve vícestránkovém textu, který je možné nahrát v placené verzi. Typicky je to vícestránkové pdf. Na konci textu uvedu některé nahrazující vzory.

Tento online OCR je nejlepší volbou, kterou jsem našel. Jako jediný nemá žádný problém s českými znaky a jsem si téměř jist, že používá nějaký slovník, který eliminuje nesmyslná slova a dává, s přihlédnutím k variabilitě českého jazyka se svými předponami a příponami, velice solidní výsledky.

Některé nahrazovací vzory

Úplné Postupné
¬ > null pin > pln (piné)
“ > ” tornu > tomu
d’in > ďm – > null (dělení slov)
d‘ > ď
t‘ > ť
ěi > či