Digitalizace textu - OCR - Webové stránky

Digitalizace textu pomocí online nástroje

Každý potřebuje občas bez námahy zdigitalizovat nějaký text z tištěné předlohy. K tomu slouží OCR aplikace, které mají většinou u sebe dnes k sobě přibalené tiskárny, nebo skenery. Potíž je v tom, že v českém prostředí dávají často neuspokojivé výsledky. Koupil jsem si nedávno nový skener a zkoušel, zda si přiložené OCR poradí s textem knihy, kterou jsem se chystal zdigitalizovat. Text byl psaný obyčejným fontem, kontrast dostatečný. Výsledek byl zklamáním a proto jsem se vrátil ke svému osvědčenému online OCR, který naleznete na stránce PDF to Word .

Aplikace na stránce www.onlineocr.net umožňuje nastavit si jazykové prostředí a pak stačí jen uploadovat naskenovanou stránku v některém běžném formátu (jpg, tif, pdf …) a zkonvertovat. Na výběr je několik textových formátů, které lze ihned po konverzi stáhnout. Výsledek je překvapující, protože převedený text má správnou diakritiku a chyb není mnoho. Většina lze odstranit hromadným nahrazením, nebo postupně pomocí vyhledání a nahrazení. Hromadné nahrazení se nejvíce uplatní pochopitelně ve vícestránkovém textu, který je možné nahrát v placené verzi. Typicky je to vícestránkové pdf. Na konci textu uvedu některé nahrazující vzory.

Tento online OCR je nejlepší volbou, kterou jsem našel. Jako jediný nemá žádný problém s českými znaky a jsem si téměř jist, že používá nějaký slovník, který eliminuje nesmyslná slova a dává, s přihlédnutím k variabilitě českého jazyka se svými předponami a příponami, velice solidní výsledky.

Některé nahrazovací vzory

Úplné	Postupné
¬ > null	pin > pln (piné)
“ > ”	tornu > tomu
d’in > ďm	– > null (dělení slov)
d‘ > ď
t‘ > ť
ěi > či

Úplné

Postupné

¬ > null

pin > pln (piné)

“ > ”

tornu > tomu

d’in > ďm

– > null (dělení slov)

d‘ > ď

t‘ > ť

ěi > či

Pomluva na internetu

Blog, Rady a návody

+420 774 640 121

E-mail

Blog, Rady a návody

23.11.2018

Digitalizace textu – OCR

Digitalizace textu pomocí online nástroje

Některé nahrazovací vzory

Další články

Úvod do návodů

Přestavba webových stránek a SEO

Responzivní webdesign

Návod na používání editoru v Drupalu

Návod na používání editoru ve WordPressu

Český internet blízké budoucnosti

Má Facebook na webových stránkách smysl?

Webové stránky a SEO v roce 2015

Webové stránky a redakční systémy

Pomluva na internetu

Napadení webu hackery

Vědecké SEO

Webové stránky .com