Co je OCR (Optical Character Recognition)

OCR (anglicky Optical Character Recognition) je technologie umožňující převod různých druhů „statických dokumentů“ jako jsou naskenované knihy, PDF soubory nebo dokumenty vyfocené digitálním fotoaparátem do podoby umožňující úpravy textu a dalšího obsahu. Snaha vytvořit z tištěných dokumentů digitální a v počítači editovatelné texty bez nutnosti otrockého přepisování se objevila na přelomu 19. a 20. století a gradovala spolu s rozvojem elektronických počítačů. Už v červnu roku 1933 si ve Spojených státech podal Paul W. Handel z General Electric žádost o patent přístroje s názvem Statistical machine. Z dnešního pohledu primitivní, avšak převratné zařízení umělo rozeznat tištěná čísla.

Po téměř sto letech vývoje tu máme OCR systémy, které dokáží digitalizovat celé fondy knihoven a softwarové aplikace, jež dokáží uspokojit digitalizační potřeby všech, od velkých korporací až po koncové uživatele. V našem stručném přehledu se zaměříme na nejznámější komerční softwarové aplikace pro Windows, představíme si několik webových služeb a nakonec si názorně ukážeme, jak na OCR zdarma a především česky.