Vydaný Pytesseract vo verzií v0.3.7
Pytesseract alias Python Tesseract je nástroj pre optické rozpoznávanie znakov (OCR) pre Python. To znamená, že rozpozná a „prečíta“ text vložený do obrázkov.
[zlomová zmena] Podpora Pythonu 2 a 3.5 bola zrušená - dôvod je koniec životnosti. Migrácia na GitHub Actions CI a pre-commit.ci pre linting. Pridaná nová funkcia get_languages a pár opráv chýb.
Zdroj: GitHub
Pre pridávanie komentárov sa musíte prihlásiť.
Existuje v Linuxe nejaký spoľahlivý a jednoduchý OCR program? Tuším že som skúšal v práci Online OCR keď sme narýchlo potrebovali vytiahnuť text zo skenu. Ale výsledok si už nepamätám a nie je na škodu mať taký soft v zálohe,,,
Jednoduchý - áno... spoľahlivý - NIE :D
Ninštaluj si tesseract-ocr a k tomu jazyky ktoré potrebuješ napr. Slovenčinu tesseract-ocr-slk
Výsledný text nájdeš v súbore text.txt Tesseract je pre naše jazyky asi najspoľahlivejší. Dokumenty je občas dobré pred OCR trochu upraviť, napr zosvetliť a mierne rozmazanie tiež pomáha. Ďalej sa dá použiť na korekciu nejaký slovník.
Našiel som gui pre tesseract-ocr, možno sa niekomu hodí - gImageReader