Vydaný Pytesseract vo verzií v0.3.7

20.11.2020 | 23:36 | bedňa | Nová verzia

Pytesseract alias Python Tesseract je nástroj pre optické rozpoznávanie znakov (OCR) pre Python. To znamená, že rozpozná a „prečíta“ text vložený do obrázkov.

[zlomová zmena] Podpora Pythonu 2 a 3.5 bola zrušená - dôvod je koniec životnosti. Migrácia na GitHub Actions CI a pre-commit.ci pre linting. Pridaná nová funkcia get_languages a pár opráv chýb.

Zdroj: GitHub

    • RE: Vydaný Pytesseract vo verzií v0.3.7 21.11.2020 | 00:02
      Avatar Pavel Q4OS, DistroWatch  Administrátor

      Existuje v Linuxe nejaký spoľahlivý a jednoduchý OCR program? Tuším že som skúšal v práci Online OCR keď sme narýchlo potrebovali vytiahnuť text zo skenu. Ale výsledok si už nepamätám a nie je na škodu mať taký soft v zálohe,,,

      • RE: Vydaný Pytesseract vo verzií v0.3.7 21.11.2020 | 15:16
        Avatar yonny   Návštevník

        Jednoduchý - áno... spoľahlivý - NIE :D

      • RE: Vydaný Pytesseract vo verzií v0.3.7 21.11.2020 | 16:41
        Avatar bedňa LegacyIce-antiX  Administrátor

        Ninštaluj si tesseract-ocr a k tomu jazyky ktoré potrebuješ napr. Slovenčinu tesseract-ocr-slk

        tesseract -l slk obrázok.jpg  text

        Výsledný text nájdeš v súbore text.txt Tesseract je pre naše jazyky asi najspoľahlivejší. Dokumenty je občas dobré pred OCR trochu upraviť, napr zosvetliť a mierne rozmazanie tiež pomáha. Ďalej sa dá použiť na korekciu nejaký slovník.

        Táto správa neobsahuje vírus, pretože nepoužívam MS Windows. http://kernelultras.org
    • RE: Vydaný Pytesseract vo verzií v0.3.7 15.12.2020 | 21:36
      Avatar Pavel Q4OS, DistroWatch  Administrátor

      Našiel som gui pre tesseract-ocr, možno sa niekomu hodí - gImageReader