pdfbox a extrakcia textu
dufam, ze sa s tymto problemom uz niekto stretol a vedel by poradit. Ide o to, ze sa snazim v jave pomocou kniznice pdfbox extrahovat text z pdf.
Samotna kniznica funguje dobre, ale pdf o ktore mi ide, nevie extrahovat uplne, pravdepodobne kvoli vstavanym fontom. Spominane pdf napriklad toto.
Ma s tym niekto skusenost?
Pre pridávanie komentárov sa musíte prihlásiť.
-
-
Re: pdfbox a extrakcia textu 16.03.2010 | 20:39Dare_devil Debian, OpenSuse PoužívateľNo niečo píšu na http://www.pdfbox.org/userguide/fonts.htmlThere is no flag large enough to cover the shame of killing innocent people
-
Re: pdfbox a extrakcia textu 16.03.2010 | 22:20omdzor #! PoužívateľKed mne ani nie je jasne, o ake fonty sa jedna v tom dokumente a teda ktore pridat...#! /usr/bin/env python
-
-