Otvaranie .doc .exe .ppt v Jave

Sekcia: Programovanie 09.02.2010 | 22:12
Avatar deidara1512 Debian  Používateľ
Caute,
mam taku mozno specialnu pozidavku tak zacnem od podlahy:
Robim program ktory nacita retazec, particiu disku/adresar a vo vsetkych suboroch/podadresaroch vyhlada dany retazec-jednoduche. No vyskytol sa tu mensi problem-na disku mozu byt aj subory ako .doc .exe .ppt atd. Tak by ma zaujimalo ci nato v jave uz niekto nieco nevymyslel(ide mi len o retazec ako taky, podrobnosti typu font,size,color ) .

P.S. Hlavne nech je to free a nemusim zato platit

Dakujem
    • Re: Otvaranie .doc .exe .ppt v Jave 09.02.2010 | 23:02
      Avatar Dare_devil Debian, OpenSuse  Používateľ
      No ja by som to urobil asi najjednoduchsou metodou... budem pisat "kod" od oka, netusim ako sa pise java, som phpckar

      povolene pripony = '','txt','sh','msg','log'

      / tu si nacitam subory a hodim to do cyklu /

      nazov suboru = "mysql.and.httpd.log"

      / ak je viac bodiek , vyber poslednu priponu, ak iba jedna tak vyber tu priponu /

      ak ( pripona sa nachadza v poli povolenych pripon )
      >> dobry subor, najdi v nom retazec a chod dalej
      else
      >> narazili sme na neprijatelny subor, idem na dalsi

      Nejaky problem?
      There is no flag large enough to cover the shame of killing innocent people
      • Re: Otvaranie .doc .exe .ppt v Jave 09.02.2010 | 23:39
        Avatar deidara1512 Debian  Používateľ
        noo mne ide o to ze ten retazec potrebujem hladat aj v tom "neprijatelnom subore". Programy ktore formatuju text vzdy si okolo neho nieco zapisuju, no a ja sa potrebujem zbavit toho "odpadu" a dostat len klasicky text...

        Poznamka:
        Ked som si subor napisany v MS Worde 2000 otvoril vo Vime mam same '@' a '^' ale niekde tam uprostred sa nachadza text v neposkodenom stave=>staci odfiltrovat tie nepotrebne znaky a vsetko je ok. Ale OpenOffice uplne zasifruje text na nepoznanie a to ja potrebujem odstranit a dostat obycajny text.
        • Re: Otvaranie .doc .exe .ppt v Jave 09.02.2010 | 23:44
          Avatar borg Fedora  Administrátor
          no skus si najst javovske kniznice pre pracu s danymi typmi suborov. pripadne si otvor ten subor v binarnom mode a parsuj nejako stringy. napr. na xls subory existuje jexcel.
          • Re: Otvaranie .doc .exe .ppt v Jave 09.02.2010 | 23:57
            Avatar deidara1512 Debian  Používateľ
            ten JExcel vyzera zaujimavo, ale postuduje az zajtra :) tak dikes zatial
            • Re: Otvaranie .doc .exe .ppt v Jave 10.02.2010 | 00:06
              Avatar borg Fedora  Administrátor
              mozno budu kniznice aj na ine formaty suborov, ale to neviem. som to nepotreboval este
        • Re: Otvaranie .doc .exe .ppt v Jave 10.02.2010 | 00:29
          Avatar Fridolín Pokorný Fedora 21  Používateľ
          Mozno hladas nieco ako antiword.
          • Re: Otvaranie .doc .exe .ppt v Jave 10.02.2010 | 00:43
            WlaSaTy   Návštevník
            myslis nieco ako a2ps alebo toto?
            find / | xargs grep -A 2 -B 2 -i -e passw

            Nemyslim, skor chce nahradit projekt nepomuk.
    • Re: Otvaranie .doc .exe .ppt v Jave 10.02.2010 | 19:04
      Avatar deidara1512 Debian  Používateľ
      nooo ten JExcel vyzera dobre, ale nasile som aj Apache POI co je to iste len to je aj pre Word,P.Point atd...
      avsak aj v tom Apache poi nejak chybaju kniznice... je tam len ta pre .xls a .xlsx ale .doc .ppt nechapem preco neni v officialnom baliku(stiahol som vsetky verziu od 3.0 do 3.6 kedze len tie su dostupne a aj tak nic)
      Dokumentacia uvadza classy :ExcelExtractor WordExtractor ktore prevedu cely subor na String... co je presne to co potrebujem (ExcelExtractor funguje ale ostatne akoby sa vyparili) neviete co sa s nimi stalo ?