Thunar - vytvor zoznam slov
Aké slová sa vyskytujú v tomto TXT dokumente? A ktoré bolo koľkokrát použité?
Pridám dve "Vlastné akcie" do Thunaru.
1) Vytvor zoznam slov použitých v TXT dokumente
Názov: Zoznam slov
Popis: vytvor zoznam slov použitých v súbore
Príkaz: grep -o -E '\w+' %f | sort -u -f > zoznam_slov.txt
Podmienky zobrazenia: Textové súbory
2) Zoznam slov v danom dokumente aj s počtom
Názov: Zoznam slov s počtom
Popis: koľkokrát sa ktoré slovo opakuje?
Príkaz: sed -e 's/[^[:alpha:]]/ /g' %f | tr '\n' " " | tr -s " " | tr " " '\n'| tr 'A-Z' 'a-z' | sort | uniq -c | sort -nr | nl > zoznam_slov.txt
Podmienky zobrazenia: Textové súbory
Ikonky si zvoľte aké chcete, alebo aj žiadne. Ak si dáte pred niektoré písmeno v Názve podčiarkovník, bude to ako jednoklávesová skratka.
V oboch prípadoch dostanete súbor zoznam_slov.txt. Jeho názov si môžete zmeniť na konci každého príkazu.
Ako zdroj berie %f - teda jeden označený súbor.
A k čomu je to dobré?
V texte mám niekoľkými spôsobmi zapísaný (preložený) ten istý názov, meno mesta, ktoré potrebujem ujednotiť.
Napr.: Tsar-Grad, car-grad, cára-grad, cargrad, kargrad, .... Toto všetko má byť Carihrad
Ak to budem vyhľadávať ručne, teda všetky možné, aj nemožné variácie, ľahko môžem niečo prehliadnuť, nenaraziť na to. Vďaka zoznamu to viem ľahšie vyfiltrovať.
Zoznam sa dá zoradiť a rýchlo nájdem použité mená, názvy, ..., sú väčšinou pekne veľkým začiatočným písmom :)
edit 14.06.2024
Na vyfiltrovanie týchto som našiel jeden príkaz, tak pridávam ďalšiu "vlastnú akciu":
3) Zoznam slov v danom dokumente písaných veľkým písmom
Názov: Zoznam slov s VEĽKÝM PÍSMOM
Popis:
Príkaz: grep -oP "\w*[A-Z]+\w*" %f | sort -u -f > zoznam_slov_VEĽKÉ_PÍSMO.txt
Podmienky zobrazenia: Textové súbory
Ten druhý výstup, ten je vlastne len ako bonus. Zatiaľ som nenašiel preň použitie. Ale niekomu možno príde vhod.
Pre pridávanie komentárov sa musíte prihlásiť.
Ďakujeme za tento i predchádzajúci príspevok. Je skvelé, ako fantasticky funguje celá tá unixová filozofia reťazenia jednoúčelových nástrojov.
trochu som to upravil a doplnil o bod 3)
:)