Caute opat ja ale uz pri niecom inom. Neviete mi povedat preco mi tento script na pocitanie bigramov vymazava makcene. znamena to ze ak mam dvojicu slov vcera vecer nepocita mi to vcera vecer ale v era. Prosim povedzte mi kde mam chybu dik. #!/bin/bash cat /home/robo/Plocha/konverzia/UTF/*.txt | tr -sc "[:upper:][:lower:][0-9]" '[\012*]' | \ tr '[:upper:]' '[:lower:]' | \ awk -- 'prev!="" { print prev,$0; } { prev=$0; }' | \ sort | uniq -c | sort -nr | \ head -1000
bigramy trigramy
Pre pridávanie komentárov sa musíte prihlásiť.
Ukáž vstupný súbor.
take niejake ale mam ich okolo 1700
Hneď prvý čo som pozrel je OK, zrejme v iných súboroch nebude UTF8, to sa to potom rozbije, takže pred testom ich musíš skonvertovať na UTF8.
komplet vsetky su UTF-8
OK, čo ti vypíše locale?
protože
upper
alower
vtr
takhle nefunguje na háčky, zkusecho "VČERA"| tr '[:upper:]' '[:lower:]'
dávČera
imho, rozumnější to bude napsat celé v nějakém skriptovacím jazyce:
Uz som to napravil a funguju tak ako maju len som to musel upravit inak. Ale dikes i tak. Bigrami a trigramy boli nakoniec jednoduche celkom. Ale tetragram sa mi asi nepodari urobit to by malo zas scitat vsetky styri po sebe najcastejsie sa vyskytujuce slova. Dakto s tymto pomoct hm? tu je opraveny kod pre bigramy
#!/bin/bash cat /home/robo/Plocha/Knihy1.2/Strany/*.txt | tr ' ' '\ ' | tr '[:upper:]' '[:lower:]' | tr -d '[:punct:]' | grep -v '[^a-z]' | \ awk -- 'prev!="" { print prev,$0; } { prev=$0; }' | \ sort | uniq -c | sort -nr | \ head -1000 > bigramy.txt
a tu je to pre trigramy
#!/bin/bash cat /home/robo/Plocha/Knihy1.2/Strany/*.txt | tr ' ' '\ ' | tr '[:upper:]' '[:lower:]' | tr -d '[:punct:]' | grep -v '[^a-z]' | \ awk -- 'first!=""&&second!="" { print first,second,$0; } { first=second; second=$0; }' | \ sort | uniq -c | sort -nr | \ head -1025 > trigram.txt
ne, neopravil
Tu máš nakriptovane v BASH pre ľubovoľny n-gram.
Tu máš naskriptované v BASH pre ľubovoľný n-gram.
Oprava chybného kódu.
Ako duševné cvičenie OK ale vrtá mi v hlave, aký to má praktický význam?
Tiež som si dával túto otázku. Dúfam že to chce použiť ako sofistikované šifrovanie, alebo umelú inteligenciu a nie len ďalšiu zbytočnú štatistiku.