bigramy trigramy

Sekcia: Programovanie 18.05 | 18:32
Avatar robo   Návštevník

Caute opat ja ale uz pri niecom inom. Neviete mi povedat preco mi tento script na pocitanie bigramov vymazava makcene. znamena to ze ak mam dvojicu slov vcera vecer nepocita mi to vcera vecer ale v era. Prosim povedzte mi kde mam chybu dik. #!/bin/bash cat /home/robo/Plocha/konverzia/UTF/*.txt | tr -sc "[:upper:][:lower:][0-9]" '[\012*]' | \ tr '[:upper:]' '[:lower:]' | \ awk -- 'prev!="" { print prev,$0; } { prev=$0; }' | \ sort | uniq -c | sort -nr | \ head -1000

    • RE: bigramy trigramy 18.05 | 19:56
      Avatar bedňa antiX, Devuan, LegacyIce  Administrátor

      Ukáž vstupný súbor.

      Táto správa neobsahuje vírus, pretože nepoužívam MS Windows. http://kernelultras.org
      • RE: bigramy trigramy 18.05 | 20:22
        Avatar robo   Návštevník

        take niejake ale mam ich okolo 1700

        • RE: bigramy trigramy 18.05 | 20:46
          Avatar bedňa antiX, Devuan, LegacyIce  Administrátor

          Hneď prvý čo som pozrel je OK, zrejme v iných súboroch nebude UTF8, to sa to potom rozbije, takže pred testom ich musíš skonvertovať na UTF8.

          Táto správa neobsahuje vírus, pretože nepoužívam MS Windows. http://kernelultras.org
          • RE: bigramy trigramy 18.05 | 20:51
            Avatar robo   Návštevník

            komplet vsetky su UTF-8

            • RE: bigramy trigramy 18.05 | 20:54
              Avatar bedňa antiX, Devuan, LegacyIce  Administrátor

              OK, čo ti vypíše locale?

              Táto správa neobsahuje vírus, pretože nepoužívam MS Windows. http://kernelultras.org
    • RE: bigramy trigramy 18.05 | 21:04
      Avatar wamba   Návštevník

      protože upper a lower v tr takhle nefunguje na háčky, zkus echo "VČERA"| tr '[:upper:]' '[:lower:]' vČera

      imho, rozumnější to bude napsat celé v nějakém skriptovacím jazyce:

      curl  http://linuxos.sk/media/attachment/comments_comment/80/279680/Adam-Sangala-Jege.txt 2>/dev/null | perl6 -e 'put  slurp().lc.match( /\w\w/,:ov,:g, )».Str.Bag.sort(*.value).reverse.head(10)'
      al      3822 ko 3449 ne 3283 ho 3111 po 3042 na 3026 st 3007 ch 2916 pr 2776 ov 2721
      
      • RE: bigramy trigramy 18.05 | 21:35
        Avatar robo   Návštevník

        Uz som to napravil a funguju tak ako maju len som to musel upravit inak. Ale dikes i tak. Bigrami a trigramy boli nakoniec jednoduche celkom. Ale tetragram sa mi asi nepodari urobit to by malo zas scitat vsetky styri po sebe najcastejsie sa vyskytujuce slova. Dakto s tymto pomoct hm? tu je opraveny kod pre bigramy

        #!/bin/bash cat /home/robo/Plocha/Knihy1.2/Strany/*.txt | tr ' ' '\ ' | tr '[:upper:]' '[:lower:]' | tr -d '[:punct:]' | grep -v '[^a-z]' | \ awk -- 'prev!="" { print prev,$0; } { prev=$0; }' | \ sort | uniq -c | sort -nr | \ head -1000 > bigramy.txt

        a tu je to pre trigramy

        #!/bin/bash cat /home/robo/Plocha/Knihy1.2/Strany/*.txt | tr ' ' '\ ' | tr '[:upper:]' '[:lower:]' | tr -d '[:punct:]' | grep -v '[^a-z]' | \ awk -- 'first!=""&&second!="" { print first,second,$0; } { first=second; second=$0; }' | \ sort | uniq -c | sort -nr | \ head -1025 > trigram.txt

        • RE: bigramy trigramy 18.05 | 23:31
          Avatar wamba   Návštevník

          ne, neopravil

          echo "VČEREjší včereJŠÍ včerejší včerejší"| tr ' ' '\n'| …
          1 včerejŠÍ včerejší včerejší
          1 vČerejší včerejŠÍ včerejší
          

        • RE: bigramy trigramy 19.05 | 04:02
          Avatar Dušan_Kreheľ Debian  Používateľ

          Tu máš nakriptovane v BASH pre ľubovoľny n-gram.

    • RE: bigramy trigramy 19.05 | 06:26
      Avatar Livan Arch LXQT, Antergos XFCE, Linux Mint   Používateľ

      Ako duševné cvičenie OK ale vrtá mi v hlave, aký to má praktický význam?

      • RE: bigramy trigramy 19.05 | 12:18
        Avatar bedňa antiX, Devuan, LegacyIce  Administrátor

        Tiež som si dával túto otázku. Dúfam že to chce použiť ako sofistikované šifrovanie, alebo umelú inteligenciu a nie len ďalšiu zbytočnú štatistiku.

        Táto správa neobsahuje vírus, pretože nepoužívam MS Windows. http://kernelultras.org