Mam zlozku kde mam vela *.txt suborov. Potrebujem scitat pocet slov v kazdom subore. Myslene je to tak ze scitat z kazdeho suboru pocet slove NAPR.: 1500 a 500 ahoj 150 tak ...
Pomocou bash scriptu
Mam zlozku kde mam vela *.txt suborov. Potrebujem scitat pocet slov v kazdom subore. Myslene je to tak ze scitat z kazdeho suboru pocet slove NAPR.: 1500 a 500 ahoj 150 tak ...
Pomocou bash scriptu
Pre pridávanie komentárov sa musíte prihlásiť.
3. ročník Bratislava OpenCamp sa uskutoční 5. 4. 2025
Po covidových rokoch a ďalších prekážkach je pred nami tretí ročník, ktorý sa uskutoční v apríli 2025 na FIIT STU v Bratislave. Prvý aj druhý ročník konferencie sa tešil účasti okolo 300 ľudí, veríme že tretí ročník bude ešte lákavejší.
Zdroj: Bratislava OpenCamp
Aj v roku 2025 sa v Bruseli uskutoční podujatie "Free and Open source Software Developers’ European Meeting" (FOSDEM). Viac na jeho stránkach.
Zdroj: https://fosdem.org/2025/
Komerčné riešenie pre virtualizáciu VMware Workstation Pro bolo uvolnené bezodplatne pre osobné použitie približne od mája 2024. Jedná sa o veľmi kvalitný virtualizačný nástroj pre windows aj linux.
Vznikla česká webová stránka venovaná distribúcii EndeavourOS s podporou Arch-Linux.cz. Táto distribúcia je založená na Arch linuxe. Inštalácia je založená na Calamares.
Zdroj: EndeavourOS.cz
V rámci updatov k 1.6.2024 bol vydaný respin MX linuxu pre single board počítač Orange Pi.
Zdroj: Mxlinux org
Vyšla nová verzia rolling-update distribúcie Manjaro, ktorá spája silu Arch Linuxu s jednoduchosťou user-friendly distribúcii. Okrem najnovšieho jadra je k dispozícii pre priaznivcov KDE aj najnovšie rozhranie Plasma 6. Manjaro vychádza vo verziách s KDE, GNOME a XFCE.
Zdroj: Distrowatch
Bola vydaná verzia 0.10 textového editoru neovim. Nová verzia obsahuje množstvo vylepšení LSP protokolu, zvýrazňovania syntaxe pomocou Tree-sitteru a ďalších menších zmien. Kompletný zoznam noviniek je dostupný v oznámení o vydaní.
Zdroj: neovim.io
Retro distribúcia arix prináša prostredie kde 1.1.2 na Debian 13 (trixie).
Zdroj: ariasft.github.io
V Greenie knižnici bola vydaná prvá kniha, ktorá je vytvorená z väčšiny umelou inteligenciou. Pokrýva udalosti Druhej svetovej vojny, vrátane rôznych doplnkových tém. Kniha je v angličtine.
Zdroj: Blog na Denníku N
Retro web poskytuje informácie o starom hardvéri
Zdroj: The Retro Web
Ak sa vám táto stránka páči, môžete nás podporiť tak, že si na vaše stránky umiestnite tento banner.
Náš Twitter tag je #LinuxOSsk
wc
to mu zrata len slova ako take. on chce (zeby na skusku?) zistit kvantitu jednotlivych slov v subore...
Nieje to na skusku ale robim jednu pracu a budem porovnavat dva vyskumi. A presne ako vravis musim zistit tu kvantitu slov. Ono ja by som to aj mal hotove az nato ze mi to osobitne pocita napriklad Ahoj ahoj ahoj. ahoj! A neviem to spravit aby to slo tak ze ties styri rozne ahoj budu pocitane ako 4 ahoj. A tak isto to neviem pouzit na celg priecinok ale iba na jeden subor
Skús toto:
cat súbor | tr [:space:] '\n' | grep -v "^\s*$" | sort | uniq -c | sort -bnr
pisane z hlavy...
toto ide najlepsie zatial zo vsetkych ktore som pisal ja abo mi dakto dal... len nieco tam spravilo nedobre to ze pri niektorych slovach vymazalo medzeri a pocitalo to ako jedno slovo napriklad akokeďsaholubvpazderízamotá
a este jedna vec ze ci sa to neda spravit tak aby scitalo vsetky subory dokopy. ak tam budem mat 10 txt suborov tak tu statistiku spravi dokopi zo vsetkych nie z kazdeho zvlast. Dikes
zeby
ano super diky pekne viac menej to ide tak ako ma az nato ze stale niektore slova da dokopi ako jedno...
a mam este jednu otazky pomocou tochto tu vymazavam entery a nahradzujem medzerami no neide mi to na vsetky subory. mam chybu v tomto abo v suboroch?
for file in *.txt; do sed -i ':a;N;$!ba;s/\n/ /g' $file; done
prisiel som nato preco niektore slova spaja dokopi a bere ako jedno velke. medzi tymi slovami je medzera no on ju asi vymaze alebo co a nechapem preco
nie su tam nejake specialne znaky? subory su v dos alebo unix formate?
pripadne miesto
pouzit
niesu tam specialne znaky ked som to hladal v texte tak tam je normalne medzera. skusil som to potom vymazat a dat medzeru ja a uz to naslo normalne cize nechapem a su vo formate txt vytvaral som ich v unixe skusi som aj vymenit ten sed no tak isto to ide
prejde sa hore i dolu takto to vyzera v subore txt a nalavo mas ako to scitalo mas tam dokopi slovo prejdesahoreidolu
fotka
bez zdrojoveho suboru sa tazko radi...
tak tu su oba subory
tak jedine, co mi pomohlo, bolo v loffice nahradit tu divnu medzeru za "normalnu" medzeru.
btw tie subory su ulozene v mac formate...
tak potom budem musiet zmenit tie data na ktore pouzivam ten script... a mam este jednu otazku... ako zmenit vsetky entery v tych suboroch na medzeri a to tak ze prepisu obsah suboru ak mam subor ahoj.txt a vnom 5 enterov tak pomocou toho skriptu nech sa zmeni subor ahoj.txt a nech tam tych 5 enterov nieje a miesto nich tam su medzeri
1 riadok = 1 medzera
X riadkov = 1 medzera
Oprava:
cat súbor | tr [:space:] '\n' | grep -vi "^\s*$" | sort | uniq -c | sort -bnr
Netestované, tak vyskúšaj a daj vedieť.
Tak ešte bug :)
cat * | tr [:space:] '\n' | grep -vi "^\s*$" | sort | uniq -c | sort -bnr
Toto moje riešenie nefunguje?
nie kedze pri tvojom riesenie nemyslis nato ze ak konci veta bodkou tak to slovo vezme ako dalsi druh a nie ten isty cize ahoj a ahoj. ti spocita ako dve slova a nie ako jedno... a tak isto na zaciatku vety velke pismeno naprilad Ahoj a ahoj ti vezme ako dve slova no malo by len ako jedno
Teraz som to upravil a odskúšal, vyzerá to na prvý pohľad OK.
cat * | tr '[:upper:]' '[:lower:]' | tr [:space:] '\n' | grep -i "^[a-z0-9]*$" | sort | uniq -c | sort -bnr
Toto fakt nefunguje? Pretože ja mám pocit že áno.
tak janka je tam minimalne 11-krat...
Tak buď je to nejaká hra so špeciálnymi znakmi ... ale nechce sa mi už nad tým rozmýšľať :) Možno to troskatá na tom že je to od Macu, neviem.
a Pomocou bash scriptu je tiez take salamunske, lebo cisto v bash-i to nejde, a v tom bashi si zase mozem "spustit" perl/php/.../C skript/program. takze tak...
Jedná sa o generickú otázku, a odpoveď dodá akýkoľvek prehliadavač. Stačí ak človek zadá správne naformulovanú otázku, napríklad: count+unique+words+in+file.
Mimochodom, načo to potrebuješ? Ja som to používal na prelome tisícročí ako spam filter. Podhodil som mu SPAM ako nevyžiadanú, HAM ako žiadanú poštu a on sa prvotne nakalibroval. Počas detekcie každého jedného emailu sa sám rekalibrovával. Princíp už pochopíš.
kolko chytrych kecov a hovno si poradil (ako vzdy)...
Pokiaľ si nepochopil čo máš zadať do vyhľadávača, tak choď za pani ošetrovateľkou.
V Perlu 6
Varianta pro Perl 5Tak ještě jednou tentokrát řeším i velká písmena
řešení problému v Perlu 6:
a v Perlu 5:
Je nejaky sposob na to ako zistit ci je subor v mac alebo unix formate ? Vraj je to rozdiel a potreboval by som to zistit pre kazdy subor v priecinku a ak najdem take ktore su mac potrebujem ich prekonvertovat do unix-u.
Príkaz file test.txt
by mal pri OSX súboroch vypísať:
test.txt: ASCII text, with CR line terminators
Pri Linuxových texťákov by mal vypísať len:
test.txt: ASCII text
A ked to vypisalo UTF-8 Unicode text co znamena ten "Unicode text" ?
Rozdiel to bol, ale v časoch keď Apple nepoužívalo BSD Unix. Ak tie súbory nemajú viac ako 10 rokov, tak sa ťa to asi určite netýka.
Ano chapem. Uz som si to nasiel aj sam na nete. A mam este jednu otazku ako scitam vsetky tokeny v 1800 .txt suboroch dokopi?
co je to token?
ak chcem aby mi toto tu cat *.txt | tr -s '[:space:]' '\n' | \ sed 's/[^a-zA-Z0-9]//g' | tr '[:upper:]' '[:lower:]' | \ sort | uniq -c
pocitalo aj bodky dvojbodky vykricniky uvodzovky ale osobitne ako to spravit? dakujem