jednoduchý literárny "nástroj" na zvýšenie kvality textu
Schéma:
Echo "nastavujem správne bodky"
vymenenie "...." za "..."
vymenenie " ." za " ."
vymenenie ".A" za ". A"
vymenenie ".B" za ". B"
atď, ideálne aby to vytváralo meno-súboru_aktuálny-čas
Pre pridávanie komentárov sa musíte prihlásiť.
<?php
# Replace patern -> replace
# GPLv3+ Bedna
$patern[] = "/\.\.\.\./";
$patern[] = "/ \./";
$patern[] = "/(\.)(\S)/";
$replace[] = "...";
$replace[] = ".";
$replace[] = "\1 \2";
$content = file_get_contents('text.txt');
$content = preg_replace($pattern, $replace, $content);
file_put_contents('text.txt_'.date("Y-m-d_H_i_s"), $content);
?>
niečo ako je na http://diakritika.rs-design.sk?
Som to napísal narýchlo v práci, ani neviem či to bude fungovať, otestuj. Samozrejme to potrebuje mať nainštalované php. Jasne že by to šlo aj cez sed, grep, ale tam neviem ako na diakritiku a prípadná možnosť rozšírenia o sofistikovanejšie funkcie.
sed -r 's|\.{2,}|...|g' < $1 | sed -re 's|(\.)([[:alpha:]])|\1 \2|g' >$1_$(date +"%Y-%m-%d_%H.%M")
* prvy parameter je subor v ktorom hlada "chyby"
- 2-n bodiek vymeni za ...
- pattern ".[a-zA-Z]" substituuje za ". [a-zA-Z]"
* vysledny subor bude mat na konci nazvu timestamp v uvedenom formate
* urcite sa tam da vela veci este vychytat, ale tadialto by som sa uberal
U mna funguje priklad aj s diakritikou - UTF-8 vstup + $LANG=en_US.UTF-8.
Vzory do rules.sed:
s|\.{2,}|...|g
s|(\.)([[:alpha:]])|\1 \2|g
potom do skriptu uz len:
sed -r -f rules.sed $1 >$1_$(date +"%Y-%m-%d_%H.%M")
Na stole je jablko a slivka => Na stole je hruška a slivka
s|\jablko|hruška|g ???
s|([[:alpha:]]) (ke[dď])|\1, \2|g
som z toho inak dosť blbec :) môžeš tam niekde pridať vstup.txt a vystup.txt? alebo ako to presne je?
a do prikazoveho riadku napises
./hoferek.sh vstup,txt