LinuxOS novinky 46. týždeň 2015
Ovládaš slovenčinu? Potrebujeme ťa! Alebo trošku menej bulvárny titulok: napíšte mi niekto stemmer, ja som moc dutý zo slovenčiny.
Fulltextové vyhľadávanie je skoro vždy celkom tricky záležitosť. LinuxOS používa pre fulltext vyhľadávací engine Xapian (pozostatok z dôb MySQL, TSearch v PostgreSQL je omnoho lepší než MySQL fulltext, ale aj tak sa mi nechce migrovať).
Prečo vlastne xapian? V podstate nepotrebuje žiaden proces, má minimálnu spotrebu RAM (LinuxOS beží na zdieľanom stroji, nemôžeme používať lucene, elasticsearch a podobné javovské obludy) a má podporu pre to, čo potrebujeme (vrátane chuťoviek ako je skloňovanie).
Práve skloňovanie je vec, ktorá ma už dlhšie trápi. Xapian pri indexovaní osekáva slová o rôzne prípony, predpony a podobné nechutnosti. Zostane tak len koreň slova (zo slova Linuxová urobí napríklad Linux). Pri vyhľadávaní potom nájde všetky výskyty nech sú v akomkoľvek tvare.
Stemmer
Ako stemmer (odstraňovač nechutností) sa používa snowball. Pre každý podporovaný jazyk má algoritmus napísaný v sbl scripte. Pre inšpiráciu takto vyzerá čeština.
Podrobnosti ako rozbehať snowball a užitočné odkazy som zverejnil priamo v repozitári.
Pre pridávanie komentárov sa musíte prihlásiť.
Tak jediné čo by som dokázal je upravenie Češtiny do Slovenčiny v tom odkazovanom skripte.
Návrh na upozorňovanie na nové články je hotový, teda sú vlastne tri.
Môj kód je jednoduchší než český, ale je totálne totálne stupídny (len vyhadzuje prípony). Český som neupravoval pretože mu nerozumiem :\ Existoval ešte nejaký slovenský, ale ten bol zabalený v rar a nevedel som ho rozbaliť. Neviem či bol vadný archív, alebo bol potrebný unrar z dosu.
Čo sa týka návrhu ... rád by som vedel čo by vyhovovalo najviac návšetevníkom.