Speech Note. GUI Linux program. Offline prevod textu na reč (TTS) a prevod reči na text
Speech Note. GUI Linux program. Offline prevod textu na reč (TTS), prevod reči na text a offline prekladač
Na projekte pracuje podľa mena zrejme poľský vedúci vývojár menom Michal Kosciesza, ale pracuje na tom celý tím dobrovoľníkov.
Pri inštalácii cez Flathub zaberá aplikácia 3 GB po nainštalovaní.
Pre Windows aplikácia nie je.
Podľa GitHubu vidíme že je to mimoriadne aktívny projekt, a dúfam, že tomu tak aj dlhé roky zostane.
Pri TTS je tam aj podpora exportu do zvukového súboru, vrátane najkvalitnejšieho audio formátu opus, čo je najviac aktívne vyvíjaný a udržiavaný audio kodek.
TTS zahŕňa aj hlasy projektu RH Voice.
https://rhvoice.org/
https://hlas.ondrosik.sk/
Najnovšia verzia RH Voice má citeľne lepšiu kvalitu ako predchádzajúca. Aby ste ju získali, nainštalujte si beta verziu. Návod tu.
Ďalej program Speech Note obsahuje jeden hlas z projektu Piper.
https://github.com/rhasspy/piper
Piper sa zdá byť veľmi kvalitný AI projekt ale má veľký problém s aktualizáciami, posledná aktualizácia, stabilné vydanie bolo v roku 2023. Nie je to aktívny projekt, čo je obrovská škoda.
Slovenský hlas z projektu Piper má problém, že uvedená žena ktorá poskytla nahrávky do vstupných dát na učenie AI, má dosť nezrozumiteľný hlas a tiež to nahrávala v prostredí kde sa zvuk silne odrážal.
Keď si pre TTS nainštalujete Slovenčinu, tak najkvalitnejší hlas Piper zaberá 60 MB. Ani to nie je nejak veľmi hardvérovo náročné, ide bez problémov na mojom starom PC.
V prípade, že chcete prevod reči na text, tak v slovenčine potrebujete nainštalovať doplnok, ktorý vám zaberie 1,3 GB na disku. Prevod reči na text som ale netestoval.
Čo ma veľmi mrzí, je to, že nemá aj kvalitnejšie hlasy táto aplikácia. Ukážka v prílohe (opus), alebo kliknite tu. Zasa nie je to úplne hrozné.
Google vyvíja Android aplikáciu „Speech Recognition & Synthesis“, ktorá je súčasťou každého telefónu s Androidom ako predvolene nainštalovaný program a podľa mojich skúseností z veľkej časti funguje offline. Veľká škoda, že sa Google s kódom nepodelil. Nie je to open source, autor „Speech Note“ to tam nemôže pridať. Ak ste predsa len našli k tomu kód pre účel offline generovania TTS, tak určite napíšte do komentára, mne sa to nájsť nepodarilo.
Ak máte vedomosť o existencii nejakého kvalitnejšieho hlasu bez grafického rozhrania, v rámci nejakého AI projektu, tak určite napíšte do komentára, autor ho môže pridať do aplikácie – môžem ho poprosiť.
Mozilla DeepSpeech už zdá sa nie je aktívy projekt (usudzujem podľa GitHub) a asi nebude lepší ako to čo doteraz podporuje „Speech Note“.
Offline preklady som netestoval, nemôžem posúdiť ich kvalitu.
Prílohy
- ukážka.opus (772.9 kB)
Pre pridávanie komentárov sa musíte prihlásiť.