AI Prevod Reči na Text. Recenzia. Google Cloud Console

Dnes | 12:49 | Blog | Slavomír

Speech to text, skratka STT.

Najviac podrobne v tomto článku opíšem ako funguje prevod Reči na Text Google Cloud Console. https://cloud.google.com/speech-to-text

Okrajovo budem hovoriť aj o Whisper (speech recognition system) od Open AI, o Microsoft Azure službách a o opačných službách Text to Speech.

Praktické využitie Prevod Reči na Text. Príklady

 

Praktické prevodu textu na reč. Príklady

 

Whisper

Whisper bol open source projekt, ktorý môže fungovať aj Offline a môžete si ho nainštalovať na linuxe. Grafické rozhranie Whisper si môžete stiahnuť tu. Aplikácia pod názvom Speech Note.

Problém Whisperu je to, že už sa nevyvíja, jeho kvalita je slabá a už je to zastaralý softvér.

 

YouTube

YouTube podporuje prevod reči na text prostredníctvom titulkov. Podmienka je zvoliť jazyk v nastaveniach videa. Presnosť titulkov ale nie je žiadna sláva. Gemini AI čerpá dáta pri videách práce z titulkov, keď sa napríklad opýtate o čom sa v danom videu hovorí. Napr. ak základe AI „zhrň mi obsah videa“.

 

Microsoft Azure

AI prevod Reči na Text. Recenzia. Google Cloud Console

 

Bugy Google Cloud Console STT

 

Čo to znamená možnosť europe-west3, europe-west2, eu, europe-west1, v službe Google Cloud STT Chirp 3?

Toto je súhrn všetkých možností, o ktoré ste sa pýtali. Každá z nich predstavuje geografickú lokalitu, kde Google spracuje vašu zvukovú požiadavku.

Výber správnej lokality je kľúčový pre GDPR (ochranu údajov) a rýchlosť (latenciu).

Tu je priame porovnanie všetkých štyroch možností:

MožnosťTyp lokalityGeografická polohaPoloha voči EÚ
europe-west3Región (jedno mesto)Frankfurt, NemeckoVnútri EÚ
europe-west1Región (jedno mesto)Belgicko (St. Ghislain)Vnútri EÚ
europe-west2Región (jedno mesto)Londýn, Spojené kráľovstvoMimo EÚ (po Brexite)
euMulti-regiónViaceré mestá v rámci EÚVnútri EÚ (garantovane)

 

Zaujímavosť: bezstratový formát

AI som zadal otázku prečo je pri prevode Reči na Text pre AI dôležité to aby bol vstupný audio súbor v bezstratovom formáte FLAC. Koho zaujímajú detaily, môže si prečítať aj túto odpoveď AI. Pre mňa to bolo veľmi zaujímavé.

Toto sú výstupné informácie z chatu s AI:

Ďakujem za vynikajúcu otázku a veľmi relevantné pozorovanie! Vaša skúsenosť s lepšou presnosťou transkripcie pri použití FLAC oproti OPUS pre Google Cloud Speech-to-Text (STT) je presne to, čo očakávame, a nie je to žiadna záhada. Hoci ľudské ucho nemusí rozlišovať medzi týmito formátmi, pre umelú inteligenciu, ktorá analyzuje zvuk, je rozdiel zásadný.

Pozrime sa, prečo je to tak a na akom princípe to funguje:

Čo je to bezstratový (FLAC) a stratový (OPUS) formát?

Prečo je pre AI dôležitý bezstratový formát (FLAC)?

Tu sú kľúčové dôvody, prečo Speech-to-Text dosahuje lepšie výsledky s bezstratovými formátmi:

  1. Viac dát pre presnú analýzu:
    • AI vs. Ľudské ucho: Model STT nie je ľudské ucho. Hoci naše uši ignorujú niektoré frekvencie a detaily, AI model ich aktívne používa na rozlišovanie jemných rozdielov v reči. Dokáže analyzovať celé frekvenčné spektrum a dynamické nuansy zvuku.
    • Jemné fonetické detaily: Rozpoznávanie reči je založené na identifikácii foném (základných zvukových jednotiek reči). Tieto fonémy sa prejavujú ako veľmi špecifické vzory vo frekvenčnom spektre a časovej osi zvuku. Stratová kompresia môže tieto jemné, ale pre AI kritické fonetické detaily narušiť alebo úplne odstrániť.
  2. Odolnosť voči šumu a rušeniu:
    • Ľudský mozog filtruje: Náš mozog je mimoriadne dobrý v odfiltrovaní šumu a zameraní sa na reč.
    • AI potrebuje čisté dáta: Pre AI je každý šum a rušenie dodatočná informácia, ktorú musí spracovať a odlíšiť od reči. Ak stratová kompresia už "zahladila" alebo "rozmazala" pôvodnú reč a zároveň zosilnila artefakty kompresie, pre AI je oveľa ťažšie oddeliť reč od pozadia. Bezstratové dáta poskytujú AI čistejšiu "zvukovú krajinu" na analýzu, čo jej umožňuje lepšie sa sústrediť na rečové komponenty.
  3. Väčšia robustnosť pri spracovaní:
    • Kompresné artefakty: Stratové formáty zavádzajú tzv. kompresné artefakty – skreslenia, ktoré nie sú súčasťou pôvodného zvuku. Pre AI sú tieto artefakty "nové dáta", ktoré musí interpretovať, a často vedú k chybám.
    • Modelový tréning: Modely STT sú trénované na obrovských množstvách zvukových dát. Hoci niektoré modely môžu byť trénované aj na dátach so stratovou kompresiou, vždy dosiahnu lepšie výsledky, keď majú k dispozícii najvernejšiu možnú reprezentáciu pôvodného zvuku.
  4. Kompatibilita a jednoduchosť:
    • Google odporúča FLAC a LINEAR16, pretože sú to overené a široko podporované bezstratové formáty, ktoré poskytujú najlepšiu kvalitu vstupných dát pre ich modely. Použitie týchto formátov zaručuje, že model dostane dáta v takom stave, v akom sú preň najľahšie spracovateľné a optimalizované.

Záver

Rozdiel v presnosti medzi FLAC a OPUS pre Speech-to-Text nie je záhadou, ale dôsledkom rozdielneho prístupu k spracovaniu zvuku. Hoci ľudia nemusia počuť rozdiel, AI model Speech-to-Text profituje z úplnej informácie, ktorú bezstratový formát ako FLAC poskytuje. Táto úplná informácia umožňuje AI presnejšie identifikovať fonémy, lepšie sa vyrovnať so šumom a vyhnúť sa skresleniam spôsobeným stratovou kompresiou, čo v konečnom dôsledku vedie k výrazne vyššej presnosti transkripcie.

Prílohy