Audio spektrogram pod linuxom

Open source riešenia

Kde je problém?

Vlastný nástroj

Finálny projekt

Správy

sox

baudline

spek

Podpora vstupných formátov

Analýza

Zobrazenie

Vylepšenia

O konferencii 13. ročník konferencie OSSConf

Google práve daroval Linux Foundation umelú inteligenciu

Firefox 138 - nová funkcia TabGroups

VIdeo ako sa vyrába Thermal Grizzly pasta

MX-23.6

Bratislava OpenCamp už túto sobotu prinesie témy ako bezpečnosť, zálohy či pohľad do štátneho IT

Tablet s procesorom s architektúrou RISC-V

MidPoint Community Meetup 12.-14.05.2025 v Bratislave

Nová verzia linuxu pre hudobníkov AV Linux Base 23.5 “Greatest Hits” je vonku

PF 2025

27.11.2022 | 14:32 | Mirecove dristy | Miroslav Bendík

Dnešný zápis bude o softvéri pre generovanie / prehliadanie spektrogramov. Zápis samozrejme skončí ako vždy naprogramovaním vlastného skriptu :)

Nie, nie som jediný človek, ktorý chcel vidieť spektrogram. Preto existuje mnoho open source nástrojov. Niektoré z nich predstavím.

Nástroj sox je konzolová aplikácia určená pre spracovanie a analýzu zvukových súborov. Spektrogram k audio súboru sa dá vygenerovať príkazom sox vstup.wav -n spectrogram.

Obrázok 1: Spektrogram generovaný nástrojom sox

Nastaviť sa dá farba spektrogramu, rozmery, či niektoré parametre ako window fungukcia. Nasledujúci obrázok je vygenerovaný príkazom sox vstup.wav -n spectrogram -x 500 -h.

Tento nástroj je pekným rýchlym realtime analyzátorom. Rozhranie je na môj vkus dosť šialené, ale nič, na čo by sa nedalo zvyknúť.

Tento nástroj vie zobraziť spektrogram. Jeden konkrétny typ bez možnosti zmeniť farby, alebo čokoľvek ovplyvniť.

Hlavný problém, na ktorý som narazil u všetkých projektov je lineárne mierka pre frekvencie. Najdôležitejšie spektrálne čiary sú sústredené do frekvencie 1 kHz, ktorá je sotva viditeľná.

Keďže som vážne nenašiel nič použiteľné, rozhodol som sa napísať vlastný malý nástroj. Výber padol ako obyčajne na pythone s použitím funkcie stft z balíka scipy. Závislosti budú obmedzené na numpy (numerické výpočty), scipy (spracovanie signálov) a matplotlib (vykreslenie výsledkov).

Medzi závislosťami som neuviedol žiadnu knižnicu na načítanie multimediálnych súborov. Pri podpore súborov sa nechcem uspokojiť s ničím menším než so všetkým, čo podporuje ffmpeg. Namiesto použitia knižnice ale používam priamo binárku ffmpeg a ffprobe. Teraz sa budem chvíľu zaoberať malými ulitlity funkciami. Najskôr definujem šablóny pre volanie príkazov ffmpeg a ffprobe.

FFPROBE_CMDLINE = 'ffprobe {file} -print_format json -show_format -show_streams -loglevel error'
FFMPEG_CMDLINE = 'ffmpeg -i {file} {trim} -ac 1 -f s16le -vn -loglevel error -'

Do príkazov som pridal nejaké zástupné symboly - {file} pre vstupný súbor a {trim} pre orezanie vstupu. Výstupom príkazu ffmpeg bude jednokanálový prúd 16-bitových little endian hodnôt.

Pre zostavenie príkazu som pripravil funkciu build_shell_command, ktorá nahradí zástupné symboly. Funkcia nepracuje na úrovni reťazcov, ale na úrovni tokenov, čo umožňuje zostaviť príkaz bezpečnejším spôsobom - pri spustení sa bude priamo používať pole argumentov namiesto reťazca, takže sa nemôže stať, aby niekto vložil do zástupného symbolu úvodzovky, bodkočiarku, čo by mu umožnilo spustiť vlastný príkaz.

Token je možné nahradiť hodnotou:

None - token sa odstráni
reťazec - token sa nahradí reťazcom
pole - na mieste tokenu sa vloží niekoľko argumentov

Samotná funkcia vyzerá takto:

def build_shell_command(cmd, replacements):
    # Rozdelenie na tokeny
    params = shlex.split(cmd)

    # Vytvorenie poľa náhrad
    replacements = {'{'+key+'}': val for key, val in replacements.items()}

    new_params = []
    for param in params:
        # Nájdenie náhrady
        replacement = replacements.get(param, param)
        # Hodnota None odstráni token
        if replacement is None:
            continue
        elif isinstance(replacement, list):
            # Zoznam sa pripojí k existujúcim parametrom
            new_params += replacement
        else:
            # Inak sa len token nahradí hodnotou
            new_params.append(replacement)
    return new_params

K spracovaniu vstupného súboru je potrebné zistiť jeho parametre, napríklad počet samplov za sekundu. Získanie informácií nástrojom ffprobe vyzerá takto:

def get_media_info(file):
    cmd = build_shell_command(FFPROBE_CMDLINE, {'file': file})
    return json.loads(subprocess.check_output(cmd))

Analýza audio signálu pomocou funkcie stft je pomerne jednoduchá.

fft_size = 2048 # veľkosť FFT okna
step_size = 512 # 512 samplov na pixel

frequency, time, fft = signal.stft(
    audio_data,
    audio_sample_rate,
    window=args.window,
    nperseg=fft_size,
    noverlap=fft_size - step_size
)

fft = np.abs(fft)
fft = 20.*np.log10(fft)

Analýzu signálu by sme mali za sebou, zostáva už len zobraziť výsledok. Nasledujúci kód používa matplotlib na vygenerovanie obrázka.

import matplotlib.pyplot as plt

fig = plt.figure()
ax = fig.add_subplot()

# Zobrazenie fft s minimálnym ziskom -100dB a maximom -30dB
im = ax.pcolormesh(time, frequency, fft, vmax=-30, vmin=-100, cmap='inferno', shading='gouraud')
# Nastavenie osí
ax.set_ylim(0, 8000)
ax.set_ylabel('Frequency [Hz]')
ax.set_xlabel('Time [sec]')
# Zobrazenie mriežky
ax.grid(color='#ffffff', axis='y', which='major', alpha=0.5)
ax.grid(linestyle='dotted', color='#ffffff', axis='y', which='minor', alpha=0.3)

fig.savefig("spektrogram.png")

Počkať, nehovoril som niečo o logaritmickej mierke? Aha, tak pridám do zobrazenia nasledujúci riadok:

ax.set_yscale('log')
ax.set_ylim(80, 8000)

Obrázok 6: Logaritmická mierka frekvencie pri veľkosti okna 2048

Rozlíšenie v oblasti nízkych frekvencií je mizerné. V tejto časti skúsim popísať niektoré vlastnosti rýchlej fourierovej transformácie a jej parametrov.

Dôležitým parametrom je fft_size, teda veľkosť okna fourierovej transformácie. Hodnota musí byť celou mocninou čísla 2. Čím väčšia je táto hodnota, tým viacej jemné bude zobrazenie. Napríklad ak je samplovacia frekvencia 44 100 Hz, potom výstupom rýchlej fourierovej transformácie bude rozdelenie signálu na frekvencie v rozsahu 0 - 22 050 Hz (teda polovica samplovacej frekvencie). Frekvencie budú rozdelené na rovnaké úseky, ktorých počet je polovičná veľkosť FFT okna (napríklad veľkosť okna 2048 vygeneruje 1024 frekvencíí, teda frekvencia bude delená na 21,5 Hz úseky - 22050 / 1024 = 21,5). Postačuje teda zvýšiť veľkosť okna?

Obrázok 7: Logaritmická mierka frekvencie pri veľkosti okna 4096

Obrázok 8: Logaritmická mierka frekvencie pri veľkosti okna 8192

Univerzálne riešenie samozrejme neexistuje. Čím je väčšie rozlíšenie vo frekvenčnej oblasti, tým menšie je rozlíšenie v časovej oblasti. Teoretickým riešením je posúvanie okna o menšiu vzdialenosť než veľkosť okna (parameter noverlap funkcie stft).

Obrázok 9: Logaritmická mierka frekvencie pri veľkosti okna 4096 a posune 2048

Obrázok 10: Logaritmická mierka frekvencie pri veľkosti okna 8192 a posune 512

Obrázok 11: Logaritmická mierka frekvencie pri veľkosti okna 16384 a posune 512

Výsledky sú podstatne lepšie, ale stále je tu problém, že pri väčšej veľkosti okna sa síce zaostria spodné frekvencie, ale na časovej osi sa signál rozostrí. Ideálne by teda bolo na vysokých frekvenciách znížiť veľkosť FFT okna a na nižších naopak používať čo najväčšie FFT okno, aby sa skombinovali výhody / nevýhody podľa oblasti.

Môj malý skript som zverejnil na githube. Program podporuje rôzne parametre na nastavenie farieb, frekvencií, ziskov, škály atď. Nasledujúci obrázok je generovaný príkazom:

./spectrogram \
	vstup.wav \
	spektrogram.png \
	--grid \
	--scale \
	--colorbar \
	--colormap nipy_spectral \
	--gain_min -80 \
	--gain_max -20 \
	--step_size 256 \
	--frequency_min 100 \
	--frequency_max 10000

Obrázok 13: Jedna z možností ako generovať spektrogram

Podporované sú nasledujúce parametre:

--start: Počiatočná sekunda
--length: Dĺžka záznamu (v sekundách)
--window: Window funkcia
--colormap: Farebná mapa (z matplotlibu)
--grid: Zobraziť mriežku
--scale: Zobrazenie mierky
--colorbar: Zobrazenie colorbaru na bočnej strane
--linear: Generovanie lineárnej časovej mierky
--image_width: Šírka výsledného obrázka
--image_height: Výška výsledného obrázka
--gain_min: Minimálny zisk (štandardne -100dB)
--gain_max: Maximálny zisk (štandardne -30dB)
--frequency_min: Minimálna frekvencia (štandardne 80Hz)
--frequency_max: Maximálna frekvencia (štandardne 8 000Hz)
--step_size: Počet samplov na jeden bod na časovej osi (štandardne 512)

Pre pridávanie komentárov sa musíte prihlásiť.

Pridať správu

26.06 | 16:50 | Miroslav Bendík

Dátum udalosti: 01.07.2025

V dňoch 1. – 3. júla 2025 sa na Žilinskej univerzite uskutoční 13. ročník konferencie OSSConf. Na webe je zverejnený program konferencie ako aj zborník.

Zdroj: ossconf.fri.uniza.sk

Žiadne komentáre | Komunita

26.06 | 11:37 | Balin50

Spoločnosť Google daruje protokol A2A nadácii Linux Foundation.

V apríli 2025 spoločnosť Google spustila protokol Agent2Agent (A2A), otvorený štandard navrhnutý tak, aby umožňoval bezpečnú a inteligentnú komunikáciu medzi autonómnymi agentmi s umelou inteligenciou.

O niekoľko mesiacov neskôr spoločnosť Google darovala A2A nadácii Linux Foundation, ktorá v spolupráci so spoločnosťami AWS, Cisco, Google, Microsoft, Salesforce, SAP a ServiceNow vytvorila projekt Agent2Agent .

Ďalšie info

Zdroj: IT's FOSS

Žiadne komentáre | IT novinky

01.05 | 11:16 | kamowski

Čo robiť, ak mi TabGroups nefunguje, aj keď som už aktualizoval na FF 138?

Zdroj: https://www.mozilla.org/en-US/firefox/138.0/releasenotes/

1 komentár | Novinky

29.04 | 21:41 | redhawk1975

video sa venuje rozdielom v teplovodivých pastách, ako sa teplovodivá pasta vyrába, dobrým a zlým tepelnoizolačným materiálom a ďalším témam, a to všetko o chladení procesorov a grafických kariet.

Zdroj: Gamer Nexus

Žiadne komentáre | Zaujímavý článok

17.04 | 08:50 | redhawk1975

13. apríla 2025 bola vydaná verzia MX linux 23.6

Zdroj: Mx linux blog

Žiadne komentáre | Nová verzia

31.03 | 15:10 | OpenCamp

Dátum udalosti: 05.04.2025

Tretí ročník Bratislava OpenCamp sa uskutoční už túto sobotu na FIIT STU. Registrácia účastníkov prebieha online a účasť je bezplatná.

Zdroj: Bratislava OpenCamp

Žiadne komentáre | Novinky

18.03 | 00:57 | menom

Tablet PineTab-V od spoločnosti Pine64 sa teraz dodáva s vylepšeným hardvérom a operačným systémom založeným na linuxovej distribúcii Debian.

Zdroj: liliputing.com

1 komentár | Novinky

17.03 | 16:59 | vera_evolveum

Dátum udalosti: 12.05.2025

Zúčastnite sa open sourcovej konferencie v oblasti správy a riadenia identít (identity governance and administration), kde na vás čakajú zaujímavé workshopy, prednášky a networking s industry expertami v rámci komunity.

Zdroj: https://evolveum.com/midpoint-community-meetup-2025/

Žiadne komentáre | Komunita

06.02 | 13:34 | redhawk1975

Vyšlo „paralelné vydanie“ (nie úplná aktualizácia) verzie AV Linux MX Edition.

Zdroj: AV Linux

3 komentáre | Nová verzia

01

O konferencii 13. ročník konferencie OSSConf

04.01 | 11:03 | Pavel

Priatelia želám Vám do Nového roku 2025 všetko dobré, nech sa Vám vo svete Linuxu darí a z mojej strany ďakujem všetkým, ktorí akýmkoľvek spôsobom prispievajú na tento web. Či sú to už správy o zaujímavých novinkách, komentáre v diskusiách alebo blogy, ktoré niekedy zaberú aj pol dňa klepania na úkor svojho času. O to väčšia vďaka, PF 2025.

1 komentár | Komunita

Ďalšie

Všetky udalosti

Pridať správu