Models i Tècniques d'Anàlisi de Senyals d'Àudio: STFT, Sinusoïdal i Harmònic
Clasificado en Informática
Escrito el en catalán con un tamaño de 58,94 KB
Models de Representació de Senyals d'Àudio
La Transformada de Fourier de Curt Termini (STFT) és una modificació de la Transformada de Fourier (TF) que afegeix el terme de finestra w. Es realitza per aproximar la TF a com es comporta la nostra oïda, és a dir, analitzant petites trames de so en lloc de tot el senyal de cop. Això s'aconsegueix enfinestrant el senyal. El terme anomenat Hop-size és la quantitat que es salta d'una finestra d'anàlisi a una altra. Finalment, per obtenir el senyal complet, cal realitzar l'operació overlap-and-add.
El Model Sinusoïdal (SIN) és una modificació de la STFT. Després de realitzar la Transformada de Fourier del senyal, analitza i detecta els pics dels components sinusoïdals. En aquest model s'utilitza un paràmetre anomenat threshold (llindar), que serveix per determinar a quin nivell de dB es volen trobar els pics dels components. Quan es realitza la resíntesi d'aquest senyal, només es representen les components trobades utilitzant els seus paràmetres (Amplitud A, Freqüència angular w, Fase p).
El Model Harmònic (HARMO) captura tots els components harmònics del senyal. Només necessitem la freqüència fonamental (F0), ja que totes les altres són múltiples d'aquesta. Qualsevol espectre variant en el temps pot ser modelat com una suma de sinusoides variants en el temps. Tot i així, molts dels lòbuls espectrals d'un espectre no corresponen als parcials reals del so analitzat. Un parcial (component del so) és el resultat d'una vibració del sistema generador. Els parcials poden ser modelats com a sinusoides variants en el temps i poden ser reconeguts en el domini freqüencial per la seva magnitud, fase, relació amb altres parcials o evolució en el temps. Quan els parcials d'un so estan relacionats harmònicament, els anomenem harmònics.
El Model Sinusoïdal + Residual (SIN+RESIDU) és una extensió del model sinusoïdal al qual s'ha incorporat la representació de components de soroll no assimilables a la suma de sinusoides. Aquest model assumeix que les sinusoides són parcials estables que varien lentament en el temps, i que el component residual es pot obtenir generant els components sinusoïdals i, posteriorment, sostraient-los del senyal original.
El Model Sinusoïdal + Estocàstic (SIN+STO) s'aplica un cop s'han detectat els pics del senyal amb les seves corresponents amplituds, freqüències i fases, i s'ha obtingut una component residual. Per a la part residual, podem continuar modelant el so per obtenir una representació més flexible i compacta. Quan els pics s'han identificat i restat, la part residual pot ser considerada un senyal estocàstic. Per tal de modelar les parts rellevants de la part residual, com el fregament de l'arc en el violí o el soroll de respirar en els instruments de vent, necessitem una bona resolució freqüencial.
Anàlisi i Síntesi Residual
Anàlisi Residual
En l'Anàlisi Residual, el residu, que és un senyal estocàstic, es descriu per la seva amplitud i característiques freqüencials. No és necessari conèixer la fase instantània o la forma exacta de l'espectre. Per tant, un frame (trama) del residu estocàstic pot ser caracteritzat per un filtre. Aquest filtre codifica l'amplitud i la freqüència general del residu. La representació del residu per a tot el so serà una seqüència d'aquests filtres. Per tal de dissenyar el filtre, es crea una corba amb la magnitud de l'espectre del frame actual. Una opció per trobar aquesta línia és buscar els màxims locals i connectar-los mitjançant línies. Una altra tècnica és utilitzar la Predicció Lineal Codificada (LPC).
Síntesi Residual
En la Síntesi Residual, es genera soroll que té les característiques d'amplitud i freqüència donades per l'envolupant. Aquest soroll blanc es filtra amb aquestes envolupants. Un cop s'han generat la component harmònica i la component residual, es pot computar la Transformada Inversa de Fourier (IFFT).
Detecció de la Freqüència Fonamental (F0)
Detecció de F0 en el Domini Temporal
En la Detecció de F0 en el Domini Temporal, es realitza l'autocorrelació del senyal amb ell mateix retardat. La freqüència fonamental (F0) es troba observant el coeficient de correlació més elevat de la gràfica.
Detecció de F0 a partir de Pics Espectrals
En la Detecció de F0 a partir de Pics Espectrals, l'algorisme utilitzat és el TWM (Two-Way Mismatch). Aquest algorisme consisteix en dos passos:
- Seleccionar les possibles freqüències candidates a ser F0.
- Mesurar la seva qualitat a través de la comparació amb l'harmònic predit més proper (measured-to-predicted error) i, alhora, cada harmònic predit es compara amb el parcial mesurat més proper (predicted-to-measured error).
Combinant aquests dos errors, el candidat que retorni un error més baix serà l'escollit.
Detecció i Processament de Pics
Detecció de Pics
Per a la Detecció de Pics, assumint que s'ha escollit correctament la mida de la finestra i la longitud de la DFT, es pot procedir a la detecció de pics. Un pic és el punt on tant les mostres anteriors com les posteriors tenen una amplitud menor. El zero-padding incrementa el nombre de mostres a la DFT, augmentant així la resolució dels pics i permetent una major precisió en la seva detecció. Combinant el zero-padding amb alguna interpolació espectral, la detecció de pics millora considerablement. Si no es vol solapament, cal tenir sempre en compte que l'ample del lòbul principal no sigui major a l'increment en freqüència. Cada pic de l'espectre de la magnitud es representa en la fase com una zona plana.
Interpolació Parabòlica
La Interpolació Parabòlica s'utilitza per millorar la detecció de pics, ja que una paràbola té una forma similar a la produïda per l'enfinestrament. Per tant, a cada pic es realitza la interpolació amb una paràbola utilitzant els punts del voltant, aconseguint valors molt més propers als reals, que són els que proporcionen la informació desitjada.
Continuació de Pics (Peak Continuation)
Un cop s'han trobat els pics espectrals, l'algorisme de Continuació de Pics (Peak Continuation) pot organitzar els pics en trajectòries freqüencials, on cada trajectòria modela un sinus variant en el temps.
Síntesi Sinusoïdal
Quan s'han identificat i ordenat tots els pics espectrals, es pot començar amb la part de Síntesi Sinusoïdal. Per cada pic, es genera un sinus utilitzant oscil·ladors i es sumen utilitzant síntesi additiva.
Mida de la Finestra (M)
La Mida de la Finestra (M) s'escull depenent del tipus de finestra i de la resolució temporal/freqüencial desitjada. Una finestra gran aportarà una bona resolució freqüencial, mentre que una finestra petita aportarà una bona resolució temporal. Es prefereix una mida de finestra senar, ja que d'aquesta manera s'aconsegueix centrar l'espectre en el 0, facilitant el reconeixement de la fase. Es calcula com: (fs/f0)*bin.
Procés d'Anàlisi de Senyal: Passos Clau
- Enfinestrament del senyal d'entrada per analitzar-lo en trames.
- Zero-phase del senyal enfinestrat: és més adequat que l'enfinestrament normal i aplica els coeficients més alts a les primeres mostres de la trama.
- FFT del senyal resultant per obtenir la magnitud i la fase.
- Magnitud (en dB) de les freqüències positives: només necessitarem aquestes per analitzar el senyal. Després, en la resíntesi, es generaran les negatives a partir d'aquestes.
- Fase de les freqüències positives: es realitza un 'unwrap' per obtenir totes les fases positives.