You are on page 1of 11

Parmetros caractersticos en el dominio del tiempo de la voz

Introduccin
El habla es una de las partes ms importantes de la expresin humana, es algo que nos diferencia
del resto de seres vivos en planeta, ya que sin el habla el pensamiento mismo del hombre no sera
posible. No se trata simplemente de un sistema para transmitir informacin, aunque sea claro una de
sus funciones. Pero es por medio de los sonidos que se presenta la esencia espiritual del
hombre.
Cada vez es ms importante tener una interaccin con las mquinas ms cercana a la comunicacin
oral, a la que los humanos accedemos desde edades muy tempranas. Los primeros sentidos que se
desarrollan plenamente en los humanos son los que nos permiten la comunicacin oral, as
un beb cuando llega al mundo lo primero que hace es llorar para permitir la entrada del aire en su
aparato fonador que incluye los pulmones. Tras ello la comunicacin con el exterior se produce a
travs del tacto, la succin y el llanto, siendo la visin uno de los sentidos ms tardos en la
interaccin con el exterior. Es por esto y por la posibilidad de acercar las mquinas al mundo de
discapacitados, tanto fsicos como motrices, que la comunicacin oral con las mquinas ha cobrado
una importancia vital en los ltimos tiempos. No obstante si bien la voz es el medio de
comunicacin ms usual, los humanos producimos y percibimos la misma con gran redundancia y
de ella extraemos la informacin ms relevante.
Es muy importante determinar cmo se produce y percibe la voz a la hora de realizar su tratamiento
automtico para incluirlo en nuestras mquinas. Veremos a lo largo de estas pginas el mtodo de
produccin de voz y su modelado matemticos.
Marco terico
Mecanismos de produccin del habla
Para determinar las operaciones de un sistema automtico de reconocimiento de voz y
hablante, es fundamental conocer y determinar los mecanismos que han producido un mensaje
hablado, para, a continuacin poder reproducirlos automticamente. Es por ello que se van a repasar
algunos conceptos fundamentales y bsicos en el mecanismo de produccin del habla, tanto en el
rgano fsico que soporta dicho mecanismos, como la produccin propia del mensaje.

El aparato vocal consta esencialmente de los siguientes rganos que se ilustran a continuacin:
pulmones, trquea, laringe y los tractos vocal y nasal.
La laringe alberga las cuerdas vocales, que son pequeas membranas de piel que vibran al pasar el
aire entre ellas. El hueco que existe entre ambas se llama glotis. El tracto vocal, de unos 17 cm en
un adulto, es un tubo que se extiende desde los labios hasta la laringe. El tracto nasal es tambin un
tubo de unos 12 cm que va desde los orificios nasales hasta el velo del paladar.
El velo del paladar controla el acoplo entre los dos tractos de la siguiente manera: en sonidos no
nasales ste se cierra y el aire pasa por el tracto vocal. En los sonidos nasales el velo permite pasar
el aire hacia el tracto nasal, cerrndose el vocal en los labios. En los sonidos nasalizados el aire pasa
por ambos tractos.
La funcin de los pulmones en la produccin de habla es de gran importancia. stos son los
encargados de impulsar el aire hacia el resto de los rganos con la ayuda muscular del diafragma.
Los sonidos de que consta el habla se pueden clasificar bsicamente en tres tipos:
Sonoros. Son aquellos sonidos que hacen vibrar las cuerdas vocales. Esta vibracin es cuasi
peridica y su espectro es muy rico en armnicos que son mltiplos de la frecuencia de vibracin de
las cuerdas. A esta frecuencia de vibracin de las cuerdas se le llama frecuencia fundamental. La
frecuencia fundamental depende de la presin ejercida al pasar el aire por las cuerdas, y de la
tensin de stas. En un hombre la frecuencia fundamental se encuentra en el rango 50-250 Hz,
mientras en la mujer el rango es ms amplio, encontrndose entre 100 y 500 Hz.
Sordos. En estos sonidos, que se caracterizan por no provocar la vibracin de las cuerdas vocales,
se distinguen dos variedades diferentes: fricativos y aspirados.En los sonidos fricativos se produce
un estrechamiento del tracto vocal por el que se hace pasar el aire, lo que proporciona como
resultado una excitacin de ruido aleatorio. En los sonidos aspirados la "turbulencia" en el paso de
aire se produce en la glotis.
Plosivos. Estos sonidos se producen por la existencia de una obstruccin temporal al paso del aire.
Fonemas
El habla se puede ver como una secuencia de unidades bsicas de sonido o fonemas. Los fonemas
son unidades lingsticas abstractas y no pueden observarse directamente en la seal de voz. Un
mismo fonema se aplica a muchos sonidos ligeramente diferentes llamados realizaciones del
fonema o alfonos.
Podemos clasificar los fonemas atendiendo a dos criterios: modo de articulacin y punto de
articulacin. En el castellano se definen 24 fonemas que se clasifican en la siguiente tabla de dos
entradas atendiendo a los dos criterios enunciados.
As mismo se indica el carcter sonoro (SN) o sordo (SR) del fonema.

Las vocales en castellano no se suelen clasificar de la manera anterior sino que responden a una
clasificacin ms sencilla atendiendo a la posicin de la lengua (anterior, media o posterior) y a la
abertura de la boca (cerradas, medio cerradas o abiertas), como se ilustra en la tabla siguiente.

Anlisis de la seal de voz


El anlisis de la seal de voz se puede abordar desde dos puntos de vista: estudiando las
caractersticas temporales de la voz, o analizando las caractersticas espectrales de la voz. Al
primero se le llama anlisis en el dominio del tiempo, e incluye medidas de parmetros como la tasa
de cruces por cero, la autocorrelacin,... El segundo, llamado anlisis en el dominio de la
frecuencia, pretende localizar parmetros de la seal de voz atendiendo a la informacin que provee
su espectro. Este ltimo es el que cobra mayor importancia debido a su utilizacin en los sistemas
automticos del habla. Aunque la voz cambia a lo largo del tiempo, y por tanto no se puede hablar
de estacionareidad, la voz est producida por unos rganos fsicos que tienen una cierta inercia
mecnica o lo que es lo mismo, no pueden cambiar demasiado rpido. La voz generada mientras los
rganos permanecen en una cierta posicin, s se puede considerar estacionaria, y en su estudio se
pueden emplear numerosas tcnicas. Persiguiendo la adquisicin de segmentos de voz estacionarios

se ha desarrollado el anlisis a corto plazo de la voz, que consiste en tomar muestras de voz cada 10
a 30 msec. de manera que la voz se pueda considerar estacionaria en este intervalo.
La mayora de los sistemas de anlisis usan este mtodo y realizan el anlisis de tramas de voz de
10 a 30 msec. Es importante conseguir tramas estacionarias de voz para poder realizar su anlisis
espectral.
Obtencin de informacin mediante micrfono
Micrfono: El micrfono es un transductor electroacstico. Su funcin es la de transformar
(traducir) la presin acstica ejercida sobre su cpsula por las ondas sonoras en energa
elctrica.
El audio es un fenmeno analgico. Para grabar una seal de voz se hace la conversin de la seal
analgica del micrfono en una seal digital por medio del conversor A/D en la tarjeta de
sonido. Cuando un micrfono esta operando las ondas de sonido hacen que vibre el elemento
magntico del micrfono causando una corriente elctrica hacia la tarjeta de sonido, donde el
conversor A/D bsicamente graba los voltajes elctricos en intervalos especficos.
Hay dos factores importantes durante este proceso. Primero esta la taza de muestreo o que tan
seguido los valores de voltaje son grabados. Segundo, son los bits por segundo, o que tan
exactamente los valores son grabados. Un tercero podra ser el nmero de canales (mono o
estereo), pero para las aplicaciones de reconocimiento de voz un canal mono es suficiente. La
mayora de aplicaciones vienen con valores predeterminados, para desarrollo del cdigo se
debera de cambiar los parmetros para ver lo que mejor funciona en el algoritmo.
Dado a que el habla es relativamente de bajas frecuencias (entre 100Hz - 8kHz), una
frecuencia de muestreo de 16000 muestras/seg provee una mayor exactitud en la adquisicin de
la informacin, la frecuencia de nyquist.
Muestreo y cuantificacin
Muestreo consiste en el proceso de conversin de seales continuas a seales discretas en el
tiempo, es un paso para digitalizar una seal analgica. Este proceso se realiza midiendo la seal en
momentos peridicos del tiempo.
Teorema de nyquist: Si x[n] es una secuencia de muestras obtenida a partir de una seal
continua en el tiempo x(t), por medio de la relacin:
x [ n ]=x ( nT ) , para n
1
donde T es el perodo de muestreo, y su reciproco, f s=
es la frecuencia de muestreo, en
T

muestras por segundo. Tambin podemos expresar la frecuencia de muestreo como s =2


en
T
radianes por segundo.
Entonces el teorema de muestreo de nyquist esta definido como: sea x(t) una seal limitada
en banda por:
X ( j )=0 para|| N
Entonces x(t) esta nicamente determinada por sus muestras x [ n ]=x ( nT ) , n=0, 1, 2,. .. si:

s =2 2 N
T

La frecuencia N es comnmente referida como la frecuencia de Nyquist, y la frecuencia


2 N que tiene que ser excedida por la frecuencia de muestreo es llamada la razn de Nyquist.
Cuantificacin: En la cuantificacin el valor de cada muestra de la seal se representa como
un valor elegido de entre un conjunto finito de posibles valores.
Se conoce como error de cuantificacin (o ruido), a la diferencia entre la seal de entrada
(sin cuantificar) y la seal de salida (ya cuantificada), interesa que el ruido sea lo ms bajo
posible. Para conseguir esto y segn sea la aplicacin a desarrollar, se pueden usar distintas
tcnicas de cuantificacin:

Cuantificacin uniforme
Cuantificacin logartmica
Cuantificacin no uniforme
Cuantificacin vectorial

Cuantificacin uniforme:
En los cuantificadores uniformes o lineales la distancia entre los niveles de reconstruccin es
siempre la misma, la mayora usan un nmero de niveles que es una potencia de 2. No hacen
ninguna suposicin acerca de la seal a cuantificar, de all que no proporcionen los mejores
resultados. Pero son los mas fciles y menos costosos a implementar.
Cuantificacin logartmica:
Para evitar desperdicio de niveles de reconstruccin y de ancho de banda se utiliza un mtodo
sencillo para mejorar el incremento de la distancia entre los niveles de reconstruccin conforme
aumenta la amplitud de la seal. Para conseguir esto se hace pasar la seal por un compresor
logartmico antes de la cuantificacin. Esta seal comprimida puede ser cuantificada
uniformemente. A la salida del sistema la seal pasa por un expansor. A esta tcnica se le llama
compresin.
Cuantificacin no uniforme:
Este cuantificador utiliza la funcin de la distribucin de probabilidad, conociendo esto se
puede ajustar los niveles de reconstruccin a la distribucin de forma que se minimice el error
cuadrtico medio.
Cuantificacin vectorial:
Este mtodo cuantifica los datos en bloques de N muestras. En este tipo de cuantificacin, el bloque
de N muestras se trata como un vector N-dimensional.
Extraccin de caractersticas
En el reconocimiento del habla, la seal de voz preprocesada se ingresa a un nuevo procesamiento
para producir una representacin de la voz en forma de secuencia de vectores o agrupaciones de
valores que se denominan parmetros, que deben representar la informacin contenida en la
envolvente del espectro.
Hay que tener en cuenta que el nmero de parmetros debe ser reducido, para no saturar la base
de datos, ya que mientras ms parmetros tenga la representacin menos fiables son los
resultados y mas costosa la implementacin.

Existen distintos mtodos de anlisis para la extraccin de caractersticas, y se concentran en


diferentes
aspectos representativos.
En
este
caso analizaremos los dos de mayor
importancia para el anlisis de la voz:

Anlisis de prediccin lineal (LPC)


Anlisis cepstral

Prediccin lineal
Se trata de una de las tcnicas ms potentes de anlisis de voz, y uno de los mtodos ms
tiles para codificar voz con buena calidad. Su funcin es representar la envolvente espectral de una
seal digital de voz en una forma comprimida, utilizando la informacin de un modelo lineal, con lo
cual se proporcionan unas aproximaciones a los parmetros de la voz muy precisas. Se
fundamenta en establecer un modelo de filtro de tipo todo polo, para la fuente de sonido. La
principal motivacin del modelo todo polo viene dada porque permite describir la funcin
de transferencia de un tubo, que sin perdidas esta formado por diferentes secciones.
El modelo recibe este nombre porque pretende extrapolar el valor de la siguiente muestra de
voz s(n) como la suma ponderada de muestras pasadas s(n-1), s(n-2),..., s(n-K):

Incluyendo un trmino de excitacin Gu(n),la ecuacin puede escribirse como una igualdad:

Siendo k los denominados coeficientes de prediccin lineal (LPC), y G, la ganancia de


excitacin. Por otro lado en el dominio Z la ecuacin puede escribirse como:

La del tipo todo polo. Una interpretacin de esta ecuacin, que es una versin simplificada,
esta dada en la siguiente figura:

H(z) representa la funcin transferencia de un modelo lineal del conducto vocal + radiacin.
Los parmetros del filtro digital H(z)son controlados por la seal de voz que est siendo
producida y los coeficientes de este filtro son los LPC.
Cepstrum
Como se sabe los sonidos de la voz se pueden representar mediante un espectrograma, que
indica las componentes frecuenciales de la seal de voz. Es as entonces como el espectro
nos proporciona informacin acerca de los parmetros del modelo de produccin de voz,
tanto de la excitacin como del filtro que representa el tracto vocal.
Desde el principio de la dcada de los 70 los sistemas homomrficos han tenido una gran
importancia en los sistemas de reconocimiento de voz. Estos sistemas homomrficos son una
clase de sistemas no lineales que obedecen a un principio de superposicin. De estos los sistemas
lineales son un caso especial. La razn para realizar un procesado homomrfico del habla se
resume en la siguiente figura:

La seal de voz s(n) se descompone en una parte de excitacin e(n) y en un filtro lineal
como se menciono anteriormente. As, en el dominio de la frecuencia tenemos:

H ( e( j ) ) ,

En el dominio logartmico, por su parte, las dos componentes anteriores pueden separarse
empleando tcnicas convencionales del procesamiento de seal. Eso se logra del siguiente modo:

Para la mayora de aplicaciones de voz solamente necesitamos la amplitud espectral. El proceso


anterior se puede describir con un diagrama:

En la salida de este sistema tenemos entonces:

Para:
En cual caso, el valor c(n) se conoce comocoeficientes cepstrales derivados de la transformada de
Fourier. Ns es el nmero de puntos con que se calcula la transformada. Esta ecuacin puede ser
convenientemente simplificada teniendo en cuenta que el espectro logartmico es una funcin real
simtrica.

En los clculos lo habitual es usar solamente los primeros trminos ( n 20 ). Por otro lado, I(k)
representa una funcin que traduce la posicin de un valor en frecuencia al intervalo donde este
contenido.
Es posible, a la hora de calcular un coeficiente cepstral, transformar el espectro utilizando
bandas definidas segn escalas de Mel. En cual caso este tipo de parmetro se conoce como
coeficientes cepstrales con frecuencia en escala de Mel (MFCC).
PARTE EXPERIMENTAL:

Para la parte experimental se proporciona en el cdigo una frecuencia de muestreo de 44100 para un
mejor reconocimiento de los puntos de la seal de audio entrante.

Procedemos a grabar el audio proveniente de un micrfono integrado al computador y tomando


datos por 5 segundos. Recreamos el audio recopilado y creamos una matriz Z de los valores
obtenidos anteriormente.

Graficamos la primera seal sin filtro adquirida de manera limpia. Aquella que fue almacenada en la
variable Z.

Tomamos el valor de Z para obtener su transformada de Fourier. Graficamos tal seal y creamos
otra variable para la respuesta en el dominio de la frecuencia.

Graficamos la funcin discreta y la respuesta en domino de la frecuencia. Todas la graficas estn


subploteadas en un solo grfico.

Adicionando la funcin title a las grficas obtenemos el siguiente cdigo general

Tomamos dos muestras con diferentes tipos de audios, pudiendo visualizar los resultados en 4
cuadros diferentes.

Muestra 01

Muestra 02

You might also like