You are on page 1of 11

INSTRUMENTACIÓN VIRTUAL

INFORME – RECONOCIMIENTO DE PATRONES

Elaborado por:

Jhonnatan Cochancela

Contenido

1. DESCRIPCIÓN .................................................................................................................... 2
1.1. ADQUISICIÓN DE LA SEÑAL DE VOZ ......................................................................... 3
1.2. ANÁLISIS DE LA VOZ- ESTRACCIÓN DE CARACTERÍSTICAS ...................................... 3
1.3. ENTRENAMIENTO Y MODELOS ................................................................................ 5
1.4. COMPARACIÓN DE PATRONES Y LÓGICA DE DESICIÓN .......................................... 6
1.5. GENERACIÓN DE REPORTE ....................................................................................... 7
2. FUNCIONAMIENTO ........................................................................................................... 8

Índice de figuras
Figura 1 Reconocimiento de voz .................................................................................................. 2
Figura 2 Adquisición de la señal de voz ........................................................................................ 3
Figura 3 Extracción de la característica de la voz ......................................................................... 4
Figura 4 Sub VI Principal del Análisis de la voz. ............................................................................ 4
Figura 5 Sub VI para dividir en tramas de 20ms ........................................................................... 4
Figura 6 Sub VI Umbral de ruido .................................................................................................. 5
Figura 7 Matrices de entrenamiento ........................................................................................... 5
Figura 8 Etapa de comparación de patrones ............................................................................... 6
Figura 9 Sub VI Distancia Euclidiana ............................................................................................. 6
Figura 10 Lógica de decisión......................................................................................................... 7
Figura 11 Sub VI Dynamic Time Warping ..................................................................................... 7
Figura 12 Lógica para generación de reporte .............................................................................. 7
Figura 13 Sub VI Para generar el reporte ..................................................................................... 8
Figura 14 Pantalla principal del programa ................................................................................... 9
Figura 15 Comando de voz "A" (Arranque de la bomba) ............................................................. 9
Figura 16 Comando de voz "P" (Parada de la bomba) ................................................................. 9
Figura 17 Comando de voz "Reporte" (Genera reporte de arranques exitosos) ....................... 10
Figura 18 Reporte generado....................................................................................................... 10
Figura 19 Comando de voz "FIN" (Detiene la ejecución del programa)..................................... 10
1. DESCRIPCIÓN

El tema seleccionado para el presente trabajo es el arranque y parada de una bomba


mediante la voz, para lograr este objetivo fue necesario entrenar varias veces al sistema
con cada uno de los comandos para que tenga la capacidad de seleccionar y responder
a los mismos. La característica principal de este enfoque es que usa un marco
matemático bien definido y se establece representaciones consistentes de los patrones
de voz que pueden usarse para comparaciones confiables a partir de un conjunto de
muestras rotuladas, usando algoritmos de entrenamiento, el mismo que puede
aplicarse a un sonido (más pequeño que una palabra) o una palabra.

El esquema general se muestra en la Figura 1.

ADQUISICIÓN
SEÑAL DE VOZ

ANÁLISIS DE LA VOZ

ENTRENAMIENTO

MODELOS/TEMPLATES

COMPARACIÓN DE
PATRONES

LÓGICA DE DECISIÓN

PALABRA
RECONOCIDA

Figura 1 Reconocimiento de voz


A continuación, se describe cada una de las etapas de la Figura 1.

1.1.ADQUISICIÓN DE LA SEÑAL DE VOZ

Para esta etapa se utiliza Acquire Sound Express VI de LabVIEW, para lo cual se realiza
un muestreo a una taza de 11025Hz cada 4 segundos como se observa en la Figura 2.

Figura 2 Adquisición de la señal de voz

1.2.ANÁLISIS DE LA VOZ- ESTRACCIÓN DE CARACTERÍSTICAS


En esta etapa se computa una representación espectral de las características de la señal
de voz, estas medidas espectrales se convierten en un conjunto de parámetros que
describen la propiedades acústicas de las unidades fonéticas.

Dentro del análisis de la voz tenemos una sub-etapa que es el pre-énfasis, para hacer
menos sensible al sistema, luego se pasa a la señal de entrada por un filtro de orden
bajo (FIR) de manera de aplanar su espectro.

Se divide la señal de voz en tramas de 20ms donde se asume que la señal es cuasi-
estacionaria.

Cada cuadro es pasado por un ventaneo para minimizar las discontinuidades de la señal
al principio y al final de cada trama. En este caso se utiliza el ventaneo de Hamming.
Por último, cada trama se computa los coeficientes LPC, en este caso 15 coeficientes,
esto implica una reducción de la tasa de información.

Lo descrito en los párrafos anteriores, lo podemos observar en la Figura 4, Figura 5 y


Figura 6.

Figura 3 Extracción de la característica de la voz

Figura 4 Sub VI Principal del Análisis de la voz.

Figura 5 Sub VI para dividir en tramas de 20ms


Figura 6 Sub VI Umbral de ruido

1.3.ENTRENAMIENTO Y MODELOS

En la etapa de entrenamiento se construye los patrones de referencia asociados a cada


una de las palabras que se necesita reconocer, basándose en los vectores característicos
de todas las palabras usadas para el entrenamiento. El entrenamiento utilizado
corresponde a un entrenamiento robusto en el cual se utilizan varias versiones de cada
palabra a reconocer (sólo un locutor) para construir un patrón de referencia promedio.
Una vez realizado en entrenamiento se cuenta con una base de matrices de
entrenamiento como se observa en la .

Figura 7 Matrices de entrenamiento


1.4.COMPARACIÓN DE PATRONES Y LÓGICA DE DESICIÓN
En esta etapa se realiza una comparación directa entre la matriz característica asociado
a la señal de voz desconocida y todos los posibles patrones aprendidos en la etapa de
entrenamiento, de manera de determinar el mejor ajuste de acuerdo al criterio. Para
alcanzar este objetivo se determina la distancia entre los vectores característicos que
permiten determinar cuál es el patrón de referencia que mejor se ajusta a la señal
desconocida.
Debido a que una misma palabra es emitida con diferentes velocidades cada vez que es
pronunciada, se recurre a la técnica de programación dinámica (Dynamic Time
Warping).

Figura 8 Etapa de comparación de patrones

Figura 9 Sub VI Distancia Euclidiana


Figura 10 Lógica de decisión

Figura 11 Sub VI Dynamic Time Warping

1.5.GENERACIÓN DE REPORTE
Finalmente, el programa permite generar un reporte en Excel en el cual se puede observar
cuantos arranques fallidos y cuantos arranques exitosos ha tenido la bomba; es decir, permite
llevar una estadística, esto con el fin de realizar un control de calidad del proceso.

Figura 12 Lógica para generación de reporte


Figura 13 Sub VI Para generar el reporte

2. FUNCIONAMIENTO

En la Figura 14 se observa la pantalla principal del programa previo a emitir los comandos
de voz (VI PRINCIPAL: RECONOCIMIENTO_PATRONES). En la Tabla 1 detalla los comandos
utilizados y la acción que toman sobre el programa al ser reconocidos.

Tabla 1 Comandos de Voz

Palabra/Vocal Acción Observación


A ARRANCA LA BOMBA El momento en el que se da el comando de voz “A”
la bomba arranca, lo cual está representado con el
cambio de color de la bomba (Figura 15) y se
mantiene en ese estado.
P DETIENE LA BOMBA El momento en el que se da el comando de voz “P”
la bomba se detiene, lo cual está representado con
el cambio al color original de la bomba (Figura 16).
REPORTE GENERA EL REPORTE El momento en el que se da el comando de voz
“REPORTE”, se genera un reporte en Excel, en el
cual se puede observar el número de arranques
exitosos que ha tenido la bomba y cuantas veces
ha fallado en reconocer el comando de voz,
designado como fallidos (Figura 17 y Figura 18).
FIN DETIENE LA El momento en el que se da el comando de voz
EJECUCIÓN DEL “FIN”, se detiene la ejecución del programa de
PROGRAMA LabVIEW (Figura 19).
Figura 14 Pantalla principal del programa

Figura 15 Comando de voz "A" (Arranque de la bomba)

Figura 16 Comando de voz "P" (Parada de la bomba)


Figura 17 Comando de voz "Reporte" (Genera reporte de arranques exitosos)

Figura 18 Reporte generado

Figura 19 Comando de voz "FIN" (Detiene la ejecución del programa)

You might also like