1 Informe - Trabajo Final

INSTRUMENTACIÓN VIRTUAL
INFORME – RECONOCIMIENTO DE PATRONES
Elaborado por:
Jhonnatan Cochancela
Contenido
1. DESCRIPCIÓN .................................................................................................................... 2
1.1. ADQUISICIÓN DE LA SEÑAL DE VOZ ......................................................................... 3
1.2. ANÁLISIS DE LA VOZ- ESTRACCIÓN DE CARACTERÍSTICAS ...................................... 3
1.3. ENTRENAMIENTO Y MODELOS ................................................................................ 5
1.4. COMPARACIÓN DE PATRONES Y LÓGICA DE DESICIÓN .......................................... 6
1.5. GENERACIÓN DE REPORTE ....................................................................................... 7
2. FUNCIONAMIENTO ........................................................................................................... 8
Índice de figuras
Figura 1 Reconocimiento de voz .................................................................................................. 2
Figura 2 Adquisición de la señal de voz ........................................................................................ 3
Figura 3 Extracción de la característica de la voz ......................................................................... 4
Figura 4 Sub VI Principal del Análisis de la voz. ............................................................................ 4
Figura 5 Sub VI para dividir en tramas de 20ms ........................................................................... 4
Figura 6 Sub VI Umbral de ruido .................................................................................................. 5
Figura 7 Matrices de entrenamiento ........................................................................................... 5
Figura 8 Etapa de comparación de patrones ............................................................................... 6
Figura 9 Sub VI Distancia Euclidiana ............................................................................................. 6
Figura 10 Lógica de decisión......................................................................................................... 7
Figura 11 Sub VI Dynamic Time Warping ..................................................................................... 7
Figura 12 Lógica para generación de reporte .............................................................................. 7
Figura 13 Sub VI Para generar el reporte ..................................................................................... 8
Figura 14 Pantalla principal del programa ................................................................................... 9
Figura 15 Comando de voz "A" (Arranque de la bomba) ............................................................. 9
Figura 16 Comando de voz "P" (Parada de la bomba) ................................................................. 9
Figura 17 Comando de voz "Reporte" (Genera reporte de arranques exitosos) ....................... 10
Figura 18 Reporte generado....................................................................................................... 10
Figura 19 Comando de voz "FIN" (Detiene la ejecución del programa)..................................... 10
1. DESCRIPCIÓN
El tema seleccionado para el presente trabajo es el arranque y parada de una bomba

mediante la voz, para lograr este objetivo fue necesario entrenar varias veces al sistema
con cada uno de los comandos para que tenga la capacidad de seleccionar y responder
a los mismos. La característica principal de este enfoque es que usa un marco
matemático bien definido y se establece representaciones consistentes de los patrones
de voz que pueden usarse para comparaciones confiables a partir de un conjunto de
muestras rotuladas, usando algoritmos de entrenamiento, el mismo que puede
aplicarse a un sonido (más pequeño que una palabra) o una palabra.
El esquema general se muestra en la Figura 1.
ADQUISICIÓN
SEÑAL DE VOZ
ANÁLISIS DE LA VOZ
ENTRENAMIENTO
MODELOS/TEMPLATES
COMPARACIÓN DE
PATRONES
LÓGICA DE DECISIÓN
PALABRA
RECONOCIDA
Figura 1 Reconocimiento de voz

A continuación, se describe cada una de las etapas de la Figura 1.
1.1.ADQUISICIÓN DE LA SEÑAL DE VOZ
Para esta etapa se utiliza Acquire Sound Express VI de LabVIEW, para lo cual se realiza
un muestreo a una taza de 11025Hz cada 4 segundos como se observa en la Figura 2.
Figura 2 Adquisición de la señal de voz
1.2.ANÁLISIS DE LA VOZ- ESTRACCIÓN DE CARACTERÍSTICAS

En esta etapa se computa una representación espectral de las características de la señal
de voz, estas medidas espectrales se convierten en un conjunto de parámetros que
describen la propiedades acústicas de las unidades fonéticas.
Dentro del análisis de la voz tenemos una sub-etapa que es el pre-énfasis, para hacer
menos sensible al sistema, luego se pasa a la señal de entrada por un filtro de orden
bajo (FIR) de manera de aplanar su espectro.
Se divide la señal de voz en tramas de 20ms donde se asume que la señal es cuasi-
estacionaria.
Cada cuadro es pasado por un ventaneo para minimizar las discontinuidades de la señal
al principio y al final de cada trama. En este caso se utiliza el ventaneo de Hamming.
Por último, cada trama se computa los coeficientes LPC, en este caso 15 coeficientes,
esto implica una reducción de la tasa de información.
Lo descrito en los párrafos anteriores, lo podemos observar en la Figura 4, Figura 5 y

Figura 6.
Figura 3 Extracción de la característica de la voz
Figura 4 Sub VI Principal del Análisis de la voz.
Figura 5 Sub VI para dividir en tramas de 20ms

Figura 6 Sub VI Umbral de ruido
1.3.ENTRENAMIENTO Y MODELOS
En la etapa de entrenamiento se construye los patrones de referencia asociados a cada

una de las palabras que se necesita reconocer, basándose en los vectores característicos
de todas las palabras usadas para el entrenamiento. El entrenamiento utilizado
corresponde a un entrenamiento robusto en el cual se utilizan varias versiones de cada
palabra a reconocer (sólo un locutor) para construir un patrón de referencia promedio.
Una vez realizado en entrenamiento se cuenta con una base de matrices de
entrenamiento como se observa en la .
Figura 7 Matrices de entrenamiento

1.4.COMPARACIÓN DE PATRONES Y LÓGICA DE DESICIÓN
En esta etapa se realiza una comparación directa entre la matriz característica asociado
a la señal de voz desconocida y todos los posibles patrones aprendidos en la etapa de
entrenamiento, de manera de determinar el mejor ajuste de acuerdo al criterio. Para
alcanzar este objetivo se determina la distancia entre los vectores característicos que
permiten determinar cuál es el patrón de referencia que mejor se ajusta a la señal
desconocida.
Debido a que una misma palabra es emitida con diferentes velocidades cada vez que es
pronunciada, se recurre a la técnica de programación dinámica (Dynamic Time
Warping).
Figura 8 Etapa de comparación de patrones
Figura 9 Sub VI Distancia Euclidiana

Figura 10 Lógica de decisión
Figura 11 Sub VI Dynamic Time Warping
1.5.GENERACIÓN DE REPORTE
Finalmente, el programa permite generar un reporte en Excel en el cual se puede observar
cuantos arranques fallidos y cuantos arranques exitosos ha tenido la bomba; es decir, permite
llevar una estadística, esto con el fin de realizar un control de calidad del proceso.
Figura 12 Lógica para generación de reporte

Figura 13 Sub VI Para generar el reporte
2. FUNCIONAMIENTO
En la Figura 14 se observa la pantalla principal del programa previo a emitir los comandos
de voz (VI PRINCIPAL: RECONOCIMIENTO_PATRONES). En la Tabla 1 detalla los comandos
utilizados y la acción que toman sobre el programa al ser reconocidos.
Tabla 1 Comandos de Voz
Palabra/Vocal Acción Observación

A ARRANCA LA BOMBA El momento en el que se da el comando de voz “A”
la bomba arranca, lo cual está representado con el
cambio de color de la bomba (Figura 15) y se
mantiene en ese estado.
P DETIENE LA BOMBA El momento en el que se da el comando de voz “P”
la bomba se detiene, lo cual está representado con
el cambio al color original de la bomba (Figura 16).
REPORTE GENERA EL REPORTE El momento en el que se da el comando de voz
“REPORTE”, se genera un reporte en Excel, en el
cual se puede observar el número de arranques
exitosos que ha tenido la bomba y cuantas veces
ha fallado en reconocer el comando de voz,
designado como fallidos (Figura 17 y Figura 18).
FIN DETIENE LA El momento en el que se da el comando de voz
EJECUCIÓN DEL “FIN”, se detiene la ejecución del programa de
PROGRAMA LabVIEW (Figura 19).
Figura 14 Pantalla principal del programa
Figura 15 Comando de voz "A" (Arranque de la bomba)
Figura 16 Comando de voz "P" (Parada de la bomba)

Figura 17 Comando de voz "Reporte" (Genera reporte de arranques exitosos)
Figura 18 Reporte generado
Figura 19 Comando de voz "FIN" (Detiene la ejecución del programa)

1 Informe - Trabajo Final

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

1 Informe - Trabajo Final

Uploaded by

Copyright:

Available Formats

INSTRUMENTACIÓN VIRTUAL

INFORME – RECONOCIMIENTO DE PATRONES

El tema seleccionado para el presente trabajo es el arranque y parada de una bomba

El esquema general se muestra en la Figura 1.

Figura 1 Reconocimiento de voz

1.1.ADQUISICIÓN DE LA SEÑAL DE VOZ

Figura 2 Adquisición de la señal de voz

1.2.ANÁLISIS DE LA VOZ- ESTRACCIÓN DE CARACTERÍSTICAS

Lo descrito en los párrafos anteriores, lo podemos observar en la Figura 4, Figura 5 y

Figura 3 Extracción de la característica de la voz

Figura 4 Sub VI Principal del Análisis de la voz.

Figura 5 Sub VI para dividir en tramas de 20ms

En la etapa de entrenamiento se construye los patrones de referencia asociados a cada

Figura 7 Matrices de entrenamiento

Figura 8 Etapa de comparación de patrones

Figura 9 Sub VI Distancia Euclidiana

Figura 11 Sub VI Dynamic Time Warping

Figura 12 Lógica para generación de reporte

Tabla 1 Comandos de Voz

Palabra/Vocal Acción Observación

Figura 15 Comando de voz "A" (Arranque de la bomba)

Figura 16 Comando de voz "P" (Parada de la bomba)

Figura 18 Reporte generado

Figura 19 Comando de voz "FIN" (Detiene la ejecución del programa)

You might also like