You are on page 1of 78

21

Sonido sinusoidal que comienza en 20 Hz y realiza un barrido hasta 15.000 Hz. Cabe
aclarar que el barrido se ha realizado solo hasta los 15.000 Hz para evitar la distorsión
que se puede generar con la mayoría de los sistemas de reproducción hogareños.

Como la sinusoide es la onda periódica más sencilla, es ideal como punto de


partida para el estudio de las ondas sonoras en general. Pero lo que le da
más importancia a esta onda, es el hecho de que todas las ondas periódicas
pueden ser descompuestas como sumas de ondas senoidales (propiedad
demostrada por el Teorema de Fourier).

1.5. Características de la forma de onda

Las características que se abordarán a continuación, por razones pedagógi-


cas, serán ejemplificadas en ondas simples o senoidales. Cabe aclarar que
las mismas corresponden tanto a ondas simples como a ondas complejas.

1.5.1. Representación gráfica de la forma de onda

La representación gráfica del sonido se aplica a todo tipo de ondas y se la


denomina oscilograma. Consiste en representar los cambios de amplitud en
función del tiempo en un par de ejes, horizontal (tiempo) y vertical (amplitud).

1.5.2. Frecuencia

La frecuencia se define como la cantidad de ciclos por segundo de una os-


cilación periódica. Se mide en ciclos por segundo (cps) o en Hertz, en honor

Técnicas de sonido digital Oscar Di Liscia, Mariano Cura, Lucas Samaruga y Damián Anache
22

al físico alemán Heinrich Rudolf Hertz que descubrió la propagación de las


ondas electromagnéticas.

La frecuencia se vincula con el período por la siguiente relación:

f=1/T

Si la frecuencia (f ) de una oscilación es de 100 Hz, su período (T) o


tiempo necesario para realizar una oscilación completa será:

T = 1 / f T = 1 / 100 Hz T = 0,01s

Si el período (T) de una oscilación es de 0,1seg, su frecuencia (f) será:

f =1 / T f =1 / 0,001s f =1000 Hz

Los sonidos periódicos son los que definen altura, es decir que los podemos
cantar como, por ejemplo, las notas de un piano. La frecuencia de un sonido
se relaciona con la altura del mismo. Las frecuencias bajas corresponden a
sonidos graves y las altas a sonidos agudos.

Técnicas de sonido digital Oscar Di Liscia, Mariano Cura, Lucas Samaruga y Damián Anache
23

Sucesión de ondas senoidales de frecuencias


500Hz – 1.500Hz -3.500Hz y 5.000Hz.

1.5.3. Amplitud

La amplitud se define como el máximo valor que alcanza una oscilación en un


ciclo, también se la llama valor pico. Está vinculada con la energía o intensidad

Técnicas de sonido digital Oscar Di Liscia, Mariano Cura, Lucas Samaruga y Damián Anache
24

del sonido.
También es útil evaluar la energía en un instante determinado que se llama
valor instantáneo.

Sucesión de notas de piano con diferente amplitud

Envolvente

La amplitud de un sonido no es necesariamente constante, esta puede va-


riar de forma dinámica en el tiempo. La mayoría de los sonidos no duran

Técnicas de sonido digital Oscar Di Liscia, Mariano Cura, Lucas Samaruga y Damián Anache
25

infinitamente. Se puede simplificar la evolución dinámica de un sonido en las


siguientes etapas:

• Ataque: tiempo en el que sonido crece hasta el pico de máxima energía.


• Decaimiento: tiempo en el que la energía cae desde el pico del ataque
hasta que se establece.
• Sostenimiento o régimen: tiempo en el que la energía se establece esta-
ble.
• Extinción: tiempo en el que la energía cae desde el régimen hasta que se
extingue el sonido.

Onda sinusoidal con envolvente ADSR

1.5.4. Período

El período, simbolizado T, es el tiempo transcurrido en realizar un ciclo. Se mide


en segundos o en milisegundos. El período de los sonidos audibles para el ser
humano va desde los 0,05 ms (sonidos muy agudos) a los 50 ms (sonidos muy

Técnicas de sonido digital Oscar Di Liscia, Mariano Cura, Lucas Samaruga y Damián Anache
26

graves).

1.5.5. Fase

Se llama fase de una onda periódica a las diferentes posiciones instantáneas


dentro de un respectivo ciclo. Generalmente, la fase se mide en grados y
hace referencia al tiempo transcurrido desde el inicio de la oscilación.

LEER CON ATENCIÓN

Dos ondas periódicas de igual frecuencia se encuentran en


fase cuando están sincronizadas, por lo que en un momento
determinado ocupan posiciones idénticas de un ciclo. Cuando
una comienza después de otra, siempre ocuparán posiciones
distintitas dentro del respectivo ciclo, por lo que tendrán una
diferencia de fase.

Técnicas de sonido digital Oscar Di Liscia, Mariano Cura, Lucas Samaruga y Damián Anache
27

Comparación entre movimientos

Dos movimientos con una diferencia de fase de 90º

Técnicas de sonido digital Oscar Di Liscia, Mariano Cura, Lucas Samaruga y Damián Anache
28

Dos movimientos con una diferencia de fase de 180º

Dos movimientos con una diferencia de fase de 270º

Técnicas de sonido digital Oscar Di Liscia, Mariano Cura, Lucas Samaruga y Damián Anache
29

Dos movimientos de igual frecuencia, fase y distinta amplitud

Dos movimientos de igual fase, amplitud y distinta frecuencia

Técnicas de sonido digital Oscar Di Liscia, Mariano Cura, Lucas Samaruga y Damián Anache
30

1.6. Suma de ondas senoidales

Cuando se suman dos ondas senoidales se suma la energía de cada una y


como resultado se obtiene la combinación de las dos ondas.
Para simplificar, nos concentraremos en la representación de la forma de
onda e imaginaremos dos sinusoides. A intervalos regulares de tiempo eva-
luaremos la energía de cada onda, las sumaremos y obtendremos el nuevo
valor de elongación de la sumatoria de las dos ondas. Entonces, la suma de
las dos ondas será el resultado de la suma algebraica de la energía de cada
una de estas, evaluada a intervalos regulares de tiempo.

1.6.1. Suma de ondas senoidales cuya resultante es otra senoidal

Para que la suma de dos sinusoides dé como resultado otra sinusoide, es


necesario que ambos componentes tengan la misma frecuencia.

Suma de sinusoides de igual frecuencia, amplitud y fase

La resultante es otra sinusoide de igual frecuencia, fase y el doble de ampli-


tud.

Técnicas de sonido digital Oscar Di Liscia, Mariano Cura, Lucas Samaruga y Damián Anache
31

Suma de sinusoides de igual frecuencia, fase y distinta amplitud

La resultante es otra sinusoide de igual frecuencia, fase y la suma de sus am-


plitudes.

Suma de sinusoides de igual frecuencia, amplitud y distinta fase

Si la diferencia de fase es cercana a 0º, la amplitud resultante será próxima al


doble. Por el contrario, si la diferencia de fase es cercana a 180º, la amplitud
resultante será cercana a cero.

Técnicas de sonido digital Oscar Di Liscia, Mariano Cura, Lucas Samaruga y Damián Anache
32

Suma de sinusoides de igual frecuencia y amplitud, pero con fases


distintas

La resultante es otra sinusoide de igual frecuencia, la amplitud será la suma


de las amplitudes y la fase el promedio de las fases.

Técnicas de sonido digital Oscar Di Liscia, Mariano Cura, Lucas Samaruga y Damián Anache
33

Suma de sinusoides de igual frecuencia y amplitud, pero en oposición


de fase

La resultante será una línea recta o silencio.

1.6.2. Suma de ondas senoidales cuya resultante es una onda


compleja

Todos los tipos de ondas que no sean senoidales se denominan ondas com-
plejas. El Teorema de Fourier, que se desarrollará en profundidad en la Unidad
6, muestra que podemos descomponer a las ondas complejas como suma
de ondas simples o senoidales de frecuencia, amplitud y fase determinadas.
Si las frecuencias de los componentes de una onda compleja son múltiplos
enteros de la sinusoide de frecuencia más baja, la onda resultante será pe-
riódica o armónica.
Si las frecuencias de los componentes de una onda compleja no son múlti-
plos enteros de la sinusoide de frecuencia más baja, la onda resultante será
aperiódica o inarmónica.

Técnicas de sonido digital Oscar Di Liscia, Mariano Cura, Lucas Samaruga y Damián Anache
34

Espectro de frecuencias

Podemos definir al espectro de una onda como la distribución de su energía


en función de la frecuencia.

La representación de la forma de onda y del espectro son dos posibles vi-


sualizaciones de las características de una misma onda. En la forma de onda
vemos representada la amplitud en función del tiempo, y en el espectro de
frecuencias, la amplitud en función de la frecuencia.

Se puede representar gráficamente la distribución de energía de una onda en


un momento dado por medio de un espectro de frecuencias o espectrograma.
Consiste en representar la amplitud en función de la frecuencia en un par de
ejes, vertical para la amplitud y horizontal para la frecuencia. Gracias a esta
representación, podemos visualizar la descomposición de una onda compleja
como la suma de ondas senoidales de frecuencia y amplitud determinadas.

Técnicas de sonido digital Oscar Di Liscia, Mariano Cura, Lucas Samaruga y Damián Anache
35

Ondas complejas periódicas

Una onda periódica de frecuencia f se puede descomponer como una suma


de sinusoides cuyas frecuencias serán f, 2f, 3f, 4f, 5f, etc. A la frecuencia f
se la denomina fundamental y es la que determina la altura percibida. A los
otros componentes se los denomina armónicos superiores y se encuentran
en una relación de múltiplos enteros con la fundamental.

Si tenemos una onda compleja cuya fundamental es de 440 Hz la podemos


representar como la suma de armónicos con amplitudes y fases determina-
das, cuyas frecuencias serán:

(f) 440 Hz + (f2) 880 Hz + (f3) 1.320 Hz + (f4) 1.760 Hz + (f5) 2.200 Hz, etcétera.

Sonidos periódico de (f ) 440 Hz + (f2) 880 Hz + (f3) 1.320 Hz +


(f4) 1.760 Hz + (f5) 2.200 Hz.

Onda diente de sierra

La onda diente de sierra es una onda periódica generada artificialmente en la


que la amplitud de sus armónicos decrece proporcionalmente con el número de
armónico.

Técnicas de sonido digital Oscar Di Liscia, Mariano Cura, Lucas Samaruga y Damián Anache
36

Onda diente de sierra de 440 Hz

Onda cuadrada

La onda cuadrada se obtiene sumando solo los armónicos impares, y su am-


plitud decrece proporcionalmente con el número de armónico.

Onda cuadrada de 440 Hz

Onda triangular

La onda triangular se obtiene sumando solo los armónicos impares, y su am-


plitud decrece proporcionalmente con el cuadrado del número de armónico.

Técnicas de sonido digital Oscar Di Liscia, Mariano Cura, Lucas Samaruga y Damián Anache
37

Onda triangular de 440 Hz

Ondas complejas aperiódicas

A las ondas complejas cuyas componentes no forman parte de una serie ar-
mónica se las denomina aperiódicas. Estas ondas producen sonidos que no
definen altura.

Onda compleja aperiódica cuyas componentes son: 440Hz + 1.641Hz +


1.862Hz + 2.783Hz + 3.725Hz

Técnicas de sonido digital Oscar Di Liscia, Mariano Cura, Lucas Samaruga y Damián Anache
38

1.6.3. Batidos o pulsaciones

Un caso particular de suma de ondas periódicas simples o complejas que no


están en relación armónica es el que se conoce como batidos o pulsaciones.
Este fenómeno se produce a partir de la suma de ondas periódicas cuyas
frecuencias sean levemente distintas, sin superar los 20hz de diferencia. El
resultado de dicha suma será otra onda del mismo tipo, cuya frecuencia será
el promedio de las frecuencias originales. Su amplitud no será constante,
sino que variará periódicamente en el tiempo a una frecuencia igual a la dife-
rencia de las frecuencias originales.

Los músicos aprovechan este fenómeno para afinar sus instrumentos. Se


toma un tono de referencia, por ejemplo el La de 440 hz que da un diapasón,
se toca la misma nota en el instrumento a afinar, y mientras se escuchen
batidos entre los dos sonidos, estos estarán desafinados. Entonces, es ne-
cesario subir o bajar la afinación del instrumento hasta que los batidos des-
aparezcan.

Sumemos dos sinusoides de frecuencias (f1) = 440 Hz y (f2) 442 Hz.


La frecuencia resultante (fr) será el promedio de sus frecuencias:
(fr) = ((f1)+(f2))/2
(fr) = (440 Hz + 442 Hz)/2 =441 Hz
La frecuencia del batido (fb) será:
(fb) = (f1)-(f2)
(fb) = 442 Hz – 440 Hz = 2 Hz

Batido producido por la suma de dos sinusoides de 440 Hz y 442 Hz

Se recomienda ver las animaciones de la siguiente página:

Técnicas de sonido digital Oscar Di Liscia, Mariano Cura, Lucas Samaruga y Damián Anache
39

Acoustics and Vibration Animations de Dan Russell, Graduate


Program in Acoustics, Penn State University.
<http://www.acs.psu.edu/drussell/Demos/superposition/super-
position.html>

1.7. Timbre

Dijimos que el espectro de una onda sonora es la distribución de su energía


en función de la frecuencia. La evolución del espectro en el tiempo se relacio-
na con un atributo perceptivo del sonido que se denomina habitualmente tim-
bre. Es una de las características más significativas de un sonido en cuanto
a su identidad, ya que nos permite discriminar entre una fuente sonora y otra
(distinguir que un sonido proviene de un piano o una guitarra cuando produ-
cen sonidos de igual frecuencia y amplitud).

Los sonidos evolucionan en el tiempo y su distribución de energía o espectro


puede cambiar en las diferentes etapas del mismo. Evaluemos lo que ocurre
cuando se toca una nota con un piano. El ataque es la etapa en el que crece
la intensidad hasta el pico de amplitud y la distribución de la energía tiene,
por un lado, el golpe del martillo sobre la cuerda, que tiene un espectro
aperiódico (como sucede generalmente en los sonidos de percusión); y, por
el otro, la parte armónica, que es propia de la oscilación de la cuerda. En la
extinción del sonido, vemos que la parte inarmónica desaparece, la energía
se concentra en la parte armónica y a medida que pasa el tiempo, esta decae
primero en los armónicos superiores, perdiendo brillo, hasta que el sonido
se extingue.

1.7.1. Sonograma

Para poder visualizar el timbre de un sonido necesitamos representar la evo-


lución de la distribución de energía en el tiempo. Una manera de realizarlo
es con una sucesión de espectrogramas, obteniendo una suerte de película.

El sonograma es otra forma de representación gráfica de la misma informa-


ción y las tres dimensiones a visualizar (frecuencia, amplitud y tiempo) se
representan de la siguiente manera:

• Tiempo: eje horizontal.


• Frecuencia: eje vertical.
• Amplitud: graduación de color o escala de grises.

Técnicas de sonido digital Oscar Di Liscia, Mariano Cura, Lucas Samaruga y Damián Anache
40

1.8. Propagación de las ondas sonoras

Como vimos anteriormente una onda sonora es una onda mecánica con un
rango de frecuencias de 20 Hz a 20.000 Hz que se propaga en un medio
elástico, sea este gaseoso, líquido o sólido.

1.8.1. Velocidad de propagación del sonido

La velocidad de propagación del sonido depende de las características del


medio transmisor y no de las características de la onda que lo genera. En ge-
neral, cuanto mayor sea la compresibilidad del medio de transmisión, menor
será la velocidad de propagación del sonido.

La velocidad de propagación del sonido en el aire a 0 ºC es de 331,4m/s y


aumenta 0,6m/s por cada grado que aumenta la temperatura.

Técnicas de sonido digital Oscar Di Liscia, Mariano Cura, Lucas Samaruga y Damián Anache
41

Tenemos una fuente sonora ubicada a 150m del receptor y la


temperatura es de 23 ºC. Cuando la fuente genera una onda sonora,
este tardará en llegar al receptor 0,43s.
Velocidad de propagación = 345m/s
Tiempo en propagarse 150m = 150/345 = 0,43s

1.8.2. Frente de onda

El frente de onda es la superficie o línea formada por los puntos del medio
de propagación que son alcanzados en un mismo instante por una onda me-
cánica.

La forma del frente de onda, cuando se propaga en el aire, se puede conside-


rar plana o esférica, en la medida en que se aleja de la fuente emisora.

Se llama vector de radiación o rayo a la flecha perpendicular al frente de onda


que marca la dirección de la propagación.

En un modelo ideal, el frente de onda se propaga omnidireccionalmente (en


todas las direcciones por igual), pero dependiendo del tipo de fuente emisora
nos encontramos con propagaciones más o menos direccionales.

Se recomienda ver las animaciones de la siguiente página:


Acoustics and Vibration Animations de Dan Russell, Graduate Program in
Acoustics, Penn State University.
<http://www.acs.psu.edu/drussell/Demos/rad2/mdq.html>

1.8.3. Longitud de onda

La longitud de onda (λ) es la distancia que recorre una perturbación u onda en el


intervalo de tiempo de un período (T) o la duración de un ciclo.

Técnicas de sonido digital Oscar Di Liscia, Mariano Cura, Lucas Samaruga y Damián Anache
42

Entonces, para poder determinar la longitud de onda tenemos que multiplicar la


velocidad de propagación del sonido por el período de la onda a evaluar: λ = v.T

Como el período es inverso a la frecuencia, también podemos calcular la longitud


de onda de la siguiente manera: λ = v/f

Podemos deducir entonces que la longitud de onda es inversamente proporcional


a la frecuencia del sonido. Los sonidos más graves (frecuencias bajas) tendrán
longitudes de onda más grandes que los sonidos agudos (frecuencias altas).

Tomemos tres notas musicales:


La3 = 220 Hz
La5 = 880 Hz
La7 = 3.520 Hz
Velocidad de propagación del sonido = 345m/s a 23ºC
de 220 Hz = 345/220 = 1,57m
de 880 Hz = 345/880 = 0,39m
de 3.520 Hz = 345/3.520 = 0,01m

1.8.4. Comportamiento de la propagación de las ondas sonoras en


espacios cerrados

La ley de la conservación de la energía afirma que la energía no se pierde, no


puede crearse ni destruirse, solo puede cambiar de un estado a otro.

La energía de una onda sonora que se propaga en un medio elástico como el


aire, no se pierde, una parte se va disipando en forma de calor. Esto ocurre
en frecuencias agudas y es perceptible a distancias mayores a cincuenta
metros.

Cuando una onda sonora se propaga en un recinto se encuentra con los


límites físicos de la habitación (paredes, techo, piso) y con los objetos u obs-
táculos que en ella se encuentren. Al encontrarse con una pared, parte de la
energía se refleja (similar a la reflexión de la imagen en un espejo) y, otra par-
te, penetra en el material de la misma, cambiando el medio de propagación.

Estas transformaciones o redistribuciones de energía acústica se pueden


describir tomando como referencia cuatro tipos de fenómenos.

Reflexión

La reflexión es el cambio de dirección que experimenta la onda sonora cuando


se encuentra con un límite físico como, por ejemplo, una pared. Este cambio
de dirección depende del ángulo de incidencia del frente de onda, sobre la
superficie, similar a lo que ocurre cuando una bola de billar se encuentra con
el límite de la mesa.

Técnicas de sonido digital Oscar Di Liscia, Mariano Cura, Lucas Samaruga y Damián Anache
43

Absorción

Cuando una onda sonora se refleja sobre un medio como una pared, la re-
flexión nunca es completa. Parte de la energía de la onda cambia de medio y
es absorbida por el segundo medio de transmisión.

El coeficiente de absorción es la relación entre la energía reflejada y la ab-


sorbida por el material y tiene valores que van de 0 a 1, siendo 0 la mínima
absorción (por lo que toda la energía del sonido es reflejada), y 1, cuando
la absorción es completa. La absorción depende de las características del
material. En general los materiales blandos y porosos, como la lana de vidrio
o roca son muy absorbentes y los materiales duros y lisos como el hormigón
son muy poco absorbentes y muy reflejantes. Cabe aclarar que la absorción
de los materiales no es igual en todas las frecuencias, por lo que no hay un
coeficiente de absorción único. En general, la absorción de los materiales se
mide a varias frecuencias.

Técnicas de sonido digital Oscar Di Liscia, Mariano Cura, Lucas Samaruga y Damián Anache
44

Refracción

La refracción es el cambio de dirección que experimenta una onda sonora


cuando pasa de un medio a otro. Este fenómeno se debe a la diferencia de
la velocidad de propagación entre los dos medios. Es similar a lo que ocurre
con la luz cuando metemos un lápiz en un vaso de agua y nos parece que se
quiebra.

Cabe aclarar que esto ocurre cuando la onda incide oblicuamente sobre la su-
perficie de separación de los medios. Cuando la incidencia es perpendicular,
la dirección no cambia.

Difracción

La difracción es el cambio de dirección que experimenta una onda sonora


cuando se encuentra con un obstáculo o atraviesa una abertura. Para que se
dé este fenómeno, la longitud de onda de la onda debe ser mayor al tamaño
del obstáculo, por lo que es más común que se produzca para las frecuencias
graves que para las agudas.

Imaginemos que una onda sonora se encuentra con una columna (obstáculo): si
la longitud de onda es superior al diámetro de la columna se produce difracción
y las ondas rodean al obstáculo sin problema. Por el contrario, si la longitud de
onda es menor al diámetro de la columna, no se produce difracción y la onda es
reflejada por el obstáculo, produciendo del otro lado del mismo lo que se llama
“sombra acústica”.

Técnicas de sonido digital Oscar Di Liscia, Mariano Cura, Lucas Samaruga y Damián Anache
45

Podemos deducir que un mismo obstáculo producirá sombra acústica para


las frecuencias cuyas longitudes de onda son menores que su tamaño y, por
el fenómeno de difracción, las frecuencias menores podrán rodearlo. Esto es
lo que ocurre cuando nos encontramos detrás de una columna en un espacio
cerrado y percibimos que faltan frecuencias agudas y, cuando nos movemos,
estas frecuencias reaparecen.

Cuando un frente de onda se encuentra con una abertura (puerta, ventana, etc.)
la onda se dispersa como si se hubiera generado allí. Esto es lo que percibimos
cuando escuchamos música saliendo por una ventana, no nos damos cuenta
dónde se origina la onda dentro del recinto, todo nos indica que la onda proviene
de la ventana.

1.8.5. Efecto Doppler

El efecto Doppler es el aparente cambio de frecuencia de una onda debido al


movimiento relativo de la fuente respecto de su receptor.

Este efecto es el que percibimos cuando un móvil (auto, tren, etc.) se nos

Técnicas de sonido digital Oscar Di Liscia, Mariano Cura, Lucas Samaruga y Damián Anache
46

acerca o aleja. La onda sonora que produce la fuente es siempre la misma


pero, a medida que la fuente se acerca, percibimos cómo aumentan la sono-
ridad y la frecuencia. Cuando la fuente nos alcanza, es el momento en el que
la frecuencia aparente llega a su punto máximo. Cuando el móvil comienza a
alejarse, percibimos cómo la frecuencia comienza a bajar.

Este fenómeno ocurre debido a la compresión que experimenta el frente de


onda cuando la fuente sonora se desplaza en su misma dirección, disminu-
yendo la longitud de onda. Por el contrario, en las zonas en la que la dirección
de la fuente es contraria al de los frentes de onda, estos experimentan una
expansión, por lo que la longitud de onda aumenta.

Efecto Doppler producido por el desplazamiento de un avión

Se recomienda ver las animaciones de la siguiente página:


Acoustics and Vibration Animations de Dan Russell, Graduate Program in
Acoustics, Penn State University.
<http://www.acs.psu.edu/drussell/Demos/doppler/doppler.
html>

1.

Observe las formas de onda que se presentan a continuación y


averigüe para cada una de ellas los siguientes parámetros:
a) Frecuencia
b) Período
c) Amplitud
d) Fase inicial

Técnicas de sonido digital Oscar Di Liscia, Mariano Cura, Lucas Samaruga y Damián Anache
47

2.

Realice el siguiente multiple choice:

a) En un movimiento periódico se denomina período (T):


• a la frecuencia del movimiento
• a la cantidad de ciclos que el móvil hace por segundo
• al tiempo transcurrido al realizar un ciclo
b) Se llama frecuencia de un movimiento:
• a la cantidad de ciclos realizados por segundo
• a la duración de un ciclo
• a la distancia recorrida en un ciclo.
c) Dos movimientos oscilatorios simples de igual frecuencia se hallan en fase
cuando:
• en un instante dado, ocupan posiciones idénticas en su respectivo ciclo
• en un instante dado, tienen igual amplitud
• en un instante dado, ocupan posiciones opuestas en su respectivo ciclo.
d) La suma de dos movimientos oscilatorios simples de igual fase, frecuen-

Técnicas de sonido digital Oscar Di Liscia, Mariano Cura, Lucas Samaruga y Damián Anache
48

cia y amplitud es igual:


• a un movimiento oscilatorio simple de igual fase, frecuencia y cero de
amplitud
• a un movimiento oscilatorio simple de igual fase, frecuencia y el doble de
amplitud
• a un movimiento oscilatorio simple de igual frecuencia, amplitud y dis-
tinta fase.
e) Cuando en la suma de dos movimientos oscilatorios simples de igual fre-
cuencia y amplitud, la diferencia entre sus fases es cercana a 180º la ampli-
tud resultante:
• será cercana al doble
• será cercana a cero
• será cercana a la mitad.
f) La longitud de onda de un sonido a una frecuencia dada dependerá:
• del medio en el que esta se propague y su temperatura
• de la distancia a la fuente
• del medio en el que esta se propague.
g) Se llama frente de onda a:
• la distancia recorrida por una perturbación en un momento dado
• la superficie formada por todos los puntos que en un momento dado
experimentan una misma perturbación
• al momento en que la perturbación encuentra un obstáculo.
h) El rango audible en personas sanas de extiende:
• de 0 hz a 40.000 hz
• de 50 hz a 12.500 hz
• de 20 hz a 20.000 hz.
i) La amplitud pico de un sonido:
• es la energía promedio del sonido
• es el momento del sonido en el que la amplitud alcanza la energía máxima
• es la intensidad del sonido.
j) La envolvente dinámica de un sonido:
• es la forma en que se desarrolla la amplitud del mismo en el tiempo
• es la forma del ataque del mismo
• es la forma en la que varía la frecuencia del mismo en el tiempo.

A fin de ampliar la información sobre los temas tratados en esta


unidad lea:
Miyara, F. (2004), “Capítulo I”, en: Acústica y sistemas de sonido.
UNR Editora, Rosario.

Técnicas de sonido digital Oscar Di Liscia, Mariano Cura, Lucas Samaruga y Damián Anache
51

Principios básicos de percepción sonora

Objetivos

• Que el estudiante comprenda los conceptos de presión e intensidad, sus


relaciones con las ondas sonoras y sus formas de medición.
• Que el estudiante comprenda las principales características y fisiología del
sistema auditivo humano.
• Que el estudiante comprenda las principales áreas de la percepción sono-
ra relacionadas con la sonoridad, la altura y la espacialidad.

2.1. Introducción

Cuando los humanos procesamos, a través de nuestro sistema auditivo y ce-


rebro, una onda acústica, se forma en nuestra mente la sensación de sonido.
Como sensación, el sonido tiene atributos perceptivos que tienen relaciones
sumamente complejas con los atributos físicos de las ondas sonoras que lo
generan. La complejidad de estas relaciones se debe, en gran medida, a las
características de nuestro sistema auditivo y de nuestra mente. La Psicoacús-
tica y la Percepción Sonora estudian tales relaciones, principalmente a través
de la investigación experimental. Los campos de estudio de las disciplinas
mencionadas son muy numerosos e involucran intereses y aplicaciones muy
variados, que van desde la medicina, los estudios de la mente, el diseño de
dispositivos de audio hasta la producción sonora artística y comunicacional,
por mencionar algunos de ellos.

En esta unidad se tratarán solo los aspectos más relevantes de la percepción


sonora relacionados con la sonoridad, la altura y la espacialidad del sonido.

2.2. Presión dinámica e intensidad de las ondas acústi-


cas

Antes de tratar en detalle los aspectos perceptivos de las señales acústicas,


se verán algunas unidades de medición de sus atributos físicos.

Técnicas de sonido digital Oscar Di Liscia, Mariano Cura, Lucas Samaruga y Damián Anache
52

2.2.1. Relación entre amplitud, presión e intensidad acústica

La amplitud del movimiento de un cuerpo que vibra y produce una onda so-
nora es directamente proporcional a la presión e intensidad acústica que
esta produce. La amplitud del movimiento de las moléculas en las ondas
sonoras, en la escala del mínimo audible al umbral del dolor, es de 10-11
(0.00000000001) metros a 10-5 (0.00001) metros.

Como resulta complicado medir la amplitud del movimiento en las moléculas,


dadas las ínfimas dimensiones de este, se toman habitualmente como refe-
rencia las nociones de presión dinámica e intensidad.

2.2.2. Presión estática

La presión es una fuerza ejercida sobre una superficie. Cuando no cambia (o


lo hace muy levemente en intervalos de tiempo muy grandes), se considera
presión estática. Por ejemplo, la presión estática media de la atmósfera te-
rrestre es de 101.300 Pa (1.013 hectopascales).
Cada Pascal (Pa) equivale a una
fuerza de 1 Newton por m2.
2.2.3. Presión dinámica

Dado que una onda sonora produce cambios de presión en el medio (habi-
tualmente, el aire) a intervalos temporales de su frecuencia, se considera
que produce presión dinámica. Estos cambios de presión son positivos o
negativos (mayores o menores que la presión promedio de la atmósfera, por
ejemplo). La presión dinámica producida por las ondas sonoras se mide con
micrófonos sensibles a presión, tomando como referencia máxima 20 Pa y
mínima 20 micropascales.

En términos de acústica, es habitual medir la presión y la intensidad de las


ondas sonoras en unidades que se denominan decibeles (dB).

Vivimos habitualmente en el fondo de un océano de aire... La


atmósfera es el gran lienzo en el que la música es pintada. Toda
vez que una perturbación interrumpe el reposo de la atmósfera,
las “noticias” del evento son propagadas hacia afuera en todas las
direcciones a la velocidad del sonido… si esa perturbación mecánica
es causada por oscilaciones que están en el rango aproximado
de 20 a 20000 por segundo, la perturbación resultante puede ser
potencialmente detectada a través de nuestro sentido de la audición,
asumiendo que las oscilaciones sean suficientemente fuertes como
para ser oídas y suficientemente débiles como para no dañar nuestro
mecanismo de audición (Moore, 1990: 340-341).

Técnicas de sonido digital Oscar Di Liscia, Mariano Cura, Lucas Samaruga y Damián Anache
53

Cuando los Decibeles se usan para la medición de presión sonora, se los de-
nomina dB SPL (del inglés, Sound Pressure Level, Nivel de Presión Sonora). La
relación entre la presión de las ondas sonoras medida en dB SPL y en Pascales
es la siguiente:

Presión = 20 * log10(p/pr). [Db SPL]

En donde p es la presión y pr =20 micropascales (20 Pa / 1000000), ambas


indicadas en Pascales.

LEER CON ATENCIÓN

La escala de dB SPL va de 0 dB (Umbral de Audición)


a 120 dB (Umbral del dolor). Se corresponde mejor con
nuestra percepción de la sonoridad (variaciones de presión
proporcionales generan sensaciones de variación de sonoridad
equivalentes) y reduce notablemente el enorme rango
numérico que implica expresar la presión en Pascales.

TEXTO APARTE

La denominación de Decibel proviene de la unidad denominada


Belio (Bell, en inglés) en honor a su inventor, el físico inglés
Alexander Graham Bell (1847-1922). Un Decibel es la décima
parte de un Belio. Se considera una unidad relativa, dado que
expresa la relación entre dos magnitudes, una de referencia y
la que se quiere medir. No se usa únicamente en acústica, sino
también en electricidad.

Para convertir presión en Pa a dB y en dB a Pa se pueden usar las siguientes


fórmulas:
xdB = 20*Log10(xpa/xpref)
xPa = (10 (xdB /20))*0.00002

Convertir 2.5 Pa a dB:


xdB = 20*Log10(2.5/xpref)
= 20*Log10(2.5/0.00002)
= 101.93 dB
Convertir 5 Pa a dB:
xdB = 20*Log10(5/xpref)
= 20*Log10(5/0.00002)
= 107.95 dB
Convertir 10 Pa a dB:
xdB = 20*Log10(10/xpref)
= 20*Log10(10/0.00002)
= 113.97 dB

Técnicas de sonido digital Oscar Di Liscia, Mariano Cura, Lucas Samaruga y Damián Anache
54

LEER CON ATENCIÓN

Obsérvese que a cada 6 dB de aumento o disminución,


corresponde un cambio de la presión dinámica del doble o la
mitad, respectivamente.

2.2.4. Potencia e intensidad acústica

La potencia acústica es la cantidad de energía acústica transferida por unidad


de tiempo y se mide en unidades denominadas Watts.
La unidad denominada Watt (en
español, Vatio, abreviada W), fue P= DE/Dt Watts
inventada por el ingeniero esco-
cés James Watt (1736-1819). Se La letra griega D (Delta) se suele usar, por convención, para indicar una dife-
utiliza muy corrientemente tam- rencia entre dos magnitudes. En este caso, dos medidas de energía sucesi-
bién en electricidad. vas tomadas en un intervalo de tiempo.

La intensidad acústica es la potencia que atraviesa un área. Se mide en W/


m2.
I= P/A Watts/m2

En donde A es el área o superficie afectada por la potencia P.

LEER CON ATENCIÓN

La intensidad acústica de una onda progresiva plana es


proporcional al cuadrado de su presión dinámica. Por lo que,
tanto intensidad y presión dinámica, como potencia, son
maneras de medir la energía asociada a una onda acústica.

20Pa de presión dinámica (umbral del dolor), equivalen a una intensidad de 1


W/m2 y 20mPa (micropascales, umbral de audibilidad) equivalen a 10-12 W/m2.

De manera análoga a la presión dinámica, la intensidad se puede medir en dB


SIL (del Inglés, Sound Intensity Level, Nivel de Intensidad Sonora), de acuerdo
con la siguiente ecuación:

xdB = 10*Log10(I/Iref) ) (dB SIL)

Donde Iref=10-12 W/m2

En la siguiente tabla (Basso, 2006) se pueden ver varios valores de presión


dinámica e intensidad acústica en Pa y W/m2 respectivamente: relacionados
con su valor expresado en dB SPL y dB SIL, y con las situaciones típicas que
generan las ondas sonoras de tales niveles.

Técnicas de sonido digital Oscar Di Liscia, Mariano Cura, Lucas Samaruga y Damián Anache
55

Correspondencia entre valores de presión dinámica, intensidad, niveles en


dB y situaciones típicas que producirían ondas sonoras con esos niveles
Presión Intensidad Nivel (dB) Situación típica
dinámica (Pa) (W/m2)
20 Pa 1 W/m2 120 dB Umbral del dolor
2 Pa 1 W-2/m2 100 dB Martillo neumático
200 mPa 1 W-4/m2 80 dB Calle muy transitada
20 mPa 1 W-6/m2 60 dB Conversación normal
2 mPa 1 W-8/m2 40 dB Sala de estar
200 μPa 1 W-10/m2 20 dB Dormitorio tranquilo
20 μPa 1 W-12/m2 0 dB Umbral de audibilidad

1.

a) Usando las fórmulas que se han provisto en esta sección, con-


vierta diversos valores de presión sonora en Pa a dB SPL y vice-
versa.

b) Derive las fórmulas necesarias para convertir valores de intensi-


dad acústica en dB SIL a W/m2.

LECTURA OBLIGATORIA

Miyara, F. (2013), “Capítulo 3”, en: Ruido, Arte y Sociedad.


UNR Editora, Rosario.

2.3. Sistema auditivo periférico humano

Para poder explicar algunos de los procesos de percepción sonora humana,


es imprescindible conocer las características del sistema auditivo periférico
humano. Actualmente, sin embargo, se ha demostrado que la percepción so-
nora no depende solamente del sistema auditivo periférico, sino también de
funciones de alto nivel que realiza nuestro cerebro.

El sistema auditivo periférico humano se integra por dos conjuntos iguales de


órganos pequeños que se ubican a ambos lados de la cabeza. Se divide en tres
partes a los efectos de su estudio: oído externo, oído medio y oído interno. En
lo que sigue, se tratarán las características principales de cada una de esas
tres partes, como así también las subpartes que las integran y sus funciones
más básicas.

Técnicas de sonido digital Oscar Di Liscia, Mariano Cura, Lucas Samaruga y Damián Anache
56

PARA AMPLIAR

Sistema auditivo periférico humano


http://www.fairview.org/healthlibrary/Article/83594

2.3.1. Oído externo

El oído externo junto con la cabeza y el torso superior forman un sistema que,
básicamente, transmite al tímpano las ondas acústicas. Se compone del pa-
bellón auricular y el conducto auditivo.

El pabellón auricular es una estructura de cartílagos con circunvoluciones


de forma bastante compleja. Básicamente, su función es análoga a la de un
filtro direccional que ayuda a localizar las fuentes sonoras, especialmente en
Se ampliará este aspecto en la
el plano medio y frontal.
sección de audición espacial.

El canal auditivo es una cavidad con forma cilíndrica de aproximadamente


7*26 mm, y una superficie de 1 cm3. Conjuntamente con el pabellon au-
ricular atenúa las frecuencias bajas y las altas con un énfasis en 2800 Hz
aproximadamente. Veremos más adelante que esta característica condiciona
fuertemente nuestra percepción de la sonoridad.Atenúa las frecuencias ba-
jas y las altas con un énfasis en 2800 Hz aproximadamente. Veremos más
adelante que esta característica condiciona fuertemente nuestra percepción
de la sonoridad.

En el siguiente enlace puede obtenerse una ilustración del oído


externo http://www.asha.org/public/hearing/Outer-Ear/

2.3.2. Oído medio

El oído medio está ubicado en una cavidad del hueso temporal denominada
caja timpánica. Tiene por función principal poner en rango (“amplificar”) la
energía acústica que llega al tímpano y transmitirla al oído interno. Tiene tres
componentes básicos: tímpano, cadena de huesecillos y conducto auditivo.

• El tímpano es una membrana de 0.6 cm2 aproximadamente que se en-


cuentra entre el final del canal auditivo y el oído medio. Transmite las
ondas sonoras al oído medio.

• La cadena de huesecillos es un sistema de tres huesos conectados por


sus ligamentos y músculos de control. Se denominan Martillo, Yunque y

Técnicas de sonido digital Oscar Di Liscia, Mariano Cura, Lucas Samaruga y Damián Anache
57

Estribo. Funcionan como un control de ganancia variable y transmiten las


vibraciones amplificadas o no. Su acción de amplificación puede variar en
un rango de entre 20 y 30 dB SPL aproximadamente.

• El conducto auditivo (llamado también Trompa de Eustaquio) es un con-


ducto que conecta a la cavidad del oído medio con la cavidad nasofarín-
gea. Permite equilibrar la presión atmosférica entre las paredes externa e
interna del tímpano. La presión atmosférica externa es estática y se iguala
con la interna gracias al conducto auditivo, que deja entrar el aire. El con-
ducto auditivo se abre cuando bostezamos, masticamos o tragamos.

• Las ventanas oval y redonda son el vínculo entre el oído medio y el oído
interno.

2.

Investigue qué relación hay entre la función de equilibrio de


presiones que permite el conducto auditivo y la sensación de “oídos
tapados” que se produce cuando el oyente está en un avión que
cambia de altitud rápidamente. ¿Se le ocurre qué causa esta molestia
y por qué, por ejemplo, mascar chicle la elimina?

En el siguiente enlace puede obtenerse una ilustración del oído me-


dio http://www.asha.org/public/hearing/Middle-Ear/

2.3.3. Oído interno

El oído interno ocupa una cavidad del hueso temporal denominada laberinto
óseo. Tiene por función principal transformar las vibraciones mecánicas en
impulsos nerviosos y transmitirlos al cerebro. Se compone de tres partes:
vestíbulo, canales semicirculares y caracol.

• El vestíbulo es una cavidad dividida en dos partes (Utrículo y Sáculo) que


conecta el oído medio con el interno.

• Los canales semicirculares son tres conductos semicirculares en cuadra-


tura que no tienen una función específica en la percepción sonora, sino
que son responsables de nuestra sensación de equilibrio.

• El caracol o coclea está conectado al nervio auditivo (octavo par craneal)


que se divide en dos partes, responsables cada una de ellas de la trans-
misión de datos relacionados con la audición y el equilibrio.

Técnicas de sonido digital Oscar Di Liscia, Mariano Cura, Lucas Samaruga y Damián Anache
58

- La cóclea es un órgano que forma una espiral de dos vueltas y media


(aproximadamente 35 mm de largo) y tiene una base (membrana basi-
lar) en la que se apoya el órgano de Corti. El órgano de Corti contiene
las células ciliadas que transforman las vibraciones mecánicas del oído
medio en impulsos nerviosos. La cóclea es tanto un órgano transmisor
de señales eléctricas al cerebro, como receptor de señales provenien-
tes de este, dado que posee dos tipos de células dedicadas respecti-
vamente a cada una de esas funciones.

- El órgano de Corti se ubica por encima de la membrana basilar. La


membrana basilar es más angosta y rígida en su base que en su fin o
Apex (más ancho y elástico). Por ello, desde el Apex o punta (frecuen-
cias bajas), va cambiando la respuesta a frecuencia hacia la base (fre-
cuencias altas).

En el siguiente enlace puede obtenerse una ilustración del oído in-


terno. http://www.asha.org/public/hearing/Inner-Ear/

LECTURA RECOMENDADA

Basso, G. (2006), “Capítulo I”, en: Percepción Auditiva.


Colección Música y Ciencia. UNQ, Bernal, Argentina.

2.4. Percepción de la sonoridad

Según Basso (2006): “(…) la sonoridad es el rasgo de la sensación auditiva


por el que los sonidos se pueden ordenar en una escala que se extiende del
silencio a lo muy sonoro”. Como la altura, la sonoridad es una sensación y,
por lo tanto, su percepción se investiga a partir de estudios estadísticos del
resultado de la experimentación con sujetos.

Se ha comprobado, además, que si bien la sonoridad varía de manera pro-


porcional a la intensidad o presión de la onda sonora, lo hace de una manera
muy compleja en la que tienen gran influencia muchas otras características
de la señal acústica (como su espectro, frecuencia y duración). La discusión
que sigue intenta presentar un resumen de tales particularidades.

2.4.1. Umbrales absolutos de audibilidad

Son las mínimas presiones o intensidades sonoras audibles. Se consideran


dos tipos de umbrales, según la forma de medición:

Técnicas de sonido digital Oscar Di Liscia, Mariano Cura, Lucas Samaruga y Damián Anache
59

1- La MAP (Mínima Presión Audible) se mide por medio de auriculares.


2- La MAF (Mínimo Campo Audible) se mide por medio de altoparlantes.

Para la medición del MAP o MAF con propósitos clínicos, se toma habitual-
mente como estímulo una sinusoide a 1000 Hz, realizando distintas audicio-
nes a medida que se va disminuyendo su intensidad, hasta que el sujeto de
experimentación determine que ya no puede oír.
Inicialmente, se pensó que las MAP y MAF no variaban con la frecuencia del
estímulo usado, pero luego se comprobó que no es así, ambas varían de
acuerdo con la frecuencia de la señal sinusoidal que se utilice como estímulo.
Los experimentos dieron como resultado curvas como las que se ilustra en
la imagen siguiente, en las que se grafican las MAP y MAF en función de la
frecuencia del estímulo.

Puede apreciarse que las curvas se corresponden muy bien con la inversa de
la curva de la función de transferencia del oído medio.

En la práctica médica, se considera que los oyentes que, para oír el estímulo,
necesitan un nivel de hasta 20 dB por encima al de los niveles de la ilustra-
ción siguiente, tienen una audibilidad normal. La capacidad de audibilidad
disminuye con la edad, pero también en función de la exposición excesiva a
señales acústicas de alta intensidad.

Imagen en donde se ilustran las curvas mínimas intensidades


audibles de MAP y MAF en función de la frecuencia de la señal
sinusoidal empleada como estímulo. <http://www.eumus.edu.uy/
docentes/maggiolo/acuapu/img/umb01.jpg>

3.

Obtenga alguna imagen de la función de transferencia del oído


medio y compárela con la imagen anterior para comprobar en qué
medida son aproximadamente inversas.

2.4.2 Escalas relativas y absolutas de sonoridad

Lo desarrollado en el apartado anterior y su relación con la estructura y fisio-


logía de nuestro aparato auditivo (principalmente el oído externo), confirman
que, como ya se adelantó, la sensación de sonoridad depende fuertemente
del estímulo sonoro usado en su medición. Si se escucha una sinusoide de
1000 Hz de frecuencia a 40 dB y luego una sinusoide de 10000 Hz también
a 40 dB de intensidad, se comprobará que la sensación de sonoridad no
es igual en ambas. Concretamente, en este caso, la de 1000 Hz nos dará
una sensación de mayor sonoridad. Los investigadores en percepción sonora

Técnicas de sonido digital Oscar Di Liscia, Mariano Cura, Lucas Samaruga y Damián Anache
60

buscaron, entonces, la manera en que esta relación –sonoridad versus fre-


cuencia– podría describirse o medirse. Para la descripción de la percepción
de sonoridad se utilizaron dos estrategias: las medidas relativas (que dan
como resultado la escala de fones) y las medidas absolutas (que dan como
resultado la escala de sones).

Las medidas relativas se obtienen midiendo el nivel de sonoridad en relación


con una sinusoide de 1000 Hz. Se solicita a un oyente que determine si la
sonoridad de una señal, de frecuencia variable e intensidad N, es igual a la
de una señal sinusoidal de 1000 Hz a un determinado nivel de intensidad N.
Los resultados de estas encuestas a muchos oyentes son promediados luego
para obtener estas curvas, que se denominan también curvas isófonas y unen
los distintos puntos que poseen igual sonoridad tomando como referencia al
estímulo sinusoidal de 1000 Hz en diferentes valores de intensidad o presión
sonora a lo largo de las frecuencias audibles.

Ilustración de las curvas isófonas, según estudios de Fletcher y


Munson. <http://iie.fing.edu.uy/investigacion/grupos/gmm/
audio/seminario/seminariosviejos/2003/charlas/psicoacustica/sonori-
dad1.html>

LEER CON ATENCIÓN

Surge así una unidad de medida relativa de la sonoridad


denominada fon.

Se dice que una señal sonora tiene una sonoridad de N fones


cuando su sonoridad equivale a la de una señal sinusoidal a
1000 Hz a una intensidad de N dB.

Los contornos de igual sonoridad (que se mostraron en la figura anterior) resulta-


rán ligeramente diferentes según los investigadores que los diseñaron, pero man-
tienen sus características generales. Según Basso (2006), realizando un análisis
general de las curvas de igual sonoridad puede inferirse que:

1- La sensibilidad decrece a medida que nos alejamos de la zona


central del espectro hacia las altas y bajas frecuencias. Es necesario
aplicar más energía en la región grave que en la media para obtener
el mismo resultado auditivo.

2- Para sonoridades intermedias, entre 60 y 70 fones, es menor la


diferencia de sensibilidad auditiva en función de la frecuencia.

3- Las curvas de nivel, para altas sonoridades, son prácticamente

Técnicas de sonido digital Oscar Di Liscia, Mariano Cura, Lucas Samaruga y Damián Anache
61

planas: nuestro oído responde de manera similar en todo el rango


audible a consecuencia de la atenuación provista por los mecanismos
de protección auditiva.

4- Existe una zona de máxima sensibilidad entre los 2.500 y los


3.500 Hz. (Basso, 2006).

La escala de fones, derivada de las curvas de igual sonoridad anteriormente


presentadas, no nos permite responder, por ejemplo, a la pregunta sobre
cuánto más o menos sonoridad tiene una señal acústica comparada con otra
de distinta frecuencia. Dado que la sonoridad en fones solo compara señales
de igual sonoridad (es relativa), Stevens (1959) definió una nueva unidad, el
son, intentando medirla directamente, o sea, de manera absoluta. Las carac-
terísticas de esta unidad son las siguientes:

1. Es una unidad lineal: un sonido de 1 son posee el doble de sonoridad que


uno de 0.5 son, y uno de cuatro sones el cuádruple.
2. Se toma como referencia, otra vez, una señal sinusoidal de 1000 Hz y 40
dB (40 fones) para la sonoridad de 1 Son.

A través de sus investigaciones, Stevens llegó a la siguiente relación entre la


sonoridad S y la intensidad I:

S = k I0.3 [sones]

En donde k es una constante que depende de otros factores que tienen que
ver con las condiciones experimentales. Además de que su validez puede
demostrarse solo en sonidos sinusoidales de más de 40 dB de intensidad,
se ha comprobado que esta relación varía considerablemente según los indi-
viduos. Según esta relación, a un aumento de 10 dB en el estímulo le corres-
ponde aproximadamente el doble de la sonoridad en sones.

2.4.3. Otros aspectos destacables de la percepción de la sonoridad

La Diferencia Apenas Perceptible de intensidad (DAP, DL o JND, esta última


por la expresión inglesa Just Noticeable Difference), se llama también limen de
intensidad. Consiste en la diferencia de nivel a partir de la cual los oyentes
pueden diferenciar la sonoridad de dos señales. Por supuesto, tal diferencia
se ha investigado también a partir del proceso estadístico de respuestas de
muchos oyentes. Según Basso (2006) las formas más comunes de expresar
la DAP son:

DL = DI/I
(Conocida como fracción de Weber)

DL = 10 log (DI/I)
La misma, expresada en una escala de dB.

Técnicas de sonido digital Oscar Di Liscia, Mariano Cura, Lucas Samaruga y Damián Anache
62

En ambas, I es la intensidad de la señal de base (el pedestal) y DI la intensi-


dad del menor incremento detectable por el oyente.

Se ha determinado mediante experimentación que, en el ruido de banda an-


cha, y dentro del rango de 20 a 100 dB, DL varía aproximadamente entre 0.5
y 1 dB.

PARA REFLEXIONAR

Nótese que, nuevamente, las medidas estadísticas que


se presentaron respecto del Limen o DAP de intensidad
dependen del estímulo utilizado, en este caso, ruido de banda
ancha.

Otro aspecto importante a tener en cuenta involucra la influencia de la dura-


ción del estímulo en la percepción de la sonoridad. Hasta aproximadamente
los 0.5 segundos de duración del estímulo, según Roederer (1997), la sono-
ridad crece de manera directamente proporcional a esta duración, más allá
de los 0.5 segundos, la duración no afecta la percepción de su sonoridad,
salvo que tenga varios minutos de continuidad. En este caso, se produce un
proceso de atenuación de la sonoridad denominado habitualmente “adapta-
ción auditiva”.

2.4.4. Medidores de nivel sonoro

Para aplicaciones prácticas, médicas y legales, es imprescindible contar con


medidores de nivel de presión sonora. Sin embargo, dado que el grado de mo-
lestia o contaminación que las ondas acústicas producen es dependiente de
la sensación de sonoridad (además de otros factores socioculturales), y que
esta es muy dependiente de la frecuencia, la aplicación de tales mediciones
se torna problemática. Los sonidos de la vida cotidiana no son sinusoidales,
sino comúnmente de banda ancha y variada y por ello, generalmente los me-
didores de presión sonora tienen un banco de filtros en la etapa de entrada
que permite medir la señal acústica tal como llega al micrófono –respuesta
plana o lineal– o compensada según cierto patrón espectral. Los filtros de
compensación hacen que el medidor “escuche” de acuerdo con los siguien-
tes patrones:

1. Un medidor de nivel sonoro de compensación “A”, ecualiza la señal de


entrada de acuerdo con el contorno de sonoridad de 40 fones. Se usa
generalmente para sonidos de bajo nivel.
2. La compensación “B” ecualiza la señal de entrada de acuerdo con el con-
torno de 70 fones. Se usa generalmente para sonidos de nivel medio.
3. La compensación “C” deja a la señal de entrada prácticamente inalterada,
dado que ecualiza la señal de entrada de acuerdo con el contorno de 100
fones. Se usa generalmente para sonidos de nivel alto. Nótese que las

Técnicas de sonido digital Oscar Di Liscia, Mariano Cura, Lucas Samaruga y Damián Anache
63

curvas de igual sonoridad muestran que, en altos niveles, la variación de


la sonoridad en función de la frecuencia no es muy grande.

Casi toda la legislación de acústica ambiental se especifica en decibeles con


la compensación de tipo A. Debido a los factores intervinientes en la percep-
ción de la sonoridad, tales como la frecuencia, duración y naturaleza de las
señales sonoras (continuidad, uniformidad, dispersión y naturaleza espectral,
etc.), los medidores de presión sonora no son del todo eficaces para determi-
nar la molestia o daño acústico. Actualmente, existen también medidores de
sonoridad directamente en sones.

LECTURA RECOMENDADA

Una excelente presentación sobre el ruido y sus efectos


negativos, que ilustra la percepción del sonido y sus relaciones
con las molestias y daños que produce, se encuentra en los
capítulos V y VI del libro Ruido, Arte y Sociedad (Miyara, 2013).

2.5. Percepción de altura

De manera análoga a la sonoridad, la altura es el atributo perceptual que nos


hace diferenciar dos señales de igual sonoridad, pero distinta frecuencia. Si
bien se relaciona con la frecuencia, interactúa también con la sonoridad y el
timbre de una manera compleja.

2.5.1. Limen de frecuencia

El limen es la DAP (Diferencia Apenas Perceptible) en frecuencia. Se obtiene


con juicios de oyentes que son expuestos a estímulos sucesivos de igual fre-
cuencia, uno de ellos queda invariante en frecuencia, mientras que el otro se
va modificando gradualmente hasta que el oyente determina que la altura de
ambos estímulos es distinta.

Se observó mediante experimentación que la DAP varía de acuerdo con la


frecuencia del estímulo invariante. De manera general, para sonidos sinusoi-
dales, la DAP en frecuencia se mantiene cercana a 1 Hz si se usan estímulos
por debajo de 1000 Hz y crece gradualmente a partir de allí. Por ejemplo, para
diferenciar la altura de dos señales cercanas a 4000 Hz, necesitamos que
exista, al menos, una diferencia aproximada de 10 Hz entre ellas. Por encima
de 5000 Hz, la DAP aumenta más rápidamente, indicando que necesitamos
montos de cambio de frecuencia (DF) aun mayores a 10 Hz para diferenciar
la altura de los dos estímulos. Más arriba de los 10000 Hz, nuestra habilidad
para discriminar la altura entre señales acústicas de diferentes frecuencias
es prácticamente nula.

Técnicas de sonido digital Oscar Di Liscia, Mariano Cura, Lucas Samaruga y Damián Anache
64

PARA REFLEXIONAR

Usando como estímulo señales con varios parciales ordenados


armónicamente (es decir cuyos parciales tienen frecuencias
en relaciones de múltiplos enteros del más bajo), nuestra
habilidad de discriminación en altura es muy superior,
pudiendo detectar diferencias de hasta 0.1 Hz. Esto explica,
por ejemplo, que los instrumentos musicales (para música
basada en sus comienzos, principalmente en la discriminación
de frecuencia), se hayan diseñado para producir sonidos con
espectros de tales características.

2.5.2. Bandas críticas

A los efectos de analizar el contenido espectral de una señal sonora, el sis-


tema auditivo la divide en regiones llamadas bandas críticas. Esto produce
varias consecuencias importantes tanto en la discriminación de estratos so-
noros, como en la percepción de la sonoridad de la señal involucrada.
Una banda crítica funciona como una especie de filtro pasa-banda de ancho
determinado, que utiliza nuestro sistema auditivo para analizar una región del
espectro de la señal sonora.

Existen dos conceptos fundamentales relacionados con las bandas críticas:

• Frecuencia Central (FC): la frecuencia que está en el centro de la BC de aná-


lisis.
• ERB: la extensión de la BC a ambos lados de la FC. Su nombre viene de
Ancho de Banda Rectangular Equivalente (del inglés Equivalent Rectangu-
lar Band).

Ambas, FC y ERB, se miden en Hz y no son fijas, sino que se desplazan y


varían en ancho de acuerdo con su frecuencia central.

El cálculo para la ERB, según Glasberg y Moore (1990), es el siguiente:

ERB = 24.7 (0.00437 f + 1)

donde f es la FC de la banda en Hz.

La aplicación de la fórmula anterior a diversas frecuencias produce:

FC=100.00 Hz ERB = 35.49 Hz


FC =200.00 Hz ERB = 46.29 Hz
FC =500.00 Hz ERB = 78.67 Hz
FC =1000.00 Hz ERB = 132.64 Hz
FC =2000.00 Hz ERB = 240.58 Hz

Técnicas de sonido digital Oscar Di Liscia, Mariano Cura, Lucas Samaruga y Damián Anache
65

FC =5000.00 Hz ERB = 564.39 Hz


FC =10000.00 Hz ERB = 1104.09 Hz

Obsérvese que, como era de esperarse, el ERB crece paulatinamente


en función de la FC. Tal crecimiento no es proporcional, por
ejemplo, en el caso de FC=100 Hz el ERB es igual aproximadamente
a un 30 % de FC y, en el caso de FC=10000 Hz, el ERB es igual
aproximadamente a un 10 % de FC.

Un importante fenómeno de percepción sonora vinculado con las bandas


críticas es el llamado enmascaramiento. Cuando dos señales (una llamada
señal enmascarada y la otra señal máscara, esta última de igual o mayor
intensidad que la primera) se presentan simultáneamente, y las frecuencias
de ambas caen dentro de la misma banda crítica, la señal Máscara dificulta
la audibilidad (“enmascara”) de la señal enmascarada.

En la actualidad se sabe que el enmascaramiento ocurre también fuera de la


banda crítica, pero en una proporción menor. También, que no solo se produ-
ce entre los distintos componentes de una señal sonora, sino entre señales
sucesivas. Tanto el enmascaramiento simultáneo, como sucesivo, son una
función de la relación de frecuencia entre la señal máscara y la enmascarada
y sus intensidades relativas.
Otro aspecto importante que está relacionado con las bandas críticas es su
relación con la percepción de la sonoridad de una señal acústica de espectro
complejo y las posibilidades de modificación de esta a través del agregado de
más parciales. En general, puede decirse que para una cantidad de energía
dada, la sonoridad es mayor si la energía se reparte sobre distintas bandas
críticas, en vez de que si se concentra en una sola de ellas.

PARA AMPLIAR

Un tratamiento muy detallado de tal aspecto, que permite


calcular la tasa de enmascaramiento de un parcial respecto de
otro (SMR o Signal to Masking Ratio) se encuentra en Zwicker
y Fastl (1990).

TEXTO APARTE

Las técnicas de compresión de señales digitales de audio


denominadas lossy (a pérdida) tales como MPEG Layer 3
(denominada comúnmente MP3) son aplicaciones destacables
del fenómeno del enmascaramiento. Básicamente, funcionan
con la supresión o representación de menor calidad de aquellos
parciales que se encuentren severamente enmascarados, por
considerarlos información “redundante”. Naturalmente, esto
produce un ahorro de recursos de almacenamiento digital al
costo de una disminución de la calidad.

Técnicas de sonido digital Oscar Di Liscia, Mariano Cura, Lucas Samaruga y Damián Anache
66

Lo antedicho tiene muchas e importantes consecuencias en la


práctica musical como en la ingeniería de audio. Por ejemplo, que
las señales sonoras de banda ancha tienden a percibirse como
de mayor sonoridad. Los buenos intérpretes saben sacar partido
de esto último cuando, al no poder aumentar más la intensidad,
aumentan la sensación de sonoridad a través de producir sonidos
más “brillantes” (por ejemplo, de banda más ancha). Otro ejemplo
lo constituye la “duplicación en octavas” de una nota, que es mucho
más eficaz que la duplicación al unísono por las razones que se
explicaron (la duplicación en octavas, reparte la energía en diferentes
bandas, mientras que la del unísono no lo hace).

2.5.3. Altura tonal y temperamento igual

La altura tonal ha sido definida como “aquel atributo de la sensación auditiva


en términos del cual los sonidos pueden ser ordenados en una escala musi-
cal” (American Standards Association, 1960).
Para poder percibir la altura tonal, es necesario que una señal sonora tenga
un espectro tónico, en el sentido en que se pueda identificar su altura funda-
En la siguiente unidad se tratarán mental.
con más detalle las característi- De manera análoga a la sonoridad, las variaciones de altura tonal se perci-
cas de tales sonidos tónicos. ben como proporcionales a los cambios de frecuencia. Existen, sin embargo,
algunas particularidades.

En la notación (y en mucha de la teoría) de la música occidental se asume


la llamada “identidad de octava”. Por esta asunción, un sonido cuya frecuen-
cia es del doble o la mitad que la de otro es considerado “el mismo sonido,
transportado una octava hacia arriba o hacia abajo”, respectivamente. Este
es el origen de las notas musicales y el denominado “temperamento igual”. El
temperamento igual consiste en la división de la octava en 12 partes conside-
radas perceptivamente como iguales. Se toma como referencia el llamado LA
Central, o La 440, porque corresponde a un LA de 440 Hz. Los doce grados
cromáticos o doce notas, en notación latina, son:

DO DO# RE RE# MI FA FA# SOL SOL# LA LA# SI


El # se lee como “sostenido”.
A la diferencia de altura entre dos grados cromáticos sucesivos se la denomi-
na semitono. Por ejemplo, entre DO y DO# hay un semitono y entre DO y SOL
hay 7 semitonos.
En virtud de la equivalencia de octava, este sistema es módulo-12, quiere
decir que es cíclico, con un ciclo igual a 12. Para obtener la frecuencia de
cualquiera de las notas, se puede usar la siguiente ecuación:

f= 440 * 2S/12

En donde f es la frecuencia que se desea obtener y S es la cantidad de semi-

Técnicas de sonido digital Oscar Di Liscia, Mariano Cura, Lucas Samaruga y Damián Anache
67

tonos (grados cromáticos) hacia arriba o hacia abajo del LA central.

La frecuencia de un DO debajo del LA central se obtiene:


f= 440 * 2-9/12 = 440* 2-0.75 =440*0.59946=261.6 Hz

PARA AMPLIAR

También existe una unidad que divide a cada Semitono en 100


partes de acuerdo con la misma escala logarítmica. Tal unidad
se denomina cent. Subir o bajar la frecuencia de un sonido por
1200 cents equivale a subir o bajar su frecuencia una octava.

Para hacer referencia a una nota en particular dentro del sistema temperado,
se usa su nombre y un índice acústico que indica la octava a la que perte-
nece. Existen varios índices acústicos, pero uno de los más corrientemente
utilizados es el que establece el índice de 4 para el “Do Central” (llamado
índice registral internacional). De acuerdo con este índice, el “La 440” (de
440 Hz) se denominaría La4. Pero en la música por computadoras, la Norma
MIDI (Musical Instruments Digital Interface), utiliza el índice 5 para indicar el
Do central (es decir, usa el llamado índice registral de Riemann).

5.

Partiendo de un DO5 (de acuerdo con el índice registral internacional),


calcule las frecuencias del mismo y de los 11 grados cromáticos que
le siguen hasta el DO6.

2.6. Percepción espacial de sonido

La percepción espacial del sonido involucra tres aspectos fundamentales:


• Percepción de la ubicación de la fuente sonora (ángulo y distancia).
• Percepción de la direccionalidad de la fuente sonora.
• Percepción del ambiente acústico.

Se tratarán solo los rasgos fundamentales del primer aspecto.

2.6.1. Percepción de la localización de la fuente sonora

La percepción de la localización de las fuentes sonoras es una capacidad


de nuestro sistema auditivo que utilizamos de manera frecuente en nuestra
vida cotidiana. Si cerramos nuestros ojos y nos sentamos, por ejemplo, en
un banco de una plaza, comenzaremos a advertir cómo, a través de nuestra

Técnicas de sonido digital Oscar Di Liscia, Mariano Cura, Lucas Samaruga y Damián Anache
68

capacidad de escuchar podemos, no solo identificar fuentes sonoras, sino


también saber en qué lugar están ubicadas o de qué forma se mueven. Y,
lo que es más importante, hasta podemos llegar a detectar la ubicación de
fuentes sonoras que están fuera de nuestro campo visual.

El estudio de la localización de fuentes sonoras se divide en localización


angular (o dirección) y percepción de distancia. Nuestra percepción de la
localización de las fuentes sonoras depende de rasgos de la señal acústica
que se denominan indicios de localización y también de cómo decodificamos
dichos indicios. El hecho de que el sistema auditivo humano se integre por
dos conjuntos iguales de órganos ubicados simétricamente a ambos lados de
nuestra cabeza es un factor que posibilita la comparación de las dos señales
que entran a cada uno de ellos, proveyendo así indicios muy importantes que
se denominan binaurales o interaurales. Sin embargo, estos indicios no son
los únicos que usa nuestro sistema auditivo en la localización de sonido.

Localización angular

ITD (del inglés, Interaural Time Difference, diferencia interaural de tiempo):


la diferencia en el tiempo de arribo de la señal a los oídos, orienta en la
ubicación de la fuente sonora en el ángulo horizontal. Para sonidos estricta-
mente sinusoidales, y a partir de aproximadamente 1500 Hz, su prominencia
disminuye. Esto se debe a la confusión en la comparación de fases a altas
frecuencias. Este límite varía de acuerdo con las características espectrales
y el tipo de comienzo de las señales involucradas.

IID (del inglés, Interaural Intensity Difference, diferencia interaural de inten-


sidad): la diferencia en la intensidad de la señal en los oídos orienta en la
ubicación de la fuente sonora en el ángulo horizontal. Disminuye a partir de
1500 Hz hacia abajo, y por debajo de aproximadamente 500 Hz práctica-
mente no opera. Esto se debe a la difracción de las frecuencias más bajas
alrededor de la cabeza.

PARA AMPLIAR

En el ángulo horizontal se obtiene la mayor discriminación


cuando el oyente enfrenta a la fuente sonora (aproximadamente
1°). Se pierde precisión a medida que este ángulo se dirige
hacia ambos lados de la cabeza (esto es de 90º a 0º derecha y
de 90º a 180º izquierda).

Indicios espectrales binaurales: cuando se comparan los espectros de la se-


ñal entrante en cada uno de los oídos, se descubren significativas diferen-
cias entre estos. Estas diferencias se deben al efecto complejo de “filtrado”
debido a la acción del torso superior, cuello, cabeza y, particularmente en
este caso, los pabellones auditivos de los oyentes en función del ángulo
de incidencia del frente de onda. Las diferencias espectrales binaurales son

Técnicas de sonido digital Oscar Di Liscia, Mariano Cura, Lucas Samaruga y Damián Anache
69

usadas por el sistema auditivo para la determinación de la posición de la


fuente acústica en tres dimensiones (particularmente, en el plano medio y en
la discriminación frente-atrás, que es en donde los indicios de ITD e IID son
ineficaces).

Percepción de la distancia de la fuente sonora

La percepción de la distancia de la fuente sonora involucra la consideración


de cuatro indicios principales: intensidad del sonido, proporción entre la se-
ñal reverberada y la señal directa, absorción de altas frecuencias y efecto
de proximidad.

• Intensidad del sonido. La intensidad de una señal acústica en un punto


determinado de audición disminuye o aumenta de manera inversamente
proporcional al cuadrado de la distancia entre la localización de la fuente
y ese punto. Esto implica que, por ejemplo, una señal acústica que llega
con una intensidad de 120 dB a un punto de audición situado a un metro
de esta, llegará a ese punto con una intensidad de 108 dB (12 dB me-
nos), si la fuente se desplaza a 2 metros del punto de audición, y con una
intensidad de 96 dB (24 dB menos), si se emite a 4 metros del punto de
audición.

• Proporción entre la señal reverberada y la señal directa. Cuando una


fuente acústica se encuentra en un recinto cerrado, además de su señal
directa se producen otras por la reflexión de esta en los elementos físicos
del recinto. A estas últimas se las denomina reverberación. Como vimos,
la señal directa llega al punto de audición con una intensidad que es pro-
porcional a la distancia que lo separa de la fuente. No ocurre así con la
señal reverberada, que llega al punto de audición con una energía más o
menos constante aunque la distancia entre la fuente y este cambie. Por lo
tanto, lo que cambia cuando una fuente acústica que emite una señal de
la misma energía se aleja o acerca al punto de audición es la proporción
entre la señal directa y la señal reverberada. Este es el principal indicio
responsable para la evaluación de la distancia en ambientes con reverbe-
ración.

• Absorción de altas frecuencias. Debido a la absorción de los gases y la


humedad del aire, la energía acústica de los componentes de alta fre-
cuencia es atenuada de manera directamente proporcional a la distancia.
Este efecto es similar a un filtro “pasa-bajos”, y es considerado relevante
únicamente para distancias superiores a 30 metros.

• Efecto de proximidad. Una atenuación similar a la explicada en el punto


anterior ocurre cuando la fuente acústica se aproxima mucho a un oído. Se
oye un aumento relativo de las bajas frecuencias que se suele denominar
“efecto de proximidad”.

Técnicas de sonido digital Oscar Di Liscia, Mariano Cura, Lucas Samaruga y Damián Anache
70

PARA AMPLIAR

Una explicación de las causas de este fenómeno se encuentra en


Basso y Di Liscia (2009), Música y Espacio, Ciencia, Tecnología y
Estética. Editorial de la Universidad Nacional de Quilmes, Bernal.

LECTURA OBLIGATORIA

Basso, G. y Di Liscia, O (2009). “Audición Espacial de sonido:


conceptos básicos y estado actual de la cuestión”, en Música
y Espacio, Ciencia, Tecnología y Estética. Editorial de la
Universidad Nacional de Quilmes, Bernal, pp. 23-40.

Referencias bibliográficas

Basso, G. y Di Liscia, O. P. (2009), “Audición espacial: conceptos básicos y


estado actual de la cuestión”, en: Música y espacio: Ciencia, tecnología y estética,
Colección Música y Ciencia. Editorial UNQ, Bernal.

Basso, G. (2006), Percepción Auditiva, Colección Música y Ciencia. Editorial


UNQ, Bernal.

Glassberg, B. y Moore, B. (1990), “Derivation of auditory filters shape from


notched noise data”. Hearing Research (47). Estados Unidos.

Miyara, F. (2013), Ruido, Arte y Sociedad. UNR Editora, Rosario.

Moore, F. (1990), Elements of Computer Music. Prentice-Hall, New Jersey.

Stevens, S. (1959), “On the validity of loudness scale”. JASA (31). Estados
Unidos.

Roederer, J. (1997), Acústica y Psicoacústica de la Música. Ricordi, Buenos Aires.

Zwicker, E. y Fastl, H., (1990), Psychoacoustics Facts and Models. Springler,


Berlin.

Técnicas de sonido digital Oscar Di Liscia, Mariano Cura, Lucas Samaruga y Damián Anache
113

Codificación digital de sonido

Objetivos

• Introducir al estudiante en los principales conceptos del audio digital.


• Que el estudiante comprenda los procesos de digitalización de sonido.
• Que el estudiante comprenda las principales características, codificación y
almacenamiento de la señal digital de sonido.

5.1. Introducción

En esta unidad se estudiarán cuáles son los procesos esenciales para repre-
sentar y almacenar una señal sonora empleando medios digitales. Al pasar
de un medio a otro, siempre hay que tener en cuenta que se está trabajando
con distintas representaciones del fenómeno acústico y que inevitablemente
estas representaciones afectan la manera en que se lo comprende y mani-
pula. Entender los principios de la codificación digital de sonido es entender
la materia con la que se trabaja para poder efectuar mejor una determinada
labor.

5.2. La cadena electroacústica y su inclusión en la


cadena acústica

Como se estudió en unidades anteriores, una señal acústica es un fenómeno


físico que consiste en la propagación de variaciones de presión en un me-
dio determinado, generalmente el aire, que son percibidas por nuestro siste-
ma auditivo como sonido. Para poder representar y trabajar este fenómeno
acústico con medios electrónicos y digitales es necesario transformarlo de
diversas maneras. Primero, una señal acústica se puede medir y transformar
en energía eléctrica mediante micrófonos. Un micrófono es un transductor
que transforma la energía acústica en energía eléctrica la cual se propaga
como variaciones de voltaje a través de cables y circuitos. Una vez que las
variaciones de presión sonora fueron transformadas en variaciones de voltaje
es posible aplicarles el proceso de digitalización, el cual consiste en medir y
transformar nuevamente la señal eléctrica en una señal digital. Este proceso
es también reversible puesto que si tenemos una señal digital la podemos

Técnicas de sonido digital Oscar Di Liscia, Mariano Cura, Lucas Samaruga y Damián Anache
114

volver a transformar en corriente eléctrica para luego convertirla nuevamente


en energía acústica.

En el extremo izquierdo se representa una fuente que genera una señal acústica.
Esta es captada por el micrófono y convertida en variaciones de voltaje que luego
son transformadas por el ADC en una señal digital. La señal digital generada
puede ser procesada o simplemente almacenada para luego ser reconvertida en
voltaje mediante el ADC. Luego de esto, la señal analógica es transformada en
energía acústica mediante un parlante.

5.3. Conversión analógica-digital (ADC)


Para transformar una señal eléctrica en una señal digital se emplea un con-
versor analógico-digital (ADC por las siglas en inglés de Analog to Digital Con-
verter). De manera simplificada, la principal función de este conversor es la
de discretizar una señal continua/analógica mediante el muestreo. El mues-
treo consiste en tomar muestras, a períodos de tiempo constantes, de las
variaciones de voltaje que llegan al conversor y asignarle a cada una un valor
de amplitud proporcional al voltaje muestreado a cada instante.

LEER CON ATENCIÓN

El muestreo de señales de audio se suele denominar también


sampling o sampleo por su denominación en inglés. No debe
confundirse el sampleo de una señal son los “samples” de
un banco de sonido. En la práctica, estos términos pueden
referirse tanto al proceso de muestreo como a sonidos
grabados y agrupados en bancos para luego ser reproducidos,
pero en este último caso el término hace referencia a un sonido
completo grabado y almacenado, y no al proceso de generar

Una muestra sería (como) la fotografía de un instante de la amplitud


que tiene un determinado voltaje. A esa amplitud muestreada
temporalmente se le asigna un valor discreto, en números binarios,
mediante el proceso de cuantización.

Técnicas de sonido digital Oscar Di Liscia, Mariano Cura, Lucas Samaruga y Damián Anache
115

En la figura se muestran los procesos básicos que se realizan al muestrear una


señal. Primero se le aplica un filtro pasa bajos a la señal eléctrica para “simplificar”
la señal analógica en los momentos que no va a ser “fotografiada”. Es decir,
se eliminan los componentes de frecuencias que están por sobre la frecuencia
máxima representable por el sistema discreto. La frecuencia con la que se toman
las muestras de amplitud se denomina frecuencia de muestreo y, como se verá más
adelante, determina los límites de la información que se puede representar de
forma discreta.

Luego de convertir una señal analógica en digital es posible almacenarla y/o


procesarla de diversas maneras empleando programas informáticos. Una de
las ventajas que tienen los soportes de representación y almacenamiento
binarios es que la señal, una vez convertida y almacenada, no se degrada
con el paso del tiempo. La otra gran ventaja es que se pueden emplear los
recursos computacionales para trabajar sobre la señal de manera rápida y
eficiente.

5.4. Conversión digital-analógica (DAC)

La conversión de una señal digital en una señal analógica se realiza median-


te el empleo de un conversor (digital-analógico DAC por las siglas en inglés
de Digital to Analog Converter) que convierte una señal discreta, representada
como una sucesión de tiempo constante de valores de amplitud, en una señal
eléctrica continua.

Como se muestra en la figura, la señal representada digitalmente es convertida a


valores equivalentes de voltaje. Sin embargo, el voltaje generado, aunque ya es una
señal continua, cambia abruptamente a frecuencia de muestreo. Estos cambios
abruptos hacen que se alteren las cualidades tímbricas de la señal representada,
es por eso que se emplea un filtro analógico pasa bajos al voltaje de salida para
“reconstruir” los instantes intermedios perdidos en el proceso de discretización.
La frecuencia de corte del filtro de salida está en la frecuencia de Teorema de
Nyquist para eliminar solo los artefactos de la señal eléctrica generada que no
formaron parte del proceso de muestreo.

Técnicas de sonido digital Oscar Di Liscia, Mariano Cura, Lucas Samaruga y Damián Anache
116

5.5. Características y parámetros de la señal digital

Una señal analógica es continua, es decir que contiene infinitos valores.


Cuando se muestrea una señal continua se la está convirtiendo en una señal
discreta la cual contiene una cantidad finita de valores posibles. Si bien am-
bos tipos de señales comparten las mismas cualidades, estas no se compor-
tan ni física ni matemáticamente de la misma manera. Es por eso que para
su estudio se emplean las matemáticas discretas.

Para digitalizar una señal continua es necesario especificar ciertos parámetros


que son empleados por el ADC para representar digitalmente una señal. Los
dos parámetros principales son la frecuencia de muestreo y la resolución en
bits. La frecuencia de muestreo define hasta qué frecuencia (espectralmente
hablando) es posible representar, mientras que la resolución en bits define el
rango dinámico y la calidad de la señal muestreada. Estas variables pueden
generar distintos tipos de errores que se subsanan de diversas maneras como
se verá a continuación.

5.6. Frecuencia de muestreo e intervalo de muestreo

La frecuencia de muestreo es la cantidad de muestras de amplitud que se toman


por segundo y se denomina simbólicamente con las letras mayúsculas SR (o
simplemente R). Su unidad de medida es el Hertz (Hz) en cantidad de muestras
sobre segundo (M/s). En audio digital se emplean distintas frecuencias de mues-
treo según la resolución temporal que se quiera emplear para representar una
señal acústica. Mientras mayor sea la frecuencia de muestreo, mayor será la re-
solución de la señal representada, pero también se incrementará la cantidad de
datos necesarios para su almacenamiento y el ancho de banda necesario para
su transmisión.

PARA AMPLIAR

Las frecuencias de muestreo más comunes son: 8000 Hz,


11025 Hz 16000 Hz, 22050 Hz, 32000 Hz, 44100 Hz, 48000
Hz, 96000 Hz y 196000 Hz. Las frecuencias más bajas se
suelen emplear para la transmisión de datos de voz y las más
altas para la grabación de sonido profesional. Por ejemplo,
la frecuencia de muestreo estándar empleada por los CD de
audio es de 44100 Hz.

El intervalo de muestreo es el recíproco de la frecuencia de muestreo, es de-


cir 1/SR, lo que equivale al período, expresado en segundos, al que se toman
las muestras. Por ejemplo, si tenemos una frecuencia de muestreo de 8000
Hz, el período de muestreo será de 1/8000 = 0.000125 segundos. La fórmu-
la matemática empleada para la conversión es P = 1/SR de la cual podemos
deducir que SR = 1/P si quisiéramos calcular la frecuencia de muestreo de

Técnicas de sonido digital Oscar Di Liscia, Mariano Cura, Lucas Samaruga y Damián Anache
117

un período de tiempo P. Al intervalo de muestreo se lo suele llamar período


de muestreo y se lo denomina con la letra P mayúscula.
Al trabajar con audio digital el período se puede medir en cantidad de mues-
tras en relación con la frecuencia de muestreo, usando la regla de tres sim-
ple. Como la duración de una muestra es de 1/SR, si se quiere saber cuánto
duran una cantidad M de muestras se multiplica el período de muestreo por
la cantidad de muestras, lo que resulta en 1/SR * M = M/SR = D, siendo D
la duración de la cantidad de muestras.

5.7. Teorema de Nyquist

Mediante una señal temporalmente discreta no es posible representar infinitos


valores de frecuencias altas porque no es posible tomar muestras a períodos
infinitamente pequeños. Por lo tanto, la frecuencia más alta que se puede
representar depende de la frecuencia de muestreo que se emplee para discre-
tizar la señal.

El teorema de Nyquist define formalmente cuál es la frecuencia máxima que


se puede representar digitalmente a determinada frecuencia de muestreo, a
esta frecuencia máxima se la denomina frecuencia de Nyquist.
Harry Nyquist fue el primero en
La frecuencia de Nyquist (N) equivale a N = SR/2 y define que para una de-
conjeturar este hecho en 1928
terminada SR, la máxima frecuencia que se puede representar es la mitad de
que luego fuera demostrado for-
SR. Por ejemplo, a una SR de 44100 Hz, la máxima frecuencia que se puede
malmente por Claude E. Shannon
representar es 44100/2 = 22050 Hz. Si se quisieran muestrear o generar
en 1949.
frecuencias mayores a la frecuencia de Nyquist se genera un fenómeno de-
nominado aliasing.

El teorema de Nyquist sostiene que un movimiento oscilatorio se puede re-


presentar con un mínimo de dos muestras, una para el semiciclo positivo y
otra para el negativo.

En los gráficos A, B y C de la figura se muestra solo un ciclo de un movimiento


sinusoidal a frecuencia de Nyquist. Dos muestras discretas de un ciclo en A,
convertidas en una función continua en B que luego de pasar por el filtro pasa
bajos, dan como resultado la forma de onda en C.

Técnicas de sonido digital Oscar Di Liscia, Mariano Cura, Lucas Samaruga y Damián Anache
118

Digitalmente podría parecer que la forma de onda que se está representando


es una onda cuadrada, sin embargo al pasar por el filtro pasa bajos luego de
la conversión digital-analógica, todos los componentes que estén por sobre
la frecuencia de Nyquist se eliminan dando como resultado una sinusoide.

5.8. Aliasing

El aliasing se produce cuando existen componentes de frecuencias “falsas”


que no forman parte de la señal original y que se crearon debido al error de
representar frecuencias mayores a la frecuencia de Nyquist.

En relación con el muestreo, una señal continua puede ser: sobremuestrea-


da, cuando la cantidad de muestras es más que suficiente para representar
una determinada frecuencia; críticamente-muestreada, cuando la cantidad de
muestras es la mínima posible para representar el período de una frecuencia;
y submuestreada, cuando la cantidad de muestras tomadas es insuficiente
para representar correctamente una frecuencia.

En la figura se muestran los tres casos posibles. Las líneas verticales son el
momento en que se toma cada muestra en relación con la señal de entrada.
En el gráfico superior se muestra una sinusoide sobremuestreada, en el gráfico
intermedio una señal críticamente-muestreada y en el gráfico inferior una señal
submuestreada (color negro) y el componente “alias” que se genera al tomar
muestras de diferentes ciclos.

Una señal sobremuestreada es el caso ideal para representar un movimien-


to oscilatorio simple, puesto que se dispone con seguridad de la cantidad
de muestras necesarias por ciclo para representar correctamente la señal.

Técnicas de sonido digital Oscar Di Liscia, Mariano Cura, Lucas Samaruga y Damián Anache
119

Cualquier componente en frecuencia que esté por debajo de la frecuencia de


Nyquist será sobremuestreado y, por lo tanto, podrá ser representado de una
manera más fiel con respecto a la señal analógica.
Cuando una señal está críticamente muestreada, por ejemplo una señal a
frecuencia de Nyquist, se pueden producir errores en la representación de la
amplitud o la fase resultante de la señal según sea la fase de la señal original
en relación con la toma de las muestras.

En la figura se muestra en negro una forma de onda analógica que al ser


críticamente muestreada cambia de amplitud y fase. La onda resultante se
muestra en rojo.

Cuando una señal está submuestreada es cuando se produce el aliasing.


Puesto que no fueron suficientes las muestras tomadas para representar un
movimiento oscilatorio determinado, el muestreo comienza a tomar muestras
de distintos períodos de la señal lo que hace que se genere un movimiento
oscilatorio distinto al original, de frecuencia más baja. La frecuencia de un
componente alias fr se puede calcular a partir de la frecuencia original del
componente f y la frecuencia de muestreo R con base en la siguiente fórmu-
la: fr = f - (int (2 f / R)) R (int() significa tomar la parte entera de la expresión
entre paréntesis).

Los efectos del aliasing según Moore (1990) pueden clasificarse en tres ti-
pos:

1. Distorsión de la amplitud real de los componentes: los componentes fal-


sos (alias) pueden coincidir con los reales, modificando su amplitud y, por
lo tanto la forma de onda total.
2. Batidos y distorsión no–lineal: los componentes falsos pueden ubicarse en
frecuencias cercanas a las de los reales, produciendo batidos y distorsio-
nes.
3. Frecuencias inferiores con movimientos divergentes (“heterodyning”): en los
casos en los que la señal tenga componentes submuestreados con glis-
sandos, se producirán componentes falsos con glissandos en el sentido
contrario.

Técnicas de sonido digital Oscar Di Liscia, Mariano Cura, Lucas Samaruga y Damián Anache
120

5.9. Cuantización

Al muestrear una señal continua no solo se está discretizando su cualidad


temporal (los valores sucesivos que se toman en cuenta) sino también los
valores de amplitud, que serían los valores correspondientes al eje de las
ordenadas cuando representamos la forma de onda. A este proceso se lo
denomina cuantización de la señal. La cuantización, a diferencia del muestreo
en frecuencia, no es reversible puesto que se pierde información respecto de
la señal original que se transforma en ruido de cuantización como se verá a
continuación.

5.9.1. Resolución en bits

La resolución en bits de una señal digital determina la precisión con que se


representan estos valores de amplitud tomados por muestra. Define el rango
dinámico, entendido como la distancia entre la amplitud máxima y mínima
de la señal digitalizada según la cantidad de valores distintos que se puedan
representa

TEXTO APARTE

En el sistema binario, un bit puede representar dos valores


(cero o uno), dos bits agrupados pueden representar cuatro
valores distintos, tres bits pueden representar ocho valores
distintos, etc. De manera general, una cantidad N de bits
pueden representar 2N cantidad de valores distintos.

Por ejemplo, si quisiéramos cuantizar una señal con una resolución


de 4 bits, la amplitud de cada muestra debe ser encasillada, según
su valor de voltaje sea más aproximado, dentro de uno de entre 16
valores distintos (24 = 16).

En la figura se muestra una señal continua en negro y superpuesta en rojo la


misma señal pero cuantizada a un determinado período de muestreo. Mientras
más lejano sea el recorrido de la señal continua con respecto a los puntos rojos
de las líneas horizontales mayor será el error de cuantización.

Técnicas de sonido digital Oscar Di Liscia, Mariano Cura, Lucas Samaruga y Damián Anache
121

TEXTO APARTE

Aunque se puede implementar de diferentes maneras, la


codificación binaria comúnmente empleada por los conversores
analógico-digitales es el complemento a dos puesto que facilita
las operaciones realizadas por los procesadores. Sin embargo,
tiene la desventaja de que el rango numérico es asimétrico
teniendo un valor numérico más para los números negativos.

Además del rango dinámico, el proceso de cuantización afecta la forma de


onda resultante puesto que los infinitos valores de amplitud posibles en un
señal continua son asignados a una cantidad finita de números binarios. Al
transformar variaciones de voltaje (amplitud de una señal continua) en valores
discretos (amplitud de una señal digital) se produce un redondeo. Los valores
continuos que caen dentro del rango de dos valores discretos son asignados
al valor discreto más próximo perdiéndose precisión en la representación de
la amplitud. A mayor resolución en bits, mayor será la resolución con que se
representan las variaciones de amplitud de la señal.

Según se redondee hacia arriba o hacia abajo, en comparación con la señal


analógica, la señal digital resultante contiene pequeños saltos. La amplitud
máxima de estos saltos está definida por la resolución en bits y equivale a la
mitad de la amplitud representable entre dos valores (1 bit). La dirección de
estos saltos no es previsible y depende de si el redondeo es ascendente o
descendente. En el gráfico anterior se puede observar cómo los puntos rojos
que representan el valor digital de la señal no coinciden exactamente con la
señal analógica, quedando por arriba o por abajo, más o menos cerca del
valor original. Estos saltos generan lo que se denomina ruido de cuantización,
el cual acompaña las variaciones de amplitud de la señal y se vuelve audible
en el procesos de conversión digital-analógica posterior.

5.9.2. Cuantización uniforme

Existen varias maneras de cuantizar una señal según como se distribuyan la


cantidad de valores distintos, de manera uniforme o no uniforme, al represen-
tar la amplitud de una muestra. La cuantización uniforme distribuye de mane-
ra equidistante los distintos valores de amplitud posibles determinados por la
resolución en bits. Esto hace que se tenga la misma resolución al representar
tanto sonidos de alta como de baja amplitud.

5.9.3. Relación señal-error de cuantización

El ruido generado por el error de cuantización hace que la señal se distor-


sione más o menos según su amplitud. Para señales de muy baja amplitud
el ruido de cuantización enmascara la señal representada. A este límite de

Técnicas de sonido digital Oscar Di Liscia, Mariano Cura, Lucas Samaruga y Damián Anache
122

enmascaramiento se le llama piso de ruido, toda señal cuya amplitud esté


próxima a este se verá degrada por el proceso de cuantización. La relación
entre el piso de ruido y la señal representada se denomina SQNR (por Signal
to Quantization error Noise Ratio en inglés).

La relación SQNR es la que determina el rango dinámico de las señales que


se pueden representar dentro de una resolución en bits determinada. Para
determinar esta relación se emplea la siguiente fórmula: SQNR = 20 * log10
2n , siendo n la resolución en bits. Esta fórmula nos da el rango dinámico en
dB y de ella podemos aproximar que cada un bit de precisión que se agrega a
la resolución, el rango dinámico representable se incrementa en 6dB aproxi-
madamente. Por esto último podemos simplificar de manera práctica, y decir
que SQNR = 6dB * n, siendo n nuevamente la cantidad de bits. La resolución
estándar de un CDA es de 16 bits lo que da un rango dinámico aproximado
de 96dB.

La SQNR es una proporción que relaciona el ruido de cuantización con la


amplitud de la señal representada, en el caso anterior sería con una señal de
amplitud máxima. Pero si queremos saber cuál es la SQNR para señales de
menor amplitud podemos usar la fórmula aproximada: SQNR = 6dB * n + S,
donde S es la amplitud efectiva en cantidad de dBfs. Por ejemplo, si tenemos
una señal a -18dBfs y una resolución de 16 bits la relación señal/ruido de
esta señal en particular sería SQNR = 6dB * 16 + (-18) = 96dB - 18 = 72dB.
Esto es útil para saber cuán degradada puede estar una señal grabada a cier-
ta amplitud puesto que si el nivel de grabación fue muy bajo, luego no será
posible amplificarla sin aumentar también el ruido de cuantización.

5.9.4. Cuantización no-uniforme

En relación con el desarrollo de las telecomunicaciones fueron desarrolladas


dos técnicas de cuantización no lineal implementadas en las normas Mu-Law y
A-Law. Ambas son versiones ligeramente distintas de un mismo procedimiento
de conversión analógica–digital no lineal empleado para luego comprimir las
señales de audio a ser transmitidas. Estas técnicas emplean en el proceso
de muestreo una mayor resolución para representar los valores de amplitud
cercanos a cero (de la cantidad de bits disponibles se emplean más para repre-
sentar valores pequeños) y una menor resolución para los valores de amplitud
cercanos al máximo.

La grilla de líneas puenteadas esquematiza el proceso de cuantización no lineal


en relación con una señal de gran amplitud.

Técnicas de sonido digital Oscar Di Liscia, Mariano Cura, Lucas Samaruga y Damián Anache
123

La distribución de los valores de amplitud de una señal cuantizada de esta


manera no es pareja a lo largo del rango dinámico. Tener un mayor grado de
precisión para los componentes de baja amplitud implica menor precisión
para los componentes de mayor amplitud. La cuantización no lineal disminuye
el ruido de cuantización en bajas amplitudes, donde es más audible, pero lo
incrementa cuando la señal es de mayor amplitud. Esto es preferible puesto
que los sonidos de mayor amplitud tienden a enmascarar el ruido de cuanti-
zación. Sin embargo, el desarrollo de esta técnica de cuantización se basa
en que las señales de voz hablada se desarrollan comúnmente a valores de
baja amplitud, lo que permite tener una buena calidad de sonido para el rango
dinámico de la voz hablada y, a la vez, permitir la codificación de sonidos de
mayor amplitud.

5.9.5. Dithering

El ruido de cuantización “acompaña” espectralmente a la señal digitalizada


según varíe su amplitud. Esto hace que se generen bandas de ruido a medida
que la energía de la señal disminuye y produce un efecto, preceptivamente
muy notable, denominado distorsión armónica.

Para evitar este fenómeno se usa el dithering que consiste en aplicar ruido
blanco de baja amplitud antes de la conversión analógica-digital, lo que hace
que el error de cuantización no varíe espectralmente junto con las variacio-
nes de la señal de entrada. El ruido blanco hace que el error de cuantización
adquiera una función de distribución de probabilidades uniforme sin importar
las características de la señal de entrada esto es lo que garantiza que no se
produzca una distorsión variable que sería mucho más audible.

El dithering también hace que los efectos del ruido de cuantización sean
menos notorios puesto que al generar un ruido estacionario constante, e
igual para todo el rango dinámico, el piso de ruido se vuelve mucho menos
perceptible.

5.10. Codificación y almacenamiento de la señal digital

Una señal digital se codifica como una sucesión de valores binarios, según
sea la resolución en bits, la cantidad de bytes necesarios para cada mues-
tra varía. Por ejemplo, una señal mono de 16 bits se representa como una
sucesión de valores de 3 bytes. Si la señal fuera estéreo o multicanal, los
grupos de bytes que representan una muestra de cada canal se entrelazan.
Es decir que no se almacena la sucesión de valores del canal 1, luego la del
canal 2, etc, sino que se almacena una muestra de cada canal (c) como: c1,
c2, …, cn, c1, c2, …, cn, etc. Al conjunto que se genera de una muestra de
cada canal se la suele llamar frame, que sería como el corte vertical de las
señales superpuestas.

Técnicas de sonido digital Oscar Di Liscia, Mariano Cura, Lucas Samaruga y Damián Anache
124

Según la codificación empleada, el conjunto de bytes que almacenan el valor


de una muestra puede ser entendido como números enteros, con o sin signo,
o como números de punto flotante. En las aplicaciones para audio digital se
suele usar la representación “normalizada” en punto flotante en la cual el
rango de valores va de -1 a 1, lo cual simplifica las operaciones matemáticas
que usualmente se efectúan sobre una señal de audio.

Las señales almacenadas o generadas digitalmente deben poder ser decodi-


ficadas de manera adecuada por los programas y el hardware, es por eso que
es necesario especificar el formato de codificación empleado en cada etapa.

5.10.1. Archivos de sonido con formato

Para especificar la codificación de una señal digital almacenada en disco se


emplean formatos de archivo. Los formatos de archivos se componen gene-
ralmente de un encabezado (header en inglés) y luego los valores de amplitud
de la señal almacenada. El encabezado especifica el formato de codificación,
como pueden ser: el formato binario empleado, la frecuencia de muestreo, la
resolución en bits y la cantidad de canales.

En el siguiente enlace se puede encontrar una de las mejores


referencias sobre los distintos formatos de archivos digitales de audio.
http://www.digitalpreservation.gov/formats/fdd/sound_fdd.shtml

La codificación digital que venimos analizando es la que corresponde a los


archivos de audio sin compresión, es decir, que almacenan la información
como fuera sampleada por el conversor analógico-digital. Como se vio ante-
riormente, es posible variar la frecuencia de muestreo y la resolución en bits.
Al aumentar la calidad de audio, se incrementa directamente el tamaño de
los archivos; lo que conlleva un aumento en la capacidad de procesamiento
del sistema y en la cantidad de espacio necesario para el almacenamiento.

Al trabajar con archivos de audio se suele tener la necesidad de prever la


cantidad de espacio necesario para el almacenamiento y el ancho de banda
necesarios para su transmisión en tiempo real. Si tomamos, por ejemplo, un
archivo de audio estéreo, muestreado a 44100 Hz y con una resolución de
16 bits podemos calcular la cantidad de bits por segundo que requiere su
representación de la siguiente manera: canales * resolución * R / segundo,
en concreto sería 2 * 16 bits * 44100 / s = 1411200 bits/s. Si lo pasamos
a kbits (dividimos por 1000) serían 1411.2 kbits/s. Si quisiéramos saber
cuánto pesa un minuto de audio en este formato la cuenta sería 2 * 16 bits
* 44100 * 60 / 8 / 10242 = 10.0936 Mb aproximadamente.

Técnicas de sonido digital Oscar Di Liscia, Mariano Cura, Lucas Samaruga y Damián Anache
125

LEER CON ATENCIÓN

Cuando se habla de transferencia de datos en bits las unidades


que se emplean son decimales, un kilo bit son 1000 bits. En
cambio, cuando se refiere a espacio de almacenamiento se
suele medir en bytes y las unidades de agrupamiento están en
binario, por eso dividimos por 8 (1 byte = 8 bits) y luego por
10242 = (210)2.

Los resultados anteriores demuestran que se necesita una cantidad consi-


derable de bits tanto para transmitir como para almacenar información de
audio digital. Por este motivo es que se desarrollaron diversos algoritmos de
compresión de audio con y sin pérdida. La compresión sin pérdida se suele
usar para el audio en alta calidad aunque la relación de peso entre el audio
comprimido y el original no es tan eficiente como la que se logra con la com-
presión a pérdida.

La compresión de audio con pérdida emplea diversos algoritmos basados en


la codificación perceptual del sonido (PAC por Perceptual Audio Coding en in-
glés) y son los formatos más usados para almacenar música en dispositivos
móviles y la transmisión de audio a través de internet. La codificación percep-
tual es una manera muy eficiente de reducir el espacio de almacenamiento
y el ancho de banda necesario (Kbits/s) para transmitir sonido a costa de la
pérdida de calidad y fidelidad del sonido con respecto al original.

El formato mp3, por ejemplo, define el grado de compresión de los archivos


según su tasa de transferencia, la cual va generalmente desde los 8 kbps a
Las características de percepción
los 320 kbps. Si comparamos con los 1411.2 kbps necesarios para transmi-
sonora que son generalmente ex-
tir el audio sin comprimir de nuestro ejemplo anterior, la razón de compresión
plotadas por las técnicas de com-
estaría entre 1/176.4 y 1/4.41. Teniendo en cuenta que mientras mayor sea
presión a pérdida se explicaron
la compresión más se perjudica la calidad del audio, no todas las tasas de
brevemente en la Unidad 2.
transferencia son aceptables para determinados usos. Por ejemplo, para la
transmisión de música en formato mp3, se puede considerar aceptable una
compresión de hasta 128 kbps lo cual da una razón de 1/11.025. Si la señal
se comprime aún más, no solo se pierde información sino que se empiezan
a escuchar artefactos característicos del proceso de compresión, los cuales
distorsionan (modifican) la información original. El mayor problema de la com-
presión con pérdida es que no es un proceso reversible, una vez que la señal
fue comprimida hay información que fue descartada o simplificada y, por lo
tanto, no puede volver a reconstruirse el audio original.

5.10.2. Archivos de sonido sin formato

Un archivo sin formato contiene solamente los valores “crudos” (raw en in-
glés) de amplitud, sin especificar la frecuencia de muestreo ni la resolución
en bits. Para poder leer un archivo raw es necesario saber de antemano cómo
fue generado.

Técnicas de sonido digital Oscar Di Liscia, Mariano Cura, Lucas Samaruga y Damián Anache
126

En general, los archivos sin formato son empleados internamente por los
editores de audio para manipular la información sin necesidad de estar cam-
biando el formato constantemente. Los archivos de audio se leen una vez
y se convierte al sistema de representación empleado por el programa que
guarda estos datos en archivos temporales.

Hay casos en los que nos podemos encontrar con información de audio cuyo
formato no está especificado, por ejemplo archivos temporales o con el en-
cabezado dañado. En estos casos, la única manera de averiguar el formato
de la información es importarlos especificando manualmente la frecuencia
de muestreo y la resolución en bits, e ir buscando los valores correctos para
luego guardarlos con el formato adecuado.

Generalmente, los archivos sin formato contienen información sin compre-


sión que puede ser exportada intencionalmente para procesar la señal con
otros programas que no lean archivos de audio, por ejemplo cuando se traba-
ja programando a bajo nivel, si se quiere desarrollar un programa simple que
implemente un determinado algoritmo.

Si se tratase de archivos dañados con compresión es mucho más difícil re-


construir la información de manera adecuada, por lo que sería necesario re-
currir a un software desarrollado específicamente para tal fin.

LECTURA RECOMENDADA

Moore, F. (1990), “Capítulo II”, en Elements of Computer


Music. Prentice-Hall, Nueva Jersey, pp. 27-61.

Referencias Bibliográficas

Moore, F. (1990), Elements of Computer Music. Prentice-Hall, Nueva Jersey.

Painter, T. (2000), Perceptual Coding of Digital Audio. Actas de la IEEE, Volume:88, Issue:
4, pg. 451-515.

Goldberg, R. (2000), A Practical Handbook of Speech Coder. Randy Goldberg Ed. CRC
Press LLC, Boca Raton.

Zölzer, U. (1998), Digital Audio Signal Processing. John Wiley & Sons LTD., Baffins Lane,
Chichester.

Técnicas de sonido digital Oscar Di Liscia, Mariano Cura, Lucas Samaruga y Damián Anache
127

Principios básicos de análisis de sonido digital

Objetivos

• Que el estudiante comprenda los principales recursos de análisis de las


señales digitales.
• Que el estudiante comprenda las distintas formas de representación de
las señales digitales de sonido y de cómo estas facilitan el análisis de
distintos parámetros.

6.1. Introducción

Históricamente, el sonido se estudia con distintas herramientas de análisis


provenientes de campos como la física y las matemáticas. Gracias al avance de
los recursos computacionales, se hizo posible el desarrollo de algoritmos que
facilitaron los cálculos necesitados por estas herramientas. Puesto que se ob-
tienen resultados en tiempos notablemente menores a los requeridos cuando
se realizaban los cálculos manualmente, el empleo de estos recursos matemá-
ticos se potenció de manera inimaginable desde mediados del siglo XX. Gracias
a esto, surgieron nuevas formas de visualización y manipulación de los datos
y se aceleró el desarrollo de herramientas de análisis específicas, pero sobre
todo se hizo posible el análisis empírico de la gran variedad de eventos sono-
ros cotidianos, desde la voz hablada hasta el timbre de los instrumentos de la
orquesta. El sonido pudo ser estudiado por primera vez en la historia como un
objeto delimitado y tangible.

En esta unidad se explicarán tanto las representaciones como las herramientas


de análisis básicas a partir de las cuales es posible estudiar y comprender el fe-
nómeno sonoro en general, así como las cualidades específicas de los recursos
empleados.

6.2. Análisis de la forma de onda digital

A la representación de los sucesivos valores de amplitud en función del tiem-


po, se la llama representación temporal o forma de onda. En el eje de las
ordenadas se representan los cambios de presión sonora/voltaje en valores
de amplitud entre un mínimo y un máximo soportados por el sistema. Usual-
mente la amplitud de una señal se mide en valores normalizados entre -1 y

Técnicas de sonido digital Oscar Di Liscia, Mariano Cura, Lucas Samaruga y Damián Anache
128

1, siendo 0 el valor que representa el estado de reposo o silencio también


llamado DC (por Direct Current en inglés) en relación con su origen en los
sistemas analógicos.

Al trabajar con señales digitales siempre es necesario analizar sus carac-


terísticas para poder procesarlas o simplemente reproducirlas de manera
adecuada. Se pueden conocer además de su duración, su comportamiento
en amplitud, sus cualidades espectrales (componentes en frecuencia), su
máxima amplitud en un momento determinado, si fue grabada de manera
correcta, etc. A continuación se verán algunas de las técnicas fundamentales
disponibles para obtener información sobre las señales digitales de audio.

6.2.1. Amplitud de pico máxima y mínima

De una señal almacenada digitalmente se pueden determinar sus valores


máximos y mínimos analizando una cantidad arbitraria de muestras. La am-
plitud pico es la muestra que contiene el mayor valor de amplitud de la serie,
puede ser un valor único o que aparezca repetido en distintos momentos,
pero siempre hace referencia al valor máximo que aparece dentro de la can-
tidad de muestras analizadas. Como la amplitud de la señal se mide desde
su estado de reposo (0) hasta su punto máximo de elongación, ya sea posi-
tivo (1) o negativo (-1), para determinar la amplitud máxima se toma el valor
absoluto de las muestras. La amplitud pico se puede expresar en dBfs o en
amplitud normalizada.

TEXTO APARTE

En el audio digital la amplitud máxima que puede tener una


señal está definida por la resolución en bits en relación con la
SQNR. Es por esta razón que en lugar de emplearse una escala
en decibeles ascendente, como en el caso de los dBspl, se emplea
una escala descendente que toma como valor de referencia la
amplitud máxima que una sinusoide puede adquirir. 0 dBfs es el
máximo valor de amplitud soportado por una resolución n de
bits y a partir de este la amplitud puede descender hasta el piso
de ruido del sistema (tantos dB como la SQNR lo permita).

LEER CON ATENCIÓN

Matemáticamente es importante poder medir las señales


periódicas de distintas maneras. Por ejemplo, además de
la amplitud pico, dentro de un período se puede medir la
amplitud de pico a pico, es decir, la distancia que hay entre el
máximo valor positivo y el máximo valor negativo, también
se puede medir la potencia según su media cuadrática (como
se verá más adelante). Sin embargo, cuando se refiere a la
amplitud de una señal acústica generalmente se está refiriendo
a su amplitud pico.

Técnicas de sonido digital Oscar Di Liscia, Mariano Cura, Lucas Samaruga y Damián Anache
129

Analizar la amplitud máxima de una señal es útil para determinar su rango


dinámico y poder ajustar proporcionalmente su amplitud. En audio digital, nor-
malizar una señal de audio es un procedimiento que implica determinar la am-
plitud máxima de la señal y a partir de ella modificar proporcionalmente todos
los valores de amplitud, ya sea para atenuar la señal o para amplificarla a un
nivel determinado. Un caso particular de normalización, al que comúnmente
se refiere simplemente como normalización, implica determinar la amplitud
máxima para amplificar la señal al máximo posible sin que ninguna muestra
quede fuera de rango. Sin embargo, se puede pretender normalizar distintas
señales de audio a un valor de referencia arbitrario, el cual puede atenuar
algunas señales y amplificar otras, para luego mezclarlas. Normalizar una se-
ñal no es más que escalar su amplitud, es decir, multiplicar la señal por una
constante obtenida según el valor de amplitud pico. Para escalar una señal
no es necesario determinar el valor máximo, se puede hacer empíricamente
subiendo o bajando el volumen, pero normalizar una señal implica tomar un
valor como referencia.

PARA REFLEXIONAR

En los archivos estéreo o multicanal se normaliza al mayor


valor entre todos los canales para evitar que queden muestras
fuera de rango. Si se tomara como referencia la amplitud
máxima de un solo canal, la cual puede ser menor que en
algún otro, al amplificar el resto de los canales podrían quedar
muestras fuera de rango o, en el caso inverso, al atenuar el
resto de los canales sus señales podrían quedar a cero o un

6.2.2. Muestras fuera de rango

Cuando la amplitud de una señal muestreada excede los valores máximos


que la resolución en bits puede representar, se produce el truncamiento de
la señal. Las muestras que quedan fuera de rango pasan a tomar el valor
máximo o mínimo. Esto hace que se pierda información que no es posible
recuperar luego y, además, cambia las cualidades espectrales de la señal
representada, generando distorsión. Temporalmente, la señal se ve con sus
picos truncados todos al mismo nivel, espectralmente esta forma de onda
genera componentes de ruido que no forman parte de la señal original.

Una manera de detectar muestras fuera de rango es comprobar si existen


muestras sucesivas iguales al límite de los valores representables. En un
caso extremo como el de una sola muestra a máxima amplitud no es posible
determinar si la señal fue truncada o si fue normalizada.

Muchos editores de audio y software para síntesis de sonido representan los


valores de amplitud en punto flotante con una resolución de 32 bits por razo-
nes de simplicidad y eficiencia. Con esta representación se pueden generar

Técnicas de sonido digital Oscar Di Liscia, Mariano Cura, Lucas Samaruga y Damián Anache
130

valores que superen el rango -1, 1, pero luego, al exportar la señal en un


formato estándar, las muestras que queden fuera de rango serán truncadas.
Es posible, sin embargo, guardar los valores de amplitud con una resolución
de 32 bits, pero en alguna etapa posterior, según el medio de reproducción
usado, debe normalizarse la señal para que no se produzca el truncamiento.

6.2.3. Desviaciones del DC

DC es el acrónimo en inglés de Direct Current que refiere al estado de reposo


del sistema. En la representación digital de una señal de audio el DC equivale
al silencio, es una señal constante de amplitud cero. Debido al mal funciona-
miento de un micrófono, una placa de audio o como resultado del procesa-
miento de una señal, pueden producirse desviaciones del DC, llamadas en
inglés DC offset o DC bias. Estas desviaciones hacen que toda la señal quede
desplazada con respecto del cero.

Las desviaciones del DC son indeseables por varias razones. Por un lado,
acotan el rango dinámico posible de la señal, si quisiéramos normalizar una
señal con DC offset los valores de amplitud pico registrados serían mayores
a los de una señal sin corrimiento. Por otra parte, una señal desplazada
del punto de reposo genera clicks al ser mezclada con otras señales o al
comienzo de su reproducción. En cuanto al funcionamiento de los aparatos
eléctricos, una señal con DC offset hace que el sistema no funcione dentro
de sus valores de operación, lo que puede deteriorar el equipamiento o la
calidad del audio.

Espectralmente una señal con desviación del DC contiene energía en 0 Hz.


Temporalmente esto se puede entender como si hubiera un movimiento os-
cilatorio de frecuencia cero. Incluso debido a oscilaciones de baja frecuencia
(próximas a 0 Hz) se produce un desvío del DC que varía lentamente.

Para determinar si una señal está “balanceada” respecto del DC, es decir que
no hay desviaciones del DC, lo que se hace es tomar el valor promedio de
todas las muestras analizadas, el cual debe ser igual (o muy próximo) a cero.
Esto es porque los semiciclos de un movimiento oscilatorio cambian de signo
al pasar por el estado de reposo.

Debido a estas características, para eliminar las desviaciones del DC se pue-


den emplear dos métodos distintos según resulte más conveniente para el
procesamiento. Si disponemos de la totalidad de la señal, se puede compro-
bar si la señal está balanceada obteniendo el promedio de sus valores de
amplitud, si este difiere de cero, el valor obtenido se toma como la cantidad
de desplazamiento con respecto al DC que debe ser restado a todos los va-
lores de la señal. Otra manera de cancelar las desviaciones del DC, que es
útil cuando se producen en partes de la señal, pero no en toda o si estamos
procesando sonido en tiempo real, es emplear un filtro pasa altos que atenúe
la energía presente cercana a los 0 Hz.

Técnicas de sonido digital Oscar Di Liscia, Mariano Cura, Lucas Samaruga y Damián Anache
131

6.2.4. Potencia RMS

La amplitud promedio de una señal se mide como potencia RMS (por Root
Mean Square en inglés). En castellano a esta medida se la denomina media
cuadrática, sin embargo está muy difundido en ingeniería de sonido, como
sucede con la mayoría de los términos que se vienen utilizando, el empleo
de su denominación anglosajona. Su nombre es una síntesis de las operacio-
nes matemáticas que se realizan para obtener dicho valor. Su traducción del
inglés sería algo así como “raíz cuadrada del promedio de los cuadrados [de
las amplitudes]”.

La potencia RMS se emplea en matemáticas e ingeniería eléctrica para cal-


cular la magnitud de un movimiento oscilatorio, el cual contiene tanto valores
positivos como negativos. La potencia RMS es una medida estadística útil
puesto que refleja de manera más homogénea la relación de energía entre
distintas señales sin verse afectada por sus formas de onda particulares.

6.3. Análisis espectral de la señal digital

Las señales digitales pueden ser representadas y analizadas espectralmen-


te mediante un recurso matemático desarrollado por el físico-matemático
Joseph Fourier en el siglo XIX. Este recurso, denominado matemáticamente
transformada, se encarga de trocar la información espectral contenida en el
dominio temporal al dominio de las frecuencias para obtener una mejor repre-
sentación del aspecto analizado.

Según el teorema de Fourier:

Toda función periódica de período P puede descomponerse en una


suma de sinusoides armónicas, de amplitudes y fases adecuadas,
cuyo primer armónico o fundamental posea período P. (Basso,
2001).

El enunciado nos dice que si tomamos un ciclo de una señal periódica pode-
mos obtener, mediante este procedimiento matemático, la amplitud y fase
de cada uno de sus componentes, puesto que toda señal periódica puede
ser entendida como un movimiento armónico complejo, es decir, la suma de
infinitos movimientos sinusoidales en relación armónica.

El primer valor es llamado frecuencia fundamental (o primer armónico) y las


sucesivas frecuencias son llamadas parciales armónicos (frecuentemente lla-
mados de manera indistinta como parciales o armónicos).

La transformada de Fourier se encarga de realizar el procedimiento inverso.


Dado un movimiento armónico complejo, nos dice cuáles son los componen-
tes armónicos presentes y cuáles son sus amplitudes y fases.

Técnicas de sonido digital Oscar Di Liscia, Mariano Cura, Lucas Samaruga y Damián Anache
132

En los gráficos temporales (fila de arriba) los componentes armónicos se


manifiestan en la forma de onda, la cual se vuelve más compleja a medida que
se incrementa la cantidad de componentes. Sin embargo, es prácticamente
imposible darse cuenta qué componentes están presentes y con qué amplitud. En
los gráficos espectrales (fila de abajo), en cambio, se pueden apreciar claramente
los componentes armónicos presentes y sus respectivas amplitudes.

LEER CON ATENCIÓN

En el gráfico temporal, el eje de las abscisas, que en matemática


refiere al dominio de una función, representa el tiempo mientras
que en el gráfico espectral el dominio pasa a ser la frecuencia
de los componentes armónicos. El tiempo está ausente en el
gráfico espectral puesto que representa el espectro contenido
dentro de un período temporal.

La transformada de Fourier es una herramienta de análisis muy útil debido a


que su forma de representar las cualidades internas de un sonido se relacio-
na de forma más directa con la manera en la que se percibe el sonido.

6.3.1. Transformada de Fourier discreta (DFT) e inversa (IDFT)

Matemáticamente, la Transformada de Fourier es un proceso continuo, es de-


cir, que está definido para todos los valores sin importar qué tan pequeños o
grandes puedan ser, y se basa además en la idealización matemática de un
movimiento armónico cuya duración es infinita. Sin embargo, las señales digita-
les son discretas por definición y, por lo tanto, no pueden representar infinitos

Técnicas de sonido digital Oscar Di Liscia, Mariano Cura, Lucas Samaruga y Damián Anache
133

valores. Es por esto que en lugar de aplicarse la transformada continua se apli-


ca la formulación matemática discreta del mismo proceso y pasa a llamarse en
consecuencia Transformada Discreta de Fourier (DFT por sus siglas en inglés:
Discrete Fourier Transform).

La transformada es un proceso reversible, esto quiere decir que si la apli-


camos a una forma de onda y obtenemos los datos espectrales, con base
en estos podemos volver a reconstruir la forma de onda original sin perder
información.

Incluso es posible modificar el sonido empleando la representación espectral


para luego reconstruirlo con estas modificaciones. Esto resulta útil para la
construcción de ecualizadores gráficos (empleados para balancear espectral-
mente una señal), para filtrar o realzar componentes específicos del espectro
o incluso para generar modificaciones espectrales que transformen las cuali-
dades de la señal original en algo totalmente diferente.

6.3.2. Transformada de Fourier discreta rápida (FFT) e inversa (IFFT)

La DFT es un proceso matemático relativamente sencillo pero que implica el


empleo reiterado de operaciones simples y la manipulación de una gran can-
tidad de datos y, por lo tanto, requiere cierta cantidad de recursos computa-
cionales. Para poder efectuar la DFT de forma prácticamente útil se desarrolló
un algoritmo que reduce la capacidad de cómputo necesaria y posibilita su
cálculo en menor tiempo. A este algoritmo se los denomina Transformada
Rápida de Fourier (FFT por sus siglas en inglés: Fast Fourier Transform).

Sin embargo, lo que se gana en eficiencia se pierde en precisión. Para que


el algoritmo pueda procesar los datos de forma rápida es necesario restringir
los valores posibles de ciertos parámetros. Al ser un algoritmo digital que
emplea el sistema binario, los tamaños de las ventanas de análisis están res-
tringidos a las potencias de base 2, es decir 21 = 2; 22 = 4; 23 = 8; 24 = 16;
etc. Esto restringe a su vez las posibles frecuencias de análisis que además
de afectar la precisión con la que se representa el espectro genera artefactos
de análisis como se explica a continuación.

6.3.4. Parámetros básicos de la FFT

Tanto la FT como la DFT son procedimientos matemáticos que están definidos


de manera general (o podría decirse ideal), esto quiere decir que no están
acotados temporalmente. Sin embargo, en la práctica es necesario adoptar
límites temporales puesto que los sonidos que podemos percibir, grabar y
manipular son finitos. Es por esto que para aplicar la DFT mediante el algorit-
mo FFT es necesario definir ciertos parámetros.

El primer parámetro, que generalmente viene predefinido en la señal de audio

Técnicas de sonido digital Oscar Di Liscia, Mariano Cura, Lucas Samaruga y Damián Anache
134

almacenada digitalmente, es la frecuencia de muestreo. A mayor frecuencia


de muestreo vamos a obtener una mayor precisión temporal en general.
El segundo parámetro que surge ya directamente en relación con el análisis
de Fourier es el tamaño de la ventana de análisis. La ventana de análisis es
un período temporal que se toma, en cantidad de muestras, de una porción
de la señal a analizar. Se llama ventana por analogía al efecto visual que pro-
duce una ventana cuando se mira un paisaje desde dentro de una habitación,
lo que podemos ver del horizonte está acotado a la imagen que podemos
percibir a través de la pared.

La relación entre la frecuencia de muestreo y el tamaño de la ventana de aná-


lisis determina otro parámetro que es la frecuencia de análisis. La frecuencia
de análisis es la frecuencia fundamental de la serie armónica (también referi-
da como serie de Fourier) y corresponde al recíproco del período definido por
la ventana de análisis. Si W es la cantidad de muestras que toma la ventana
de análisis y R es la frecuencia de muestreo entonces T = W/R es el período
de la ventana de análisis en segundos. Como la frecuencia y el período son
inversos, la frecuencia de análisis resultante es fa = 1/T. Si juntamos las
operaciones en una sola ecuación y simplificamos nos queda fa = 1/T = 1 /
(W/R) = R/W.

Por ejemplo, si tenemos una frecuencia de muestreo R = 44100 y


una ventana de análisis de 512 muestras la frecuencia de análisis
es 44100/512 = 86.1328125. Este valor a la vez será la resolución
en frecuencia puesto que la serie de Fourier se incrementará en
bandas que son múltiplos enteros de la frecuencia de análisis hasta
la frecuencia de Nyquist.

La cantidad de componentes parciales (bins en inglés) que se pueden analizar


es la mitad del tamaño de la ventana de análisis. Por ejemplo, 512/2 = 256
que van desde los 0 Hz hasta la frecuencia de Nyquist (R/2). De cada bin se
puede obtener tanto la amplitud como la fase aunque el valor que se usa para
graficar el espectro es solo la amplitud.

PARA AMPLIAR

A cada parcial de la serie armónica la transformada de Fourier


lo representa con un número imaginario del cual se puede
obtener la amplitud, al calcular la magnitud del número, y
la fase, al calcular el ángulo. Esto tiene sus fundamentos en
las propiedades matemáticas del análisis de Fourier las cuales
quedan fuera del alcance de este curso, si se desea ampliar
sobre el tema se pueden consultar los libros de Moore (1990)
y Basso (2001).

Técnicas de sonido digital Oscar Di Liscia, Mariano Cura, Lucas Samaruga y Damián Anache
135

En el gráfico de la izquierda se muestra un período de un movimiento armónico


complejo, compuesto de tres armónicos de amplitud decreciente (cada uno tiene
la mitad de la amplitud del anterior), que dura exactamente 512 muestras con
una frecuencia de muestreo de 44100 Hz. Esas 512 muestras son tomadas como
la ventana de análisis de la FFT que da como resultado el gráfico de la derecha.
Preste especial atención a la “dominio” que es diferente en ambos casos. En el
gráfico de la izquierda se representa la amplitud en función del tiempo mientras
que en el gráfico de la derecha se representa la amplitud en función de la frecuencia
(el tiempo está ausente puesto que se representa el espectro contenido en las
512 muestras de la ventana). Este es un ejemplo elaborado especialmente para
demostrar cómo se pasa de un dominio a otro, en la práctica es poco probable
que los valores coincidan exactamente.

6.3.5. Resolución en frecuencia y resolución temporal

Al incrementarse el tamaño de la ventana de análisis disminuye la frecuencia


de análisis y, por lo tanto, la serie de Fourier crece a pasos más pequeños,
siempre desde 0 Hz hasta la frecuencia de Nyquist. Esto produce una mayor
resolución en frecuencia al costo de sacrificar la resolución temporal. Al ser
más grande la ventana de análisis, el período de tiempo que pasa entre análi-
sis consecutivos es mayor. Si por el contrario queremos una mayor resolución
temporal, para poder ver como varía el espectro entre instantes pequeños,
tendremos que achicar la ventana de análisis y perder resolución en frecuen-
cia. Didácticamente, esto puede ser entendido de otra manera, como si el
análisis de Fourier fuera el espectro promedio de una determinada cantidad
de muestras. No obstante ello, como veremos más adelante, el análisis de
Fourier presupone que la ventana de análisis es un período completo de un
solo movimiento armónico.

Al emplear la FFT, los límites en el tamaño de la ventana están definidos


de manera práctica entre 8 y 32768 muestras (entre 23 y 215), siendo las
ventanas más usadas las de 256, 512, 1024 y 2048 muestras, según se
prefiera mayor resolución temporal o de bandas de frecuencia. Sin embargo,

Técnicas de sonido digital Oscar Di Liscia, Mariano Cura, Lucas Samaruga y Damián Anache
136

la relación inversa entre resolución en frecuencia y resolución temporal es


una característica intrínseca del análisis de Fourier que se explica mediante
el principio de incertidumbre.
Para ampliar véase Basso, 2001

6.3.6. Artefactos de análisis y ventanas de suavizamiento

Como se dijo anteriormente, el análisis de Fourier presupone que la ventana


de análisis es un período completo de un solo movimiento armónico. Esto im-
plica que al analizar espectralmente fragmentos de señales complejas o que
no coincidan con el período de análisis, los resultados no van a ser ideales.

Por una parte, la energía de los componentes en frecuencia del fragmento


analizado que no coincidan exactamente con la serie de Fourier definida por
la ventana de análisis, será distribuida en las bandas laterales. Esto genera
“ruido visual” en la representación espectral. Por la otra, al reconstruir la
señal mediante al IFFT, la energía distribuida en las bandas reconstruye de
manera precisa la forma de onda original.

Análisis espectral de una sinusoide de 440 Hz generada a una frecuencia


de muestreo de 44100 Hz, la amplitud (eje de las ordenadas) está medida en
decibeles. La ventana de análisis utilizada es de 512 muestras. Como la frecuencia
de la sinusoide no es múltiplo de la frecuencia de análisis, la energía se distribuye
en las bandas laterales. La frecuencia de análisis es de 86.1328125 Hz y el múltiplo
más cercano es 430.6640625 Hz.

Otro problema que surge al tomar arbitrariamente una parte de una señal
para ser analizada es que se generan discontinuidades desde el punto de
vista del análisis. Como la ventana de análisis entiende su contenido como si
fuera un ciclo de una señal periódica, al recortar la señal mediante la ventana
de análisis, el ciclo que se genera usualmente tiene un salto abrupto entre
el final y el inicio que genera componentes espectrales agudos y ruido en el
análisis.

Técnicas de sonido digital Oscar Di Liscia, Mariano Cura, Lucas Samaruga y Damián Anache
137

Para la transformada de Fourier es como si la información contenida en la ventana


de análisis fuera un ciclo de una señal periódica y, por lo tanto, la señal que
estaría analizando sería como la que se muestra. Las líneas punteadas delimitan
la ventana de análisis que toma una cantidad de muestras que no coincide con
el período de una señal sinusoidal. En la figura se repite la ventana de análisis
cuatro veces para ilustrar la discontinuidad que se genera.

Para solucionar el problema de la discontinuidad que se produce al recortar


una señal se aplican ventanas de suavizamiento. Las ventanas de suaviza-
miento son envolventes dinámicas que multiplican la señal capturada por la
ventana de análisis antes de ser analizada. Estas envolventes hacen que los
valores de amplitud próximos al inicio y al final de la forma de onda analizada
sean coincidentes o que no se produzcan saltos abruptos.

Existen distintos tipos de ventanas de suavizamiento que hacen que dismi-


nuyan los artefactos de análisis de diversas maneras. Las más usadas se
llaman Hanning, Hamming, Blackman y Blackman-Harris, en honor a sus crea-
dores. También es común que los programas permitan usar una ventana de
suavizamiento rectangular, lo que equivale a no usar ninguna ventana.

Distintas ventanas de suavizamiento de uso frecuente


Las ventanas Hanning y Blackman hacen que las muestras iniciales de la señal
analizada sean cero, aunque similares son funciones distintas que alteran
sutilmente los resultados del análisis. La ventana Hamming, a diferencia de las
anteriores, no hace que las muestras iniciales y finales lleguen a cero.

Técnicas de sonido digital Oscar Di Liscia, Mariano Cura, Lucas Samaruga y Damián Anache
138

LEER CON ATENCIÓN

En la práctica suele referirse a las ventanas de suavizamiento


indistintamente como ventanas de análisis. Esto puede llevar
a confusiones puesto que son dos conceptos distintos, la
ventana de análisis es la cantidad de muestras que se toman
para el análisis mientras que la ventana de suavizamiento es
una función envolvente que se aplica al fragmento de la señal
antes de ser analizado.

6.3.7. Análisis de espectros cambiantes mediante ventanas


deslizantes

Hasta ahora se ha visto el análisis espectral de pequeñas porciones de una


señal. Si se quisiera analizar la evolución espectral de una señal de mayor du-
ración sería necesario emplear sucesivas ventanas a medida que se avanza
en la forma de onda. Se denomina a este recurso ventana deslizante y puede
implementarse de varias maneras.

La manera más sencilla sería yuxtaponer sucesivas ventanas y sobre la base


de esto ir analizando los cambios de ventana en ventana. De esta forma, la
resolución temporal del análisis de cambios espectrales está determinada
por la duración de la ventana.

Una técnica empleada para aumentar la resolución temporal sin disminuir


el tamaño de la ventana es emplear ventanas solapadas, es decir, que la
siguiente ventana de análisis se superponga con la ventana previa una cier-
ta cantidad de tiempo. Esto hace que la duración del espectro “promedio”
visualizado sea más pequeña y las muestras espectrales sucesivas estén
más juntas.

El solapamiento se mide como factor (porcentaje de ventana solapada) pues-


to que el tamaño de la ventana de análisis deslizante puede ser variado. Un
porcentaje de solapamiento típico es el 75%, quiere decir que la siguiente
ventana de análisis comienza luego de transcurrido un cuarto de la ventana
anterior. Por ejemplo, si N es el tamaño de la ventana en muestras, la siguien-
te ventana de análisis comenzará N/4 muestras después.

Para lograr resultados óptimos de análisis según la señal que se quiera ana-
lizar, es necesario realizar un compromiso entre el tamaño de la ventana de
análisis y el factor de solapamiento. Ajustando adecuadamente estos pará-
metros se puede lograr una resolución aceptable tanto en tiempo como en
frecuencia.

6.3.8. Gráficos de espectros

Los datos obtenidos mediante el análisis espectral con ventana deslizante

Técnicas de sonido digital Oscar Di Liscia, Mariano Cura, Lucas Samaruga y Damián Anache
139

se suelen representar gráficamente de dos maneras. Una forma es hacer


un gráfico tridimensional, usualmente con el eje horizontal representando la
frecuencia; el vertical, la amplitud; y el eje de profundidad, el tiempo. Otra
forma de representar los datos es mediante el empleo de dos dimensiones
espaciales, horizontal para el tiempo, vertical para las bandas espectrales y
una tercera dimensión, que emplea una escala de colores o matices de gri-
ses, para representar la energía presente en cada banda. A este último tipo
de representación se lo denomina espectrograma.

Ambas representaciones tienen sus ventajas y desventajas, el gráfico tridimen-


sional es más preciso si se quieren visualizar los datos como funciones pero
requiere mayor capacidad gráfica. Este es, tal vez, el más adecuado para ob-
servar variaciones rápidas del espectro en una señal que representa un solo
sonido. Es más fácil ver la amplitud de cada componente espectral con relación
a los demás.
Gráfico tridimensional

En cambio, el espectrograma representa el espectro de una manera más


tradicional en cuanto a la concepción de altura musical ya que muestra la
frecuencia en función del tiempo. Esto hace que sea más fácil visualizar el
recorrido de distintos componentes espectrales. Su principal desventaja es
que, al emplear colores o matices para representar la amplitud, esta queda
expresada con menor precisión.

Espectrograma

Técnicas de sonido digital Oscar Di Liscia, Mariano Cura, Lucas Samaruga y Damián Anache
1. Parámetros principales de un sonido digital
Muestreo: a la cantidad de muestras tomadas de una onda se la llama frecuencia
de muestreo, a mayor cantidad de muestras, mayor precisión, mas calidad, mas
semejanza con el sonido analógico.
Resolución: se refiere al número de dígitos en binario 1 y 0 que componen cada
muestra. Su unidad de medida es el bit y hace referencia al tamaño
2. Calcular cantidad de bytes: SR.CC.D. (bits/8)
3. Frecuencia de nyquist:
Frecuencia de muestreo/2. Ya que cada muestra tiene un valor positivo y
negativo, un valor de ida y vuelta
4. Error de Cuantización:
Cuando se produce la cuantización hay valores que se pierden, porque cualquier
valor entre un mínimo y máximo será asignado a un punto medio de cada región.
Se lo puede pensar como un monto de ruido blanco que se le agrega a la señal
durante la digitalización
5. SQNR
Proporción entre la amplitud de una señal y el error de cuantización 6N+S
6. Solución Error de cuantización
Se disminuye a costas de un pequeño aumento en los niveles mas altos.
7. Archivo crudo y con formato
La diferencia es que los archivos crudos poseen una mayor resolución mas alta
que la estándar
Archivos sin formato: RAW
Archivos con formato:
Comprimidos: mp3, wma, acb
Sin comprimir: pcm, wab aiff
8. Tamaños de transformada de Fourier
Cambia la resolución en el tiempo o en frecuencia. Con mayor tamaño de
ventana, mayor resolución en frecuencia,(disminuye la resolución temporal) y
viceversa
9. Ventana de análisis típica
Reduce los efectos de los artefactos de análisis. Se multiplica la forma de onda a
analizar por otra forma de onda .
Se caracteriza por que su contorno que casi siempre comienza en 0, alcanza su
máxima y decrece simétricamente a 0 .
Suavizan con brusquedad continuidades en los extremos de la forma de onda
analizada
A costas de una pequeña reducción de los componentes reales del espectro
analizado.
Ventanas: kaisser, beakman, parcen , hanning, hamming,
10. Normalizar

Tema B
1. Cantidad de byte
sr.cc.d.bits/8
2. Aliasing
El aliasing cuando se realiza el muestreo, no se representan con precisión las
muestras que superan la mitad de r , generando así el fenómeno de aliasing,
efectos negativos : distorsión en la amplitud real de los componentes de una
señal, batidos y distorsiones no lineales y frecuencias inferiores divergentes.
3. Cuantización
Consiste en determinar el rango de amplitud disponible que cae en el valor de
muestreo . se dividen 2 n regiones cada una de 2E/2n volts , cada una de estas
regiones son asociadas a un valor preciso de amplitud máximo, mínimo y aun
código de n bit único

4. Dithering
Es un pequeño ruido blanco que se le agrega después del proceso de la
cuantización suavizando los errores de cuantización.
5. Para volver a la onda original
se aplica deshacer ya que duplicando la amplitud distorsionaría la señal ,
pudiendo deshacer para tener la muestra de amplitud real
6. Normalizar
Consiste en el aumento o disminución de la onda en general, tomando una
muestra en la amplitud mayor, aumentando y disminuyendo decibeles de manera
proporcional
7. SQNR
Es la proporción entre una señal y un error de cuantización 6n+s =42
8. D.C.Offset
Corrimiento de energía en 0hz, onda desplazada del eje 0.
cuando se trabaja con una onda así se puede amplificar pero estamos limitados,
para corregirlo se aplica un pasa bajos que limite frecuencias altas que no
llegamos a escuchar, y así no genere tensión en los parlantes,
9. DFT :
Calcula el espectro de un forma de onda, los parámetros fundamentales son la sr
(frecuencia de muestreo), n( numero de muestras de la señal digital a analizar) ,
fa( frecuencia de análisis) . Para tener más precisión debemos disminuir la fa
(sr/N), ya sea aumentar la sr, o la n, generalmente se aumenta la n.

10. Ventana de análisis


Reduce los efecto de los artefactos de análisis, se multiplican las formas de onda a
analizar por otra forma de onda, se caracteriza pro que su contorno casi siempre
comienza en 0 , alcanza su máxima y decrece simétricamente a 0 . . Suaviza la
brusquedad continuidades de los componentes del espectro analizado , kaisser
beakman, barcen hannning, hamming

You might also like