|
La compresión de audio, el oído y sus formatos
Velocidad de transferencia
En audio digital el formato más común es el CD, donde
el sonido se muestrea a 44.1 kHz y cada muestra se codifica a 16 bits,
lo que equivale a una velocidad binaria de:
44.1 x 10³ x 16 x 2 = 1,411 Mbps.
Esta velocidad es muy superior a la que puede proporcionar
un módem estándar (56 kbps) ó un acceso ADSL básico
( 256 kbps ). La solución con más éxito ha
sido la codificación perceptual
( como el MP3 ). Básicamente se trata de estudiar
cómo oímos, y codificar con mayor fidelidad aquellas zonas
donde nuestro oído es más sensible y menos detalladamente
el resto, con lo que
la disminución de calidad es "inapreciable" y se reduce
considerablemente la tasa binaria.
Existen básicamente dos tipos de compresión,
la que permite reconstruir la información compri-
mida tal cual la original, conocida como lossless compression, y la
que al comprimirla elimina parte de ella y al reconstruirla logra algo
muy parecido a lo original, lossy compression.
Lo anterior es aplicable tanto a información de texto, imagen
y audio, sin embargo el audio usual-
mente emplea técnicas de compresión con perdida, a dichos
métodos o algoritmos se les conoce como codecs.
El MP3 (MPEG Layer 3), formato de compresión de
audio más popular, elimina información que
en teoría es inaudible para el oído humano. Se
basa en una característica del oído llamada "enmascaramiento"
que es cuando ciertas frecuencias y niveles de audio son completamente
inaudibles al ir acompañadas por otra señal de mayor nivel.
El enmascaramiento es relativo al nivel y la frecuencia, el codificador
MP3 divide la señal en sub-bandas por medio de filtros y
cada banda es tratada de manera diferente de acuerdo a los criterios
del procesador.
Enmascaramiento
De manera general podemos definirlo como el proceso auditivo que oculta
o hace inaudible a un sonido en presencia de otro. El enmascaramiento
por intensidad es cuando un sonido de un volu-men alto hace inaudible
a otro con menor amplitud. En el proceso de enmascaramiento intervie-nen
otros dos factores relacionados al espaciamiento en tiempo que hay entro
ellos (enmascara-miento por temporalidad) y a la frecuencia de los sonidos
que intervienen (enmascaramiento por frecuencia).
Cuando un sonido suave se presenta poco después
o antes de una sonido fuerte, éstos pueden no ser percibidos
debido a una pérdida de sensibilidad auditiva temporal, a dicho
efecto se le llama enmascaramiento temporal posterior o anterior.
Si dos frecuencias muy próximas llegan al oído
de forma simultánea, se producirán oscilaciones
en puntos muy próximos, y el cerebro no será capaz de
discriminar entre ambas. Se distinguen tres casos:
- Si las frecuencias están muy próximas,
se oye un tono de frecuencia intermedia cuyo nivel fluctúa
a la mitad de la separación entre las frecuencias.
- Cuando se supera el límite de discriminación de frecuencias,
lo que se percibe es un tono único con una
rugosidad superpuesta que lo hace desagradable.
- Si la separación de frecuencias es superior al ancho de banda
crítico, se oyen dos frecuencias perfectamente
separadas. Esta capacidad de discriminación es mucho mayor en
bajas frecuen-
cias que en las altas.
|