Compresión en la práctica. Compresión dinámica Rango dinámico comprimido o estándar

Este grupo de métodos se basa en el hecho de que las señales transmitidas sufren transformaciones de amplitud no lineales, y en las partes transmisora ​​y receptora las no linealidades son recíprocas. Por ejemplo, si se utiliza la función no lineal Öu en el transmisor, se utiliza u 2 en el receptor. La aplicación consistente de funciones recíprocas asegurará que la transformación general siga siendo lineal.

La idea de los métodos de compresión de datos no lineales se reduce al hecho de que el transmisor puede, con la misma amplitud de las señales de salida, transmitir un rango mayor de cambios en el parámetro transmitido (es decir, un rango dinámico mayor). Gama dinámica- esta es la relación entre la amplitud de señal más grande permitida y la más pequeña, expresada en unidades relativas o decibeles:

; (2.17)
. (2.18)

El deseo natural de aumentar el rango dinámico disminuyendo U min está limitado por la sensibilidad del equipo y la creciente influencia de las interferencias y el ruido propio.

Muy a menudo, la compresión del rango dinámico se lleva a cabo mediante un par de funciones recíprocas de logaritmo y potenciación. La primera operación de cambiar la amplitud se llama compresión(por compresión), el segundo - expansión(extensión). La elección de estas funciones particulares está asociada con sus mayores capacidades de compresión.

Al mismo tiempo, estos métodos también tienen desventajas. La primera de ellas es que el logaritmo de un número pequeño es negativo y está en el límite:

es decir, la sensibilidad es muy no lineal.

Para reducir estas deficiencias, ambas funciones se modifican mediante desplazamiento y aproximación. Por ejemplo, para canales telefónicos la función aproximada tiene la forma (tipo A):

con A=87,6. La ganancia de la compresión es de 24 dB.

La compresión de datos mediante procedimientos no lineales se implementa por medios analógicos con grandes errores. Solicitud medios digitales puede mejorar significativamente la precisión o el rendimiento de la conversión. Al mismo tiempo, el uso directo de fondos tecnologia computacional(es decir, calcular directamente logaritmos y exponentes) no dará los mejores resultados debido al bajo rendimiento y a la acumulación de errores de cálculo.

Debido a limitaciones de precisión, la compresión de datos mediante compresión se utiliza en casos no críticos, por ejemplo, para transmitir voz a través de canales telefónicos y de radio.

Codificación eficiente

K. Shannon, Fano y Huffman propusieron códigos eficientes. La esencia de los códigos es que son desiguales, es decir, con un número desigual de bits, y la longitud del código es inversamente proporcional a la probabilidad de que ocurra. Otra gran característica de los códigos eficientes es que no requieren delimitadores, es decir. caracteres especiales, separando combinaciones de códigos adyacentes. Esto se consigue siguiendo una regla sencilla: los códigos más cortos no son el comienzo de otros más largos. En este caso, el flujo continuo de bits se decodifica de forma única porque el decodificador detecta primero las palabras de código más cortas. Los códigos eficientes han sido durante mucho tiempo puramente académicos, pero recientemente se han utilizado con éxito en la creación de bases de datos, así como en la compresión de información en módems y archivadores de software modernos.

Debido a la desigualdad, se introduce la longitud promedio del código. Longitud promedio: expectativa matemática de la longitud del código:

además, l av tiende a H(x) desde arriba (es decir, l av > H(x)).

El cumplimiento de la condición (2.23) se hace más fuerte a medida que N aumenta.

Hay dos tipos de códigos eficientes: Shannon-Fano y Huffman. Veamos cómo obtenerlos usando un ejemplo. Supongamos que las probabilidades de los símbolos de la secuencia tienen los valores dados en la Tabla 2.1.

Tabla 2.1.

Probabilidades de símbolos

norte
Pi 0.1 0.2 0.1 0.3 0.05 0.15 0.03 0.02 0.05

Los símbolos están clasificados, es decir, presentados en una fila en orden descendente de probabilidades. Después de esto, utilizando el método de Shannon-Fano, se repite periódicamente el siguiente procedimiento: todo el grupo de eventos se divide en dos subgrupos con las mismas (o aproximadamente iguales) probabilidades totales. El procedimiento continúa hasta que un elemento permanece en el siguiente subgrupo, después de lo cual este elemento es eliminado y las acciones especificadas continúan con los restantes. Esto sucede hasta que solo queda un elemento en los dos últimos subgrupos. Sigamos con nuestro ejemplo, que se resume en la Tabla 2.2.

Tabla 2.2.

Codificación Shannon-Fano

norte Pi
4 0.3 I
0.2 I II
6 0.15 I I
0.1 II
1 0.1 I I
9 0.05 II II
5 0.05 II I
7 0.03 II II I
8 0.02 II

Como se puede observar en la Tabla 2.2, el primer símbolo con probabilidad p 4 = 0,3 participó en dos procedimientos de división en grupos y ambas veces terminó en el grupo número I. De acuerdo con esto, está codificado con un código II de dos dígitos. El segundo elemento en la primera etapa de la partición pertenecía al grupo I, en la segunda al grupo II. Por tanto, su código es 10. Los códigos del resto de símbolos no necesitan comentarios adicionales.

Normalmente, los códigos no uniformes se representan como árboles de códigos. Un árbol de códigos es un gráfico que indica las combinaciones de códigos permitidas. Las direcciones de los bordes de este gráfico están preestablecidas, como se muestra en la Fig. 2.11 (la elección de las direcciones es arbitraria).

Navegan por el gráfico de la siguiente manera: crean una ruta para el símbolo seleccionado; el número de bits es igual al número de bordes en la ruta, y el valor de cada bit es igual a la dirección del borde correspondiente. La ruta se traza desde el punto de partida (en el dibujo está marcado con la letra A). Por ejemplo, la ruta al vértice 5 consta de cinco aristas, todas menos la última tienen dirección 0; obtenemos el código 00001.

Calculemos la entropía y la longitud promedio de las palabras para este ejemplo.

H(x) = -(0,3 log 0,3 + 0,2 log 0,2 + 2 0,1 log 0,1+ 2 0,05 log 0,05+

0,03 log 0,03 + 0,02 log 0,02) = 2,23 bits

l promedio = 0,3 2 + 0,2 2 + 0,15 3 + 0,1 3 + 0,1 4 + 0,05 5 +0,05 4+

0.03 6 + 0.02 6 = 2.9 .

Como puede ver, la longitud promedio de las palabras se acerca a la entropía.

Los códigos de Huffman se construyen utilizando un algoritmo diferente. El procedimiento de codificación consta de dos etapas. En la primera etapa, las compresiones individuales del alfabeto se llevan a cabo de forma secuencial. Compresión única: reemplazar los dos últimos símbolos (con las probabilidades más bajas) por uno, con probabilidad total. Las compresiones se realizan hasta que queden dos caracteres. Al mismo tiempo, se completa una tabla de codificación, en la que se ingresan las probabilidades resultantes y se representan las rutas por las que se mueven los nuevos símbolos en la siguiente etapa.

En la segunda etapa, se produce la codificación propiamente dicha, que comienza desde la última etapa: al primero de los dos símbolos se le asigna el código 1, al segundo, 0. Después de esto, se pasa a la etapa anterior. Los códigos de la etapa siguiente se asignan a los símbolos que no participaron en la compresión en esta etapa, y el código del símbolo obtenido después del pegado se asigna dos veces a los dos últimos símbolos y se suma al código del carácter superior 1, el el inferior es 0. Si el personaje no participa más en el pegado, su código permanece sin cambios. El procedimiento continúa hasta el final (es decir, hasta la primera etapa).

La tabla 2.3 muestra la codificación de Huffman. Como puede verse en la tabla, la codificación se realizó en 7 etapas. A la izquierda están las probabilidades de símbolos, a la derecha están los códigos intermedios. Las flechas muestran los movimientos de los símbolos recién formados. En cada etapa, los dos últimos símbolos difieren sólo en el bit menos significativo, que corresponde a la técnica de codificación. Calculemos la longitud promedio de las palabras:

l promedio = 0,3 2 + 0,2 2 + 0,15 3 ++ 2 0,1 3 + +0,05 4 + 0,05 5 + 0,03 6 + 0,02 6 = 2,7

Esto está aún más cerca de la entropía: el código es aún más eficiente. En la Fig. La figura 2.12 muestra el árbol de código de Huffman.

Tabla 2.3.

Codificación Huffman

norte Pi código I II III IV V VI VII
0.3 0.3 11 0.3 11 0.3 11 0.3 11 0.3 11 0.4 0 0.6 1
0.2 0.2 01 0.2 01 0.2 01 0.2 01 0.3 10 0.3 11 0.4 0
0.15 0.15 101 0.15 101 0.15 101 0.2 00 0.2 01 0.3 10
0.1 0.1 001 0.1 001 0.15 100 0.15 101 0.2 00
0.1 0.1 000 0.1 000 0.1 001 0.15 100
0.05 0.05 1000 0.1 1001 0.1 000
0.05 0.05 10011 0.05 1000
0.03 0.05 10010
0.02

Ambos códigos satisfacen el requisito de una decodificación inequívoca: como puede verse en las tablas, las combinaciones más cortas no son el comienzo de códigos más largos.

A medida que aumenta el número de símbolos, aumenta la eficiencia de los códigos, por lo que en algunos casos se codifican bloques más grandes (por ejemplo, si estamos hablando acerca de sobre textos, puede codificar algunas de las sílabas, palabras e incluso frases que aparecen con más frecuencia).

El efecto de introducir dichos códigos se determina comparándolos con un código uniforme:

(2.24)

donde n es el número de bits del código uniforme que se reemplaza por el efectivo.

Modificaciones de los códigos Huffman

El algoritmo clásico de Huffman es un algoritmo de dos pasos, es decir requiere primero recopilar estadísticas sobre símbolos y mensajes, y luego los procedimientos descritos anteriormente. Esto es inconveniente en la práctica porque aumenta el tiempo que lleva procesar mensajes y acumular un diccionario. Más a menudo se utilizan métodos de un solo paso, en los que se combinan procedimientos de acumulación y codificación. Estos métodos también se denominan compresión adaptativa según Huffman [46].

La esencia de la compresión adaptativa según Huffman se reduce a la construcción de un árbol de código inicial y su modificación secuencial después de la llegada de cada símbolo siguiente. Como antes, los árboles aquí son binarios, es decir. Como máximo dos arcos emanan de cada vértice del gráfico de árbol. Es costumbre llamar padre al vértice original y hijos a los dos vértices posteriores conectados a él. Introduzcamos el concepto de peso de vértice: este es el número de caracteres (palabras) correspondientes a un vértice determinado, obtenido al alimentar la secuencia original. Obviamente, la suma de los pesos de los niños es igual al peso de los padres.

Después de introducir el siguiente símbolo de la secuencia de entrada, se revisa el árbol de código: se recalculan los pesos de los vértices y, si es necesario, se reorganizan los vértices. La regla para permutar los vértices es la siguiente: los pesos de los vértices inferiores son los más pequeños y los vértices ubicados a la izquierda del gráfico tienen los pesos más bajos.

En este caso, los vértices están numerados. La numeración comienza desde los vértices inferiores (colgantes, es decir, que no tienen hijos) de izquierda a derecha, luego se mueve a nivel superior etc. antes de numerar el último vértice original. En este caso se consigue el siguiente resultado: cuanto menor es el peso de un vértice, menor es su número.

La permutación se realiza principalmente para los vértices colgantes. A la hora de permutar se debe tener en cuenta la regla formulada anteriormente: los vértices con mayor peso tienen un número mayor.

Después de pasar la secuencia (también llamada control o prueba), a todos los vértices colgantes se les asignan combinaciones de códigos. La regla para asignar códigos es similar a la anterior: el número de bits del código es igual al número de vértices a través de los cuales pasa la ruta desde la fuente hasta el vértice colgante dado, y el valor de un bit en particular corresponde a la dirección del padre al "hijo" (digamos, ir a la izquierda del padre corresponde al valor 1, a la derecha - 0).

Las combinaciones de códigos resultantes se almacenan en la memoria del dispositivo de compresión junto con sus análogos y forman un diccionario. El uso del algoritmo es el siguiente. La secuencia comprimida de caracteres se divide en fragmentos de acuerdo con el diccionario existente, después de lo cual cada uno de los fragmentos se reemplaza con su código del diccionario. Los fragmentos que no se encuentran en el diccionario forman nuevos vértices colgantes, adquieren peso y también se ingresan en el diccionario. De esta forma se forma un algoritmo adaptativo para reponer el diccionario.

Para aumentar la eficacia del método, es deseable aumentar el tamaño del diccionario; en este caso la relación de compresión aumenta. En la práctica, el tamaño del diccionario es de 4 a 16 KB de memoria.


Ilustremos el algoritmo dado con un ejemplo. En la Fig. La Figura 2.13 muestra el diagrama original (también llamado árbol de Huffman). Cada vértice del árbol se muestra mediante un rectángulo en el que se inscriben dos números a través de una fracción: el primero significa el número del vértice, el segundo significa su peso. Como puede ver, se cumple la correspondencia entre los pesos de los vértices y sus números.

Supongamos ahora que el símbolo correspondiente al vértice 1 aparece por segunda vez en la secuencia de prueba. El peso del vértice ha cambiado como se muestra en la Fig. 2.14, por lo que se viola la regla de numeración de vértices. En la siguiente etapa, cambiamos la ubicación de los vértices colgantes, para lo cual intercambiamos los vértices 1 y 4 y renumeramos todos los vértices del árbol. El gráfico resultante se muestra en la Fig. 2.15. Luego el procedimiento continúa del mismo modo.

Cabe recordar que cada vértice colgante del árbol de Huffman corresponde a un símbolo o grupo de símbolos específico. El padre se diferencia de los hijos en que el grupo de símbolos que le corresponde es un símbolo más corto que el de sus hijos, y estos hijos son diferentes. último personaje. Por ejemplo, los símbolos "coche" corresponden al padre; entonces los niños pueden tener las secuencias "kara" y "karp".

El algoritmo dado no es académico y se utiliza activamente en programas de archivo, incluso al comprimir datos gráficos (se analizarán más adelante).

Algoritmos de Lempel-Ziv

Estos son los algoritmos de compresión más utilizados en la actualidad. Se utilizan en la mayoría de los programas de archivo (por ejemplo, PKZIP. ARJ, LHA). La esencia de los algoritmos es que un determinado conjunto de símbolos se reemplaza durante el archivo por su número en un diccionario especialmente generado. Por ejemplo, la frase “El número de salida de su carta...”, que se encuentra a menudo en la correspondencia comercial, puede ocupar la posición 121 en el diccionario; luego, en lugar de transmitir o almacenar la frase mencionada (30 bytes), puede almacenar el número de frase (1,5 bytes en forma binaria decimal o 1 byte en binario).

Los algoritmos llevan el nombre de los autores que los propusieron por primera vez en 1977. De ellos, el primero es el LZ77. Para el archivado se crea la llamada ventana deslizante de mensajes, que consta de dos partes. La primera parte, de mayor formato, sirve para formar un diccionario y tiene un tamaño de unos varios kilobytes. La segunda parte, más pequeña (normalmente de hasta 100 bytes de tamaño) recibe los caracteres actuales del texto que se está viendo. El algoritmo intenta encontrar un conjunto de caracteres en el diccionario que coincida con los recibidos en la ventana de visualización. Si esto tiene éxito, se genera un código que consta de tres partes: el desplazamiento en el diccionario con respecto a su subcadena inicial, la longitud de esta subcadena y el carácter que sigue a esta subcadena. Por ejemplo, la subcadena seleccionada consta de los caracteres "app" (6 caracteres en total), el siguiente carácter es "e". Entonces, si la subcadena tiene una dirección (lugar en el diccionario) 45, entonces la entrada en el diccionario se verá como "45, 6. e". Después de esto, el contenido de la ventana se desplaza según la posición y la búsqueda continúa. Así se forma un diccionario.

La ventaja del algoritmo es un algoritmo fácilmente formalizado para compilar un diccionario. Además, es posible descomprimir sin el diccionario original (es recomendable tener una secuencia de prueba): el diccionario se forma durante la descompresión.

Las desventajas del algoritmo aparecen a medida que aumenta el tamaño del diccionario: aumenta el tiempo de búsqueda. Además, si aparece una cadena de caracteres en la ventana actual que no está en el diccionario, cada carácter se escribe con un código de tres elementos, es decir El resultado no es compresión, sino estiramiento.

El algoritmo LZSS, propuesto en 1978, tiene las mejores características. Tiene diferencias en el soporte de ventanas corredizas y códigos de salida del compresor. Además de la ventana, el algoritmo genera un árbol binario similar al árbol de Huffman para acelerar la búsqueda de coincidencias: cada subcadena que sale de la ventana actual se agrega al árbol como uno de los hijos. Este algoritmo le permite aumentar aún más el tamaño de la ventana actual (es deseable que su tamaño sea igual a una potencia de dos: 128, 256, etc. bytes). Los códigos de secuencia también se forman de manera diferente: se introduce un prefijo adicional de 1 bit para distinguir los caracteres no codificados de los pares de "desplazamiento y longitud".

Se obtiene un grado de compresión aún mayor cuando se utilizan algoritmos como LZW. Los algoritmos descritos anteriormente tienen un tamaño de ventana fijo, lo que hace imposible ingresar frases más largas que el tamaño de la ventana en el diccionario. En los algoritmos LZW (y su predecesor LZ78), la ventana de visualización tiene un tamaño ilimitado y el diccionario acumula frases (y no una colección de caracteres, como antes). El diccionario tiene una longitud ilimitada y el codificador (decodificador) funciona en modo de espera de frase. Cuando se forma una frase que coincide con el diccionario, se emite un código de coincidencia (es decir, el código de esta frase en el diccionario) y el código del carácter que le sigue. Si a medida que se acumulan los símbolos se forma una nueva frase, también se introduce en el diccionario, como la más corta. El resultado es un procedimiento recursivo que proporciona codificación y decodificación rápidas.

Una función de compresión adicional la proporciona la codificación comprimida de caracteres repetidos. Si en una secuencia algunos caracteres siguen en una fila (por ejemplo, en el texto pueden ser caracteres de "espacio", en una secuencia numérica, ceros consecutivos, etc.), entonces tiene sentido reemplazarlos con el par "carácter; longitud” o “signo, longitud” ". En el primer caso, el código indica el signo con el que se codificará la secuencia (normalmente 1 bit), luego el código del carácter repetido y la longitud de la secuencia. En el segundo caso (previsto para los caracteres que se repiten con mayor frecuencia), el prefijo simplemente indica un signo de repetición.

Compresión dinámica(Compresión de rango dinámico, DRC): estrechamiento (o expansión en el caso de un expansor) del rango dinámico del fonograma. Gama dinámica, es la diferencia entre el sonido más bajo y el más fuerte. A veces, el sonido más bajo de una banda sonora será un poco más fuerte que el nivel de ruido y, a veces, un poco más bajo que el más fuerte. Los dispositivos de hardware y programas que realizan compresión dinámica se denominan compresores, distinguiéndose entre ellos cuatro grupos principales: compresores propiamente dichos, limitadores, expansores y compuertas.

Compresor analógico de válvulas DBX 566

Compresión hacia abajo y hacia arriba

compresión descendente(Compresión hacia abajo) reduce el volumen de un sonido cuando comienza a exceder un cierto umbral, dejando sin cambios los sonidos más bajos. Una versión extrema de la compresión hacia abajo es limitador. Aumentar la compresión La compresión ascendente, por otro lado, aumenta el volumen de un sonido si está por debajo de un umbral sin afectar los sonidos más fuertes. Al mismo tiempo, ambos tipos de compresión reducen el rango dinámico de la señal de audio.

compresión descendente

Aumentar la compresión

Expansor y puerta

Si un compresor reduce el rango dinámico, un expansor lo aumenta. Cuando el nivel de la señal supera el nivel umbral, el expansor lo aumenta aún más, aumentando así la diferencia entre sonidos fuertes y suaves. Dispositivos como este se utilizan a menudo al grabar una batería para separar los sonidos de una batería de otra.

Un tipo de expansor que no se utiliza para amplificar sonidos fuertes, sino para atenuar sonidos suaves que no exceden un nivel umbral (por ejemplo, ruido de fondo) se llama Puerta de ruido. En un dispositivo de este tipo, tan pronto como el nivel de sonido es inferior al umbral, la señal deja de pasar. Normalmente se utiliza una puerta para suprimir el ruido durante las pausas. En algunos modelos, puede hacer que el sonido, cuando alcance un nivel umbral, no se detenga abruptamente, sino que se atenúe gradualmente. En este caso, la tasa de caída la establece el control Decay.

La compuerta, al igual que otros tipos de compresores, puede ser dependiente de la frecuencia(es decir, tratar ciertos bandas de frecuencia) y puede funcionar en el modo cadena lateral(vea abajo).

Principio de funcionamiento del compresor

La señal que ingresa al compresor se divide en dos copias. Una copia se envía a un amplificador, en el que el grado de amplificación está controlado por una señal externa, y la segunda copia genera esta señal. Ingresa a un dispositivo llamado side-chain, donde se mide la señal y, en base a estos datos, se crea una envolvente que describe el cambio en su volumen.
Así es como están diseñados la mayoría de los compresores modernos, el llamado tipo feed-forward. En dispositivos más antiguos (tipo retroalimentación), el nivel de la señal se mide después del amplificador.

Existen varias tecnologías de amplificación analógica de ganancia variable, cada una con sus propias ventajas y desventajas: válvulas, ópticas que utilizan fotorresistores y transistores. Cuando trabaje con audio digital (en editor de sonido o DAW) pueden utilizar algoritmos matemáticos propietarios o emular el funcionamiento de tecnologías analógicas.

Parámetros principales de los compresores.

Límite

Un compresor reduce el nivel de una señal de audio si su amplitud excede un cierto valor umbral (umbral). Generalmente se especifica en decibelios, con un umbral más bajo (por ejemplo, -60 dB), lo que significa que se procesará más audio que un umbral más alto (por ejemplo, -5 dB).

Relación

La cantidad de reducción de nivel está determinada por el parámetro de relación: la relación 4:1 significa que si el nivel de entrada está 4 dB por encima del umbral, el nivel de salida estará 1 dB por encima del umbral.
Por ejemplo:
Umbral = −10 dB
Entrada = −6 dB (4 dB por encima del umbral)
Salida = −9 dB (1 dB por encima del umbral)

Es importante tener en cuenta que la supresión del nivel de la señal continúa durante algún tiempo después de caer por debajo del nivel umbral, y este tiempo está determinado por el valor del parámetro. liberar.

La compresión con una relación máxima de ∞:1 se llama limitante. Esto significa que cualquier señal por encima del nivel de umbral se atenúa hasta el nivel de umbral (excepto durante un breve período después de un aumento repentino en el volumen de entrada). Consulte "Limitador" a continuación para obtener más detalles.

Ejemplos de diferentes valores de Ratio

Ataque y liberación

Un compresor proporciona cierto control sobre la rapidez con la que responde a los cambios en la dinámica de la señal. El parámetro Attack determina el tiempo que tarda el compresor en reducir la ganancia a un nivel determinado por el parámetro Ratio. Release determina el tiempo durante el cual el compresor, por el contrario, aumenta la ganancia o vuelve a la normalidad si el nivel de la señal de entrada cae por debajo del valor umbral.

Fases de ataque y liberación.

Estos parámetros indican el tiempo (normalmente en milisegundos) que llevará cambiar la ganancia en una determinada cantidad de decibelios, normalmente 10 dB. Por ejemplo, en este caso, si Attack se establece en 1 ms, se necesitará 1 ms para reducir la ganancia en 10 dB y 2 ms para reducir la ganancia en 20 dB.

En muchos compresores los parámetros Attack y Release se pueden ajustar, pero en algunos están preestablecidos y no se pueden ajustar. A veces se los designa como "automáticos" o "dependientes del programa", es decir. cambia dependiendo de la señal de entrada.

Rodilla

Otro parámetro del compresor: rodilla dura/blanda. Determina si el inicio de la compresión será abrupto (duro) o gradual (suave). Soft Knee reduce la perceptibilidad de la transición de la señal seca a la señal comprimida, especialmente en valores altos de Ratio y aumentos repentinos de volumen.

Compresión de rodilla dura y rodilla suave

Pico y RMS

El compresor puede responder a valores pico (máximo a corto plazo) o al nivel medio de la señal de entrada. El uso de valores máximos puede provocar fluctuaciones bruscas en el grado de compresión e incluso distorsión. Por lo tanto, los compresores aplican una función promedio (generalmente RMS) a la señal de entrada cuando la comparan con un valor umbral. Esto proporciona una compresión más cómoda, más cercana a la percepción humana del volumen.

RMS es un parámetro que refleja el volumen promedio de una banda sonora. Desde un punto de vista matemático, RMS (Root Mean Square) es el valor cuadrático medio de la amplitud de un cierto número de muestras:

Enlace estéreo

Un compresor en modo de enlace estéreo aplica la misma ganancia a ambos canales estéreo. Esto evita cambios estéreo que pueden resultar del procesamiento individual de los canales izquierdo y derecho. Este cambio se produce si, por ejemplo, un elemento ruidoso se desplaza descentrado.

Ganancia de maquillaje

Dado que el compresor reduce el nivel general de la señal, generalmente agrega una opción de ganancia de salida fija para lograr el nivel óptimo.

Mirar hacia el futuro

La función de anticipación está diseñada para resolver problemas asociados con valores de ataque y liberación demasiado altos o demasiado bajos. Un tiempo de ataque demasiado largo no nos permite interceptar transitorios de manera efectiva, y un tiempo de ataque demasiado corto puede no resultar cómodo para el oyente. Cuando se utiliza la función de anticipación, la señal principal se retrasa en relación con la señal de control, esto le permite iniciar la compresión por adelantado, incluso antes de que la señal alcance el valor umbral.
La única desventaja de este método es el retardo de la señal, que en algunos casos no es deseable.

Usando compresión dinámica

La compresión se utiliza en todas partes, no sólo en bandas sonoras musicales, sino también en aquellos lugares donde es necesario aumentar el volumen general sin aumentar los niveles máximos, donde se utilizan equipos de reproducción de sonido económicos o un canal de transmisión limitado (sistemas de megafonía y comunicación, radioaficionados, etc.) .

La compresión se aplica durante la reproducción. música de fondo(en tiendas, restaurantes, etc.) donde no se desean cambios notables en el volumen.

Pero el área de aplicación más importante de la compresión dinámica es la producción y transmisión de música. La compresión se utiliza para darle al sonido "espesor" y "impulso", para combinar mejor los instrumentos entre sí, y especialmente al procesar voces.

Las voces en la música rock y pop a menudo se comprimen para que se destaquen del acompañamiento y agreguen claridad. Para suprimir los fonemas sibilantes se utiliza un tipo especial de compresor sintonizado sólo a determinadas frecuencias, un de-esser.

En las partes instrumentales, la compresión también se utiliza para efectos que no están directamente relacionados con el volumen; por ejemplo, los sonidos de batería que decaen rápidamente se pueden hacer más duraderos.

La música electrónica de baile (EDM) a menudo utiliza encadenamiento lateral (ver más abajo); por ejemplo, la línea de bajo puede ser impulsada por un bombo o similar para evitar que el bajo y la batería choquen y crear una pulsación dinámica.

La compresión se usa ampliamente en transmisiones (radio, televisión, transmisiones por Internet) para aumentar el volumen percibido y al mismo tiempo reducir el rango dinámico del audio fuente (generalmente CD). La mayoría de los países tienen restricciones legales sobre el volumen instantáneo máximo que se puede transmitir. Normalmente, estas limitaciones se implementan mediante compresores de hardware permanentes en la cadena de aire. Además, aumentar el volumen percibido mejora la "calidad" del sonido desde la perspectiva de la mayoría de los oyentes.

ver también Guerra de sonoridad.

Aumentando constantemente el volumen de la misma canción remasterizada para CD desde 1983 hasta 2000.

encadenamiento lateral

Otro interruptor de compresor que se encuentra comúnmente es la "cadena lateral". En este modo, la compresión del sonido se produce independientemente de su propio nivel, y dependiendo del nivel de la señal que ingresa al conector, que generalmente se denomina cadena lateral.

Hay varios usos para esto. Por ejemplo, el vocalista cecea y todas las “s” se destacan del panorama general. Pasas su voz a través de un compresor y alimentas el mismo sonido al conector de cadena lateral, pero a través de un ecualizador. Con un ecualizador, se recortan todas las frecuencias excepto las que utiliza el vocalista al pronunciar la letra “s”. Normalmente alrededor de 5 kHz, pero puede oscilar entre 3 kHz y 8 kHz. Si luego pones el compresor en modo de cadena lateral, la voz se comprimirá en esos momentos en los que se pronuncia la letra “s”. Esto dio como resultado un dispositivo conocido como de-esser. Esta forma de trabajar se denomina “dependiente de la frecuencia”.

Otro uso de esta función se llama "ducker". Por ejemplo, en una estación de radio, la música pasa por un compresor y las palabras del DJ pasan por una cadena lateral. Cuando el DJ comienza a charlar, el volumen de la música disminuye automáticamente. Este efecto también se puede utilizar con éxito en la grabación, por ejemplo, para reducir el volumen de las partes del teclado mientras se canta.

Limitación de la pared de ladrillo

El compresor y el limitador funcionan aproximadamente de la misma manera; podemos decir que el limitador es un compresor con un Ratio alto (a partir de 10:1) y, normalmente, un tiempo de ataque bajo.

Existe el concepto de limitación de pared de ladrillo: limitación con una relación muy alta (20:1 y superior) y un ataque muy rápido. Idealmente, no permite que la señal supere en absoluto el nivel de umbral. El resultado será desagradable para el oído, pero evitará daños en los equipos reproductores de sonido o exceso banda ancha canal. Muchos fabricantes integran limitadores en sus dispositivos precisamente para este fin.

Clíper vs. Limitador, recorte suave y duro.

La compresión es uno de los temas más mitológicos en la producción de sonido. Dicen que Beethoven hasta asustó con ella a los hijos de la vecina :(

Bueno, de hecho, usar la compresión no es más difícil que usar la distorsión, lo principal es comprender el principio de su funcionamiento y tener un buen control. Esto es lo que veremos juntos ahora.

¿Qué es la compresión de audio?

Lo primero que hay que entender antes de la preparación es la compresión. trabajar con el rango dinámico del sonido. Y, a su vez, no es más que la diferencia entre los niveles de señal más alto y más bajo:

Entonces, La compresión es la compresión del rango dinámico.. Sí, Justo compresión de rango dinámico, o en otras palabras bajar el nivel de las partes altas de la señal y aumentar el volumen de las partes silenciosas. No más.

Entonces, es bastante razonable preguntarse por qué se relaciona tanta exageración. ¿Por qué todo el mundo habla de recetas para configurar correctamente el compresor, pero nadie las comparte? ¿Por qué, a pesar de la gran cantidad de complementos interesantes, muchos estudios todavía utilizan modelos de compresores raros y caros? ¿Por qué algunos fabricantes utilizan compresores en ajustes extremos, mientras que otros no los utilizan en absoluto? ¿Y cuál de ellos tiene razón al final?

Problemas resueltos por compresión.

Las respuestas a estas preguntas se encuentran en el plano de la comprensión del papel de la compresión en el trabajo con sonido. Y permite:

  1. Enfatizar el ataque sonido, haciéndolo más pronunciado;
  2. “Ajustar” partes individuales de instrumentos en la mezcla, añadiéndoles potencia y “peso”;
  3. Haga que grupos de instrumentos o una mezcla completa sean más cohesivos, un monolito tan único;
  4. Resolver conflictos entre herramientas. usando cadena lateral;
  5. Corregir los errores del vocalista o músicos., nivelando su dinámica;
  6. Con una determinada configuración actuar como un efecto artístico.

Como puede ver, este es un proceso creativo no menos importante que, digamos, idear melodías o crear timbres interesantes. Además, cualquiera de los problemas anteriores se puede resolver utilizando 4 parámetros principales.

Parámetros básicos del compresor.

A pesar de la gran cantidad de modelos de compresores de software y hardware, toda la "magia" de la compresión ocurre cuando configuración correcta parámetros principales: Umbral, Ratio, Ataque y Liberación. Veámoslos con más detalle:

Umbral o umbral de respuesta, dB

Este parámetro le permite establecer el valor a partir del cual funcionará el compresor (es decir, comprimirá la señal de audio). Así, si fijamos el umbral en -12dB, el compresor sólo funcionará en aquellas partes del rango dinámico que superen este valor. Si todo nuestro sonido es más bajo que -12db, el compresor simplemente lo hará pasar a través de sí mismo sin afectarlo de ninguna manera.

Relación o relación de compresión

El parámetro ratio determina cuánto se comprimirá una señal que exceda el umbral. Un poco de matemática para completar el cuadro: digamos que configuramos un compresor con un umbral de -12 dB, relación 2:1 y le alimentamos un loop de batería en el que el volumen del bombo es de -4 dB. ¿Cuál será el resultado del funcionamiento del compresor en este caso?

En nuestro caso, el nivel del bombo supera el umbral en 8 dB. Esta diferencia según el ratio se comprimirá a 4dB (8dB/2). Combinado con la parte no procesada de la señal, esto conducirá al hecho de que después del procesamiento con un compresor, el volumen del bombo será de -8 dB (umbral -12 dB + señal comprimida 4 dB).

Ataque, sra.

Este es el tiempo después del cual el compresor responderá al exceder el umbral de respuesta. Es decir, si el tiempo de ataque es superior a 0 ms... el compresor comienza a comprimir exceder la señal umbral no inmediatamente, sino después de un tiempo específico.

Liberación o recuperación, ms

Lo opuesto a un ataque: el valor de este parámetro le permite especificar cuánto tiempo después de que el nivel de la señal regrese por debajo del umbral. el compresor dejará de comprimir.

Antes de continuar, recomiendo encarecidamente tomar una muestra conocida, colocar cualquier compresor en su canal y experimentar con los parámetros anteriores durante 5 a 10 minutos para fijar de forma segura el material.

Todo Otros parámetros son opcionales.. Pueden diferir entre los diferentes modelos de compresores, razón por la cual los productores usan diferentes modelos para propósitos específicos (por ejemplo, un compresor para voces, otro para un grupo de batería, un tercero para el canal maestro). No me detendré en estos parámetros en detalle, solo daré información general Para entender de qué se trata todo esto:

  • Rodilla o torcedura (rodilla dura/blanda). Este parámetro determina qué tan rápido se aplicará la relación de compresión (relación): fuerte a lo largo de una curva o suavemente. Observo que en el modo Soft Knee el compresor no funciona linealmente, sino que comienza a comprimir suavemente (en la medida de lo posible, cuando hablamos de milisegundos) el sonido. ya antes del valor umbral. Para procesar grupos de canales y la mezcla general, a menudo se usa soft Knee (ya que funciona imperceptiblemente), y para enfatizar el ataque y otras características de instrumentos individuales, se usa Hard Knee;
  • Modo de respuesta: Pico/RMS. El modo Peak se justifica cuando es necesario limitar estrictamente las ráfagas de amplitud, así como en señales con una forma compleja, cuya dinámica y legibilidad deben transmitirse por completo. El modo RMS es muy suave con el sonido, lo que le permite espesarlo mientras mantiene el ataque;
  • Previsión (mirar hacia adelante). Este es el tiempo durante el cual el compresor sabrá lo que le espera. Una especie de análisis preliminar de las señales entrantes;
  • Maquillaje o ganancia. Un parámetro que le permite compensar la disminución de volumen como resultado de la compresión.

Primero y mayoría consejo principal , lo que elimina todas las preguntas adicionales sobre la compresión: si a) comprende el principio de compresión, b) sabe firmemente cómo este o aquel parámetro afecta el sonido y c) logra probar varios en la práctica diferentes modelosya no necesitas ningún consejo.

Lo digo absolutamente en serio. Si leyó atentamente esta publicación, experimentó con el compresor estándar de su DAW y uno o dos complementos, pero aún no entendió en qué casos necesita establecer valores de ataque grandes, qué proporción usar y en qué modo procesar el señal fuente: luego continuará buscando en Internet recetas preparadas y aplicándolas sin pensar en cualquier lugar.

Recetas de ajuste fino del compresor Es algo así como recetas para afinar una reverberación o un coro: no tiene sentido y no tiene nada que ver con la creatividad. Por eso, repito persistentemente la única receta correcta: ármate con este artículo, unos buenos auriculares de monitorización, un complemento para el control visual de la forma de onda y pasa la noche en compañía de un par de compresores.

¡Tomar acción!

, Reproductores multimedia

Era mucho menos probable que los discos, especialmente los más antiguos que fueron grabados y producidos antes de 1982, se mezclaran para hacer la grabación más fuerte. Reproducen música natural con un rango dinámico natural que se conserva en el disco y se pierde en la mayoría de los formatos digitales o de alta definición estándar.

Por supuesto, hay excepciones a esto: escuche el reciente álbum de Steven Wilson de MA Recordings o Reference Recordings y descubrirá lo bueno que puede ser el audio digital. Pero esto es raro; la mayoría de las grabaciones de sonido modernas son ruidosas y comprimidas.

La compresión de música ha sido objeto de muchas críticas últimamente, pero apuesto a que casi todas tus grabaciones favoritas están comprimidas. Algunos de ellos son menos, otros son más, pero aún así están comprimidos. La compresión del rango dinámico es un chivo expiatorio para la música que suena mal, pero la música muy comprimida no es nada nuevo: escuche los álbumes de Motown de los años 60. Lo mismo puede decirse de los trabajos clásicos de Led Zeppelin o los álbumes más jóvenes de Wilco y Radiohead. La compresión del rango dinámico reduce la relación natural entre los sonidos más fuertes y más suaves de una grabación, por lo que un susurro puede ser tan fuerte como un grito. Es bastante difícil encontrar música pop de los últimos 50 años que no haya sido comprimida.

Recientemente tuve una agradable charla con el fundador y editor de la revista Tape Op, Larry Crane, sobre los aspectos buenos, malos y feos de la compresión. Larry Crane ha trabajado con bandas y artistas como Stefan Marcus, Cat Power, Sleater-Kinney, Jenny Lewis, M. Ward, The Go-Betweens, Jason Little, Eliot Smith, Quasi y Richmond Fontaine. ¡También dirige el estudio de grabación Jackpot! en Portland, Oregon, que fue el hogar de The Breeders, The Decemberists, Eddie Vedder, Pavement, R.E.M., She & Him y muchos, muchos otros.

Como ejemplo de canciones que suenan sorprendentemente antinaturales pero aún así son geniales, cito el álbum de Spoon de 2014 They Want My Soul. Crane se ríe y dice que lo escucha en el auto porque allí suena genial. Lo que nos lleva a otra respuesta a la pregunta de por qué se comprime la música: porque la compresión y la “claridad” adicional hacen que sea más fácil escucharla en lugares ruidosos.

Larry Crane en el trabajo. Foto de Jason Quigley

Cuando la gente dice que le gusta el sonido de una grabación de audio, creo que le gusta la música, como si sonido y música fueran términos inseparables. Pero por mi parte, diferencio estos conceptos. Desde la perspectiva de un audiófilo, el sonido puede ser áspero y crudo, pero eso no le importará a la mayoría de los oyentes.

Muchos se apresuran a acusar a los ingenieros de masterización de abusar de la compresión, pero la compresión se aplica directamente durante la grabación, durante la mezcla y sólo entonces durante la masterización. A menos que haya estado presente personalmente en cada una de estas etapas, no podrá decir cómo sonaban los instrumentos y las partes vocales al comienzo del proceso.

Crane estaba en racha: “Si un músico quiere sonar intencionalmente loco y distorsionado como los discos de Guided by Voices, entonces no hay nada de malo en eso: el deseo siempre supera la calidad del sonido”. La voz del intérprete casi siempre está comprimida, y lo mismo ocurre con el bajo, la batería, las guitarras y los sintetizadores. La compresión mantiene el volumen de las voces en el nivel correcto a lo largo de la canción o destaca un poco del resto de sonidos.

Una compresión realizada correctamente puede hacer que la batería suene más vivaz o intencionalmente extraña. Para que la música suene bien, es necesario poder utilizar las herramientas necesarias. Por eso se necesitan años para descubrir cómo utilizar la compresión sin exagerar. Si el ingeniero de mezcla comprime demasiado la parte de guitarra, el ingeniero de masterización ya no podrá restaurar completamente las frecuencias faltantes.

Si los músicos quisieran que escucharas música que no hubiera pasado por las etapas de mezcla y masterización, la lanzarían a las tiendas directamente desde el estudio. Crane dice que las personas que crean, editan, mezclan y masterizan la música grabada no están ahí para interponerse en el camino de los músicos: han estado ayudando a los artistas desde el principio, durante más de cien años.

Estas personas son parte del proceso de creación que da como resultado asombrosas obras de arte. Crane añade: "No quieres una versión de 'Dark Side of the Moon' que no haya sido mezclada y masterizada". Pink Floyd lanzó la canción como querían escucharla.




Arriba