Convertir el sonido en una corriente de números. Síntesis y reconocimiento de voz. Soluciones modernas. Equipos de audio para computadora. Convertir audio en un flujo de números Rango dinámico comprimido o estándar

La segunda parte de la serie está dedicada a funciones para optimizar el rango dinámico de imágenes. En él le diremos por qué se necesitan tales soluciones, consideraremos varias opciones para su implementación, así como sus ventajas y desventajas.

Abrazar la inmensidad

Idealmente, una cámara debería capturar una imagen del mundo circundante tal como lo percibe una persona. Sin embargo, debido al hecho de que los mecanismos de "visión" de una cámara y del ojo humano son significativamente diferentes, existen una serie de restricciones que no permiten que se cumpla esta condición.

Uno de los problemas que antes enfrentaban los usuarios de cámaras de película y que ahora enfrentan los propietarios de cámaras digitales es la incapacidad de capturar adecuadamente escenas con grandes diferencias de iluminación sin el uso de dispositivos especiales y/o técnicas de filmación especiales. Las peculiaridades del sistema visual humano permiten percibir igualmente bien los detalles de escenas de alto contraste tanto en zonas muy iluminadas como en zonas oscuras. Desafortunadamente, el sensor de la cámara no siempre es capaz de capturar una imagen tal como la vemos.

Cuanto mayor sea la diferencia de brillo en la escena fotografiada, mayor será la probabilidad de pérdida de detalles en las luces y/o sombras. Como resultado, en lugar de un cielo azul con nubes exuberantes, la imagen resulta ser solo una mancha blanquecina, y los objetos ubicados en las sombras se convierten en siluetas oscuras confusas o se fusionan por completo con el entorno circundante.

En la fotografía clásica, el concepto de latitud fotográfica(Consulte la barra lateral para obtener más detalles). Teóricamente, la latitud fotográfica de las cámaras digitales está determinada por la profundidad de bits del convertidor analógico a digital (ADC). Por ejemplo, cuando se utiliza un ADC de 8 bits, teniendo en cuenta el error de cuantificación, el valor teóricamente alcanzable de latitud fotográfica será 7 EV, para un ADC de 12 bits - 11 EV, etc. Sin embargo, en dispositivos reales el rango dinámico de las imágenes resulta ser en el mismo máximo teórico debido a la influencia de varios tipos de ruido y otros factores.

Una gran diferencia en los niveles de brillo representa un grave
Problema al tomar fotografías. En este caso, las capacidades de la cámara.
resultó ser insuficiente para una adecuada transmisión de las enfermedades más
áreas claras de la escena y, como resultado, en lugar de un área azul
cielo (marcado con un trazo) resulta ser una “parche” blanca

El valor máximo de brillo que puede registrar un sensor fotosensible está determinado por el nivel de saturación de sus células. El valor mínimo depende de varios factores, incluida la cantidad de ruido térmico de la matriz, el ruido de transferencia de carga y el error del ADC.

También vale la pena señalar que la latitud fotográfica de una misma cámara digital puede variar según el valor de sensibilidad establecido en la configuración. El rango dinámico máximo se logra ajustando la llamada sensibilidad básica (correspondiente al valor numérico mínimo posible). A medida que aumenta el valor de este parámetro, el rango dinámico disminuye debido al aumento del nivel de ruido.

La amplitud fotográfica de los modelos modernos de cámaras digitales equipadas con sensores. talla grande y ADC de 14 o 16 bits, oscila entre 9 y 11 EV, lo que es significativamente mayor en comparación con características similares de películas negativas en color de 35 mm (promedio de 4 a 5 EV). Por lo tanto, incluso las cámaras digitales relativamente económicas tienen una latitud fotográfica suficiente para transmitir adecuadamente las escenas más típicas de disparos de aficionados.

Sin embargo, existe un problema de otro tipo. Está asociado a las limitaciones impuestas por los estándares existentes para la grabación de imágenes digitales. Utilizando el formato JPEG con 8 bits por canal de color (que ahora se ha convertido en el estándar de facto para grabar imágenes digitales en la industria informática y la tecnología digital), es incluso teóricamente imposible guardar una imagen con una latitud fotográfica superior a 8 EV.

Supongamos que el ADC de la cámara le permite obtener una imagen con una profundidad de bits de 12 o 14 bits, que contiene detalles discernibles tanto en las luces como en las sombras. Sin embargo, si la latitud fotográfica de esta imagen excede los 8 EV, entonces en el proceso de conversión a un formato estándar de 8 bits sin ninguna acción adicional (es decir, simplemente descartando bits "extra"), parte de la información registrada por el Se perderá el sensor fotosensible.

Gama dinámica y latitud fotográfica

En pocas palabras, el rango dinámico se define como la relación entre el valor máximo de brillo de una imagen y su valor mínimo. En la fotografía clásica se utiliza tradicionalmente el término latitud fotográfica, que en esencia significa lo mismo.

El ancho del rango dinámico se puede expresar como una relación (por ejemplo, 1000:1, 2500:1, etc.), pero la mayoría de las veces esto se hace en una escala logarítmica. En este caso, se calcula el valor del logaritmo decimal de la relación entre el brillo máximo y su valor mínimo, y después del número se escribe la letra mayúscula D (del inglés densidad? - densidad), o con menos frecuencia? - la abreviatura OD (¿Del inglés densidad óptica? - densidad óptica). Por ejemplo, si la relación entre el valor de brillo máximo y el valor mínimo de un dispositivo es 1000:1, entonces el rango dinámico será igual a 3,0 D:

Para medir la latitud fotográfica se utilizan tradicionalmente las llamadas unidades de exposición, abreviadas EV (valores de exposición; los profesionales suelen llamarlas “paradas” o “pasos”). Es en estas unidades donde el valor de compensación de la exposición generalmente se establece en la configuración de la cámara. Incrementar el valor de latitud fotográfica en 1 EV equivale a duplicar la diferencia entre los niveles de brillo máximo y mínimo. Así, la escala EV también es logarítmica, pero en este caso se utiliza el logaritmo de base 2 para calcular los valores numéricos. Por ejemplo, si un dispositivo es capaz de capturar imágenes con una relación de brillo máxima a mínima de 256:1, entonces su La latitud fotográfica será de 8 EV:

La compresión es un compromiso razonable

Mayoría manera efectiva Para preservar toda la información de la imagen grabada por el sensor sensible a la luz de la cámara, es posible grabar imágenes en formato RAW. Sin embargo, no todas las cámaras tienen esa función y no todos los fotógrafos aficionados están dispuestos a emprender el minucioso trabajo de selección. ajustes individuales por cada foto tomada.

Para reducir la probabilidad de perder detalles de imágenes de alto contraste convertidas dentro de la cámara a JPEG de 8 bits, se han introducido dispositivos de muchos fabricantes (no solo compactos, sino también SLR). funciones especiales, lo que le permite comprimir el rango dinámico de las imágenes guardadas sin la intervención del usuario. Al reducir el contraste general y perder una pequeña parte de la información de la imagen original, estas soluciones permiten conservar los detalles de las luces y las sombras captadas por el sensor fotosensible del dispositivo en formato JPEG de 8 bits, incluso si el rango dinámico de la imagen La imagen original resultó ser más ancha que 8 EV.

Una de las pioneras en el desarrollo de esta área fue la empresa HP. Lanzada en 2003, la cámara digital HP Photosmart 945 presentaba la primera tecnología HP Adaptive Lightling del mundo, que compensa automáticamente los niveles bajos de luz en las áreas oscuras de las fotografías y, por lo tanto, preserva los detalles de las sombras sin riesgo de sobreexposición (lo cual es muy importante cuando se toman fotografías a altas temperaturas). escenas de contraste). El algoritmo HP Adaptive Lightling se basa en los principios establecidos por el científico inglés Edwin Land en la teoría RETINEX de la percepción visual humana.

Menú de iluminación adaptable HP

¿Cómo funciona la iluminación adaptativa? Después de obtener una imagen de 12 bits de la imagen, se extrae de ella una imagen monocromática auxiliar, que en realidad es un mapa de irradiancia. Al procesar una imagen, esta tarjeta se utiliza como máscara, lo que le permite ajustar el grado de influencia de un filtro digital bastante complejo en la imagen. Así, en las zonas correspondientes a los puntos más oscuros del mapa, el impacto sobre la imagen de la imagen futura es mínimo, y viceversa. Este enfoque permite revelar los detalles de las sombras iluminando selectivamente estas áreas y, en consecuencia, reduciendo el contraste general de la imagen resultante.

Cabe señalar que cuando la iluminación adaptable está habilitada, la imagen capturada se procesa de la manera descrita anteriormente antes de que la imagen terminada se escriba en un archivo. Todas las operaciones descritas se realizan automáticamente y el usuario solo puede seleccionar uno de los dos modos de funcionamiento de Iluminación adaptable (baja o alta exposición) en el menú de la cámara o desactivar esta función.

En términos generales, muchas funciones específicas de las cámaras digitales modernas (incluidos los sistemas de reconocimiento facial analizados en el artículo anterior) son una especie de subproducto o producto de conversión del trabajo de investigación que se llevó a cabo originalmente para clientes militares. Cuando se trata de funciones de optimización del rango dinámico de imágenes, uno de los proveedores más conocidos de este tipo de soluciones es Apical. En particular, los algoritmos creados por sus empleados son la base del funcionamiento de la función SAT (Shadow Adjustment Technology), implementada en varios modelos de cámaras digitales Olympus. Brevemente, el funcionamiento de la función SAT se puede describir de la siguiente manera: basándose en la imagen original, se crea una máscara correspondiente a las áreas más oscuras y luego el valor de exposición se corrige automáticamente para estas áreas.

Sony también adquirió una licencia para utilizar los desarrollos de Apical. Muchos modelos de cámaras compactas de la serie Cyber-shot y de cámaras DSLR de la serie alfa implementan la función denominada Optimizador de rango dinámico (DRO).

Fotografías tomadas con la HP Photosmart R927 apagada (arriba)
y función de iluminación adaptativa activada

Cuando se activa DRO, la corrección de la imagen se realiza durante el procesamiento inicial de la imagen (es decir, antes de grabar el archivo JPEG terminado). En la versión básica, DRO tiene una configuración de dos etapas (puede seleccionar un modo de operación estándar o avanzado en el menú). Cuando selecciona el modo Estándar, los niveles de exposición se ajustan según el análisis de la imagen de la fotografía y luego se aplica una curva de tono a la imagen para igualar el equilibrio general. El modo avanzado utiliza un algoritmo más complejo que permite la corrección tanto en sombras como en luces.

Los desarrolladores de Sony trabajan constantemente para mejorar el algoritmo DRO. Por ejemplo, en la cámara SLR a700, cuando se activa el modo DRO avanzado, es posible seleccionar una de las cinco opciones de corrección. Además, es posible guardar tres versiones de una imagen a la vez (una especie de bracketing) con diferentes configuraciones de DRO.

Muchos modelos de cámaras digitales Nikon tienen una función D-Lighting, que también se basa en algoritmos de Apical. Es cierto que, a diferencia de las soluciones descritas anteriormente, D-Lighting se implementa como un filtro para procesar imágenes previamente guardadas utilizando una curva tonal, cuya forma le permite aclarar las sombras, manteniendo otras áreas de la imagen sin cambios. Pero como en este caso se procesan imágenes de 8 bits ya preparadas (y no la imagen del fotograma original, que tiene una mayor profundidad de bits y, en consecuencia, un rango dinámico más amplio), las capacidades de D-Lighting son muy limitadas. El usuario puede obtener el mismo resultado procesando la imagen en un editor gráfico.

Al comparar fragmentos ampliados, se ve claramente que las áreas oscuras de la imagen original (izquierda)
cuando se activó la función de iluminación adaptativa, se volvieron más claros

También hay una serie de soluciones basadas en otros principios. Así, muchas cámaras de la familia Lumix de Panasonic (en particular, DMC-FX35, DMC-TZ4, DMC-TZ5, DMC-FS20, DMC-FZ18, etc.) implementan la función de reconocimiento de luz (Exposición inteligente), que es una Parte integral del sistema iUn control de disparo automático inteligente. La función Exposición Inteligente se basa en el análisis automático de la imagen del encuadre y la corrección de las áreas oscuras de la imagen para evitar la pérdida de detalle en las sombras, así como (si es necesario) la compresión del rango dinámico de escenas de alto contraste.

En algunos casos, la función de optimización del rango dinámico implica no solo ciertas operaciones para procesar la imagen original, sino también la corrección de la configuración de disparo. Por ejemplo, los nuevos modelos de cámaras digitales Fujifilm (en particular, la FinePix S100FS) implementan una función para ampliar el rango dinámico (Wide Dynamic Range, WDR), que, según los desarrolladores, permite aumentar la latitud fotográfica en uno o dos pasos (en terminología de configuración: 200 y 400%).

Cuando se activa WDR, la cámara toma fotografías con una compensación de exposición de -1 o -2 EV (según la configuración seleccionada). Por lo tanto, la imagen del encuadre resulta estar subexpuesta; esto es necesario para conservar la máxima información sobre los detalles en las luces. Luego, la imagen resultante se procesa utilizando una curva de tono, que le permite ecualizar el equilibrio general y ajustar el nivel de negro. Luego, la imagen se convierte al formato de 8 bits y se graba como un archivo JPEG.

La compresión del rango dinámico preserva más detalles
en luces y sombras, pero una consecuencia inevitable de tal exposición
es una disminución en el contraste general. En la imagen inferior
la textura de las nubes está mucho mejor desarrollada, sin embargo
debido al menor contraste, esta versión de la foto
parece menos natural

Una función similar llamada Ampliación del rango dinámico se implementa en varias cámaras compactas y SLR de Pentax (Optio S12, K200D, etc.). Según el fabricante, el uso de la función de ampliación del rango dinámico permite aumentar la latitud fotográfica de las imágenes en 1 EV sin perder detalles en luces y sombras.

Una función similar llamada Prioridad de tono de resaltado (HTP) se implementa en varios modelos de DSLR de Canon (EOS 40D, EOS 450D, etc.). Según el manual del usuario, activar HTP mejora los detalles de las luces (específicamente, en el rango de grises del 0 al 18%).

Conclusión

Resumamos. La compresión de rango dinámico incorporada le permite convertir una imagen fuente de alto rango dinámico a 8 bits con un daño mínimo archivo JPEG. Sin la opción de guardar imágenes en formato RAW, el modo de compresión de rango dinámico permite a los fotógrafos utilizar más plenamente el potencial de su cámara al capturar escenas de alto contraste.

Por supuesto, es importante recordar que la compresión del rango dinámico no es una cura milagrosa, sino más bien un compromiso. Preservar los detalles en las luces y/o sombras tiene el costo de aumentar el nivel de ruido en las áreas oscuras de la imagen, reducir su contraste y hacer transiciones tonales suaves algo toscas.

Como cualquier función automática, el algoritmo de compresión del rango dinámico no es una solución totalmente universal que permita mejorar absolutamente cualquier fotografía. Por tanto, tiene sentido activarlo sólo en los casos en que sea realmente necesario. Por ejemplo, para fotografiar una silueta con un fondo bien diseñado, la función de compresión de rango dinámico debe estar desactivada; de lo contrario, la espectacular escena se arruinará irremediablemente.

Para concluir nuestra consideración de este tema, cabe señalar que el uso de funciones de compresión de rango dinámico no nos permite "sacar" en la imagen resultante detalles que no fueron capturados por el sensor de la cámara. Para lograr resultados satisfactorios al fotografiar escenas de alto contraste, es posible que necesite utilizar herramientas adicionales (como filtros de degradado para fotografía de paisajes) o técnicas especiales (como fotografiar varios fotogramas con horquillado de exposición y luego fusionarlos en una imagen utilizando la tecnología de mapeo de tonos). ).

El próximo artículo se centrará en la función de ráfaga.

Continuará

Pensemos en la pregunta: ¿por qué necesitamos subir el volumen? Para escuchar sonidos suaves que no son audibles en nuestras condiciones (por ejemplo, si no se puede escuchar en voz alta, si hay ruidos extraños en la habitación, etc.). ¿Es posible amplificar los sonidos suaves y dejar en paz los fuertes? Resulta que es posible. Esta técnica se llama compresión de rango dinámico (DRC). Para hacer esto, debe cambiar el volumen actual constantemente (amplificar los sonidos bajos, los fuertes, no). La ley más simple del cambio de volumen es lineal, es decir El volumen cambia según la ley volumen_salida = k * volumen_entrada, donde k es la relación de compresión del rango dinámico:

Figura 18. Compresión de rango dinámico.

Cuando k = 1, no se realizan cambios (el volumen de salida es igual al volumen de entrada). en k< 1 громкость будет увеличиваться, а динамический диапазон - сужаться. Посмотрим на график (k=1/2) - тихий звук, имевший громкость -50дБ станет громче на 25дБ, что значительно громче, но при этом громкость диалогов (-27дБ) повысится всего лишь на 13.5дБ, а громкость самых громких звуков (0дБ) вообще не изменится. При k >1: el volumen disminuirá y el rango dinámico aumentará.

Veamos los gráficos de volumen (k = 1/2: la compresión DD se duplica):

Figura 19. Gráficos de sonoridad.

Como puede ver en el original, había sonidos muy bajos, 30 dB por debajo del nivel del diálogo, y sonidos muy fuertes, 30 dB por encima del nivel del diálogo. Eso. el rango dinámico era de 60 dB. Después de la compresión, los sonidos fuertes son sólo 15 dB más altos y los sonidos bajos son 15 dB más bajos que los diálogos (el rango dinámico ahora es de 30 dB). Por lo tanto, los sonidos fuertes se volvieron significativamente más silenciosos y los sonidos silenciosos se volvieron significativamente más fuertes. En este caso, ¡no hay desbordamiento!

Ahora veamos los histogramas:

Figura 20. Ejemplo de compresión.

Como se puede ver claramente, con una amplificación de hasta +30dB, la forma del histograma se conserva bien, lo que significa que los sonidos fuertes permanecen bien expresados ​​(no llegan al máximo y no se cortan, como ocurre con la amplificación simple). . Esto produce sonidos suaves. El histograma no lo muestra bien, pero la diferencia es muy perceptible de oído. La desventaja de este método son los mismos saltos de volumen. Sin embargo, el mecanismo de su aparición difiere de los saltos de volumen que ocurren durante el corte, y su carácter es diferente: aparecen principalmente cuando los sonidos suaves se amplifican con mucha fuerza (y no cuando se cortan los fuertes, como ocurre con la amplificación normal). Un nivel excesivo de compresión conduce a un aplanamiento de la imagen sonora: todos los sonidos tienden a tener el mismo volumen e inexpresividad.

La amplificación excesiva de sonidos suaves puede hacer que el ruido de la grabación se vuelva audible. Por tanto, el filtro utiliza un algoritmo ligeramente modificado para que el nivel de ruido suba menos:

Figura 21. Aumentar el volumen sin aumentar el ruido.

Aquellos. a un nivel de volumen de -50 dB, la función de transferencia se flexiona y el ruido se amplificará menos (línea amarilla). En ausencia de dicha inflexión, el ruido será mucho más fuerte (línea gris). Esta sencilla modificación reduce significativamente la cantidad de ruido incluso con niveles de compresión muy altos (compresión 1:5 en la imagen). El nivel "DRC" en el filtro establece el nivel de ganancia para sonidos suaves (a -50 dB), es decir. El nivel de compresión de 1/5 que se muestra en la figura corresponde al nivel de +40 dB en la configuración del filtro.

En un momento en que los investigadores apenas comenzaban a resolver el problema de crear una interfaz de voz para computadoras, a menudo tenían que fabricar su propio equipo que permitiera ingresar información de audio a la computadora y también emitirla desde la computadora. Hoy en día, estos dispositivos pueden tener sólo un interés histórico, ya que las computadoras modernas pueden equiparse fácilmente con dispositivos de entrada y salida de audio, como adaptadores de sonido, micrófonos, auriculares y parlantes.

No profundizaremos en los detalles de la estructura interna de estos dispositivos, pero hablaremos sobre cómo funcionan y daremos algunas recomendaciones para elegir dispositivos informáticos de audio para trabajar con sistemas de síntesis y reconocimiento de voz.

Como ya dijimos en el capítulo anterior, el sonido no es más que vibraciones del aire, cuya frecuencia se encuentra en el rango de frecuencias percibidas por el ser humano. Los límites exactos del rango de frecuencia audible pueden variar de persona a persona, pero se cree que las vibraciones del sonido se encuentran en el rango de 16 a 20 000 Hz.

El propósito de un micrófono es convertir las vibraciones del sonido en vibraciones eléctricas, que luego pueden amplificarse, filtrarse para eliminar interferencias y digitalizarse para ingresar información de audio en una computadora.

Según su principio de funcionamiento, los micrófonos más comunes se dividen en de carbón, electrodinámicos, de condensador y electreto. Algunos de estos micrófonos requieren fuente externa corriente (por ejemplo, carbón y condensador), otros, bajo la influencia de vibraciones sonoras, son capaces de generar de forma independiente voltaje eléctrico alterno (estos son micrófonos electrodinámicos y electretos).

También puedes separar los micrófonos según su finalidad. Hay micrófonos de estudio que se pueden sostener en la mano o montar en un soporte, hay micrófonos de radio que se pueden enganchar a la ropa, etc.

También hay micrófonos diseñados específicamente para computadoras. Estos micrófonos suelen montarse sobre un soporte colocado sobre la superficie de una mesa. Los micrófonos de computadora se pueden combinar con auriculares, como se muestra en la Fig. 2-1.

Arroz. 2-1. Auriculares con micrófono

¿Cómo elegir entre la variedad de micrófonos el más adecuado para los sistemas de reconocimiento de voz?

En principio, puedes experimentar con cualquier micrófono que tengas, siempre que pueda conectarse al adaptador de audio de tu computadora. Sin embargo, los desarrolladores de sistemas de reconocimiento de voz recomiendan comprar un micrófono que, durante el funcionamiento, esté a una distancia constante de la boca del hablante.

Si la distancia entre el micrófono y la boca no cambia, entonces el nivel medio de la señal eléctrica procedente del micrófono tampoco cambiará demasiado. Esto tendrá un impacto positivo en el rendimiento de los sistemas modernos de reconocimiento de voz.

¿Cuál es el problema?

Una persona es capaz de reconocer con éxito el habla, cuyo volumen varía en un rango muy amplio. El cerebro humano es capaz de filtrar el habla tranquila de interferencias como el ruido de los coches que pasan por la calle, las conversaciones exteriores y la música.

En cuanto a los sistemas modernos de reconocimiento de voz, sus capacidades en este ámbito dejan mucho que desear. Si el micrófono está sobre una mesa, cuando gire la cabeza o cambie la posición de su cuerpo, la distancia entre su boca y el micrófono cambiará. Esto cambiará el nivel de salida del micrófono, lo que a su vez reducirá la confiabilidad del reconocimiento de voz.

Por lo tanto, cuando se trabaja con sistemas de reconocimiento de voz, se obtendrán mejores resultados si se utiliza un micrófono conectado a unos auriculares, como se muestra en la Fig. 2-1. Cuando se utiliza un micrófono de este tipo, la distancia entre la boca y el micrófono será constante.

También llamamos su atención sobre el hecho de que todos los experimentos con sistemas de reconocimiento de voz se realizan mejor en privado, en una habitación tranquila. En este caso, la influencia de la interferencia será mínima. Por supuesto, si es necesario seleccionar un sistema de reconocimiento de voz que pueda funcionar en condiciones de fuerte interferencia, entonces las pruebas deben realizarse de otra manera. Sin embargo, hasta donde saben los autores del libro, la inmunidad al ruido de los sistemas de reconocimiento de voz sigue siendo muy, muy baja.

El micrófono convierte las ondas sonoras en vibraciones para nosotros. corriente eléctrica. Estas fluctuaciones se pueden ver en la pantalla del osciloscopio, pero no se apresure a ir a la tienda a comprar este costoso dispositivo. Podemos realizar todos los estudios oscilográficos utilizando un ordenador normal equipado con un adaptador de sonido, por ejemplo un adaptador Sound Blaster. Más adelante te contamos cómo hacer esto.

En la Fig. 2-2 mostramos el oscilograma señal de sonido, resultante de pronunciar un sonido largo a. Esta forma de onda se obtuvo utilizando el programa GoldWave, del que hablaremos más adelante en este capítulo del libro, además de utilizar un adaptador de audio Sound Blaster y un micrófono similar al que se muestra en la Fig. 2-1.

Arroz. 2-2. Oscilograma de señal de audio

El programa GoldWave le permite estirar el oscilograma a lo largo del eje del tiempo, lo que le permite ver los detalles más pequeños. En la Fig. 2-3 mostramos un fragmento alargado del oscilograma del sonido a antes mencionado.

Arroz. 2-3. Fragmento de un oscilograma de una señal de audio.

Tenga en cuenta que la magnitud de la señal de entrada procedente del micrófono cambia periódicamente y adquiere valores tanto positivos como negativos.

Si solo hubiera una frecuencia presente en la señal de entrada (es decir, si el sonido fuera "limpio"), la forma de onda recibida desde el micrófono sería una onda sinusoidal. Sin embargo, como ya hemos dicho, el espectro de los sonidos del habla humana consta de un conjunto de frecuencias, por lo que la forma del oscilograma de la señal del habla dista mucho de ser sinusoidal.

Llamaremos a una señal cuya magnitud cambia continuamente con el tiempo. Señal analoga. Esta es exactamente la señal que proviene del micrófono. A diferencia de lo analógico, señal digital es un conjunto de valores numéricos que cambian discretamente con el tiempo.

Para que una computadora procese una señal de audio, debe convertirse de forma analógica a digital, es decir, presentarse como un conjunto de valores numéricos. Este proceso se llama digitalización de señales analógicas.

La digitalización de una señal de audio (y cualquier analógica) se realiza mediante un dispositivo especial llamado Conversor analógico a digital ADC (Convertidor analógico a digital, ADC). Este dispositivo está ubicado en la placa del adaptador de sonido y es un microcircuito de apariencia normal.

¿Cómo funciona un conversor analógico a digital?

Mide periódicamente el nivel de la señal de entrada y genera un valor numérico del resultado de la medición. Este proceso se ilustra en la Fig. 2-4. Aquí, los rectángulos grises indican valores de señal de entrada medidos en algún intervalo de tiempo constante. Un conjunto de dichos valores es una representación digitalizada de la señal analógica de entrada.

Arroz. 2-4. Mediciones de amplitud de señal versus tiempo.

En la Fig. 2-5 mostramos cómo conectar un convertidor analógico a digital a un micrófono. En este caso, se suministra una señal analógica a la entrada x 1 y una señal digital se elimina de las salidas u 1 -u n.

Arroz. 2-5. Conversor analógico a digital

Los convertidores analógico-digital se caracterizan por dos parámetros importantes: la frecuencia de conversión y el número de niveles de cuantificación de la señal de entrada. La selección correcta de estos parámetros es fundamental para lograr una representación digital adecuada de la señal analógica.

¿Con qué frecuencia es necesario medir la amplitud de la señal analógica de entrada para que la información sobre los cambios en la señal analógica de entrada no se pierda como resultado de la digitalización?

Parecería que la respuesta es simple: la señal de entrada debe medirse con la mayor frecuencia posible. De hecho, cuanto más a menudo un convertidor analógico-digital realice tales mediciones, mejor podrá rastrear los más mínimos cambios en la amplitud de la señal analógica de entrada.

Sin embargo, las mediciones excesivamente frecuentes pueden provocar un aumento injustificado del flujo de datos digitales y un desperdicio de recursos informáticos al procesar la señal.

Afortunadamente, elegir la frecuencia de conversión (frecuencia de muestreo) adecuada es bastante sencillo. Para ello, basta con recurrir al teorema de Kotelnikov, conocido por los especialistas en el campo del procesamiento de señales digitales. El teorema establece que la frecuencia de conversión debe ser el doble de la frecuencia máxima del espectro de la señal convertida. Por tanto, para digitalizar sin perder la calidad de una señal de audio cuya frecuencia se encuentra en el rango de 16-20.000 Hz, es necesario seleccionar una frecuencia de conversión no inferior a 40.000 Hz.

Sin embargo, tenga en cuenta que en los equipos de audio profesionales la frecuencia de conversión se selecciona varias veces por encima del valor especificado. Esto se hace para lograr muy Alta calidad sonido digitalizado. Esta cualidad no es relevante para los sistemas de reconocimiento de voz, por lo que no centraremos su atención en esta elección.

¿Qué frecuencia de conversión se necesita para digitalizar el sonido del habla humana?

Dado que los sonidos del habla humana se encuentran en el rango de frecuencia de 300 a 4000 Hz, la frecuencia de conversión mínima requerida es de 8000 Hz. Cuantos sean programas de computador El reconocimiento de voz utiliza una frecuencia de conversión estándar de 44.000 Hz para los adaptadores de audio convencionales. Una frecuencia de conversión de este tipo no conduce, por un lado, a un aumento excesivo del flujo de datos digitales y, por otro lado, garantiza una digitalización de la voz con suficiente calidad.

En la escuela nos enseñaron que con cualquier medición surgen errores que no se pueden eliminar por completo. Estos errores surgen debido a la resolución limitada de los instrumentos de medición, así como al hecho de que el propio proceso de medición puede introducir algunos cambios en el valor medido.

Un convertidor analógico a digital representa la señal analógica de entrada como un flujo de números de capacidad limitada. Los adaptadores de audio convencionales contienen bloques ADC de 16 bits capaces de representar la amplitud de la señal de entrada como 216 = 65536 valores diferentes. Los dispositivos ADC en equipos de audio de alta gama pueden ser de 20 bits, lo que proporciona una mayor precisión al representar la amplitud de la señal de audio.

Los sistemas y programas modernos de reconocimiento de voz se crearon para computadoras comunes equipadas con adaptadores de sonido comunes. Por lo tanto, para realizar experimentos con reconocimiento de voz, no es necesario adquirir un adaptador de audio profesional. Un adaptador como Sound Blaster es muy adecuado para digitalizar la voz con el fin de su posterior reconocimiento.

Junto con la señal útil, al micrófono suelen entrar varios ruidos: ruido de la calle, ruido del viento, conversaciones extrañas, etc. El ruido tiene un impacto negativo en el rendimiento de los sistemas de reconocimiento de voz, por lo que es necesario abordarlo. Ya hemos mencionado una de las formas: los sistemas de reconocimiento de voz actuales se utilizan mejor en una habitación tranquila, a solas con el ordenador.

Sin embargo, no siempre es posible crear las condiciones ideales, por lo que es necesario utilizar métodos especiales para eliminar las interferencias. Para reducir el nivel de ruido, se utilizan trucos especiales en el diseño de micrófonos y filtros especiales que eliminan del espectro de la señal analógica frecuencias que no contienen información útil. Además, se utiliza una técnica como la compresión del rango dinámico de los niveles de la señal de entrada.

Hablemos de todo esto en orden.

Filtro de frecuencia es un dispositivo que convierte el espectro de frecuencia de una señal analógica. En este caso, durante el proceso de conversión, se liberan (o absorben) vibraciones de determinadas frecuencias.

Puedes imaginar este dispositivo como una especie de caja negra con una entrada y una salida. En relación con nuestra situación, se conectará un micrófono a la entrada del filtro de frecuencia y un convertidor analógico a digital a la salida.

Existen diferentes filtros de frecuencia:

· filtros de paso bajo;

filtros de paso alto;

· transmisión de filtros de paso de banda;

· filtros de parada de banda.

Filtros de paso bajo(filtro de paso bajo) elimina del espectro de la señal de entrada todas las frecuencias cuyos valores están por debajo de una determinada frecuencia umbral, según la configuración del filtro.

Dado que las señales de audio se encuentran en el rango de 16 a 20 000 Hz, todas las frecuencias inferiores a 16 Hz se pueden cortar sin degradar la calidad del sonido. Para el reconocimiento de voz, el rango de frecuencia de 300-4000 Hz es importante, por lo que se pueden eliminar las frecuencias inferiores a 300 Hz. En este caso, todas las interferencias cuyo espectro de frecuencia esté por debajo de 300 Hz se eliminarán de la señal de entrada y no interferirán con el proceso de reconocimiento de voz.

Asimismo, filtros de paso alto(filtro de paso alto) elimina del espectro de la señal de entrada todas las frecuencias por encima de una determinada frecuencia umbral.

Los humanos no pueden oír sonidos con una frecuencia de 20.000 Hz o más, por lo que pueden eliminarse del espectro sin un deterioro notable en la calidad del sonido. En cuanto al reconocimiento de voz, aquí puede eliminar todas las frecuencias superiores a 4000 Hz, lo que conducirá a una reducción significativa en el nivel de interferencia de alta frecuencia.

Filtro de paso de banda(filtro de paso de banda) se puede considerar como una combinación de un filtro de paso bajo y de paso alto. Un filtro de este tipo retrasa todas las frecuencias por debajo de la llamada frecuencia de paso más baja, y también arriba frecuencia de paso superior.

Por lo tanto, un filtro de banda de paso es conveniente para un sistema de reconocimiento de voz, que retrasa todas las frecuencias excepto las frecuencias en el rango de 300-4000 Hz.

En cuanto a los filtros de eliminación de banda, le permiten eliminar todas las frecuencias que se encuentran en un rango determinado del espectro de la señal de entrada. Un filtro de este tipo es conveniente, por ejemplo, para suprimir las interferencias que ocupan una determinada parte continua del espectro de la señal.

En la Fig. 2-6 mostramos la conexión de un filtro de paso de banda.

Arroz. 2-6. Filtrar la señal de audio antes de digitalizar

Hay que decir que los adaptadores de sonido convencionales instalados en un ordenador incluyen un filtro paso banda por el que pasa la señal analógica antes de su digitalización. La banda de paso de dicho filtro suele corresponder al rango de señales de audio, es decir, 16-20 000 Hz (en diferentes adaptadores de audio, los valores de las frecuencias superior e inferior pueden variar dentro de pequeños límites).

¿Cómo lograr un ancho de banda más estrecho, de 300 a 4000 Hz, correspondiente a la parte más informativa del espectro del habla humana?

Por supuesto, si le gusta diseñar equipos electrónicos, puede crear su propio filtro a partir de un chip amplificador operacional, resistencias y condensadores. Esto es más o menos lo que hicieron los primeros creadores de sistemas de reconocimiento de voz.

Sin embargo sistemas industriales Los sistemas de reconocimiento de voz deben ser funcionales en hardware informático estándar, por lo que la ruta de crear un filtro de paso de banda especial no es adecuada en este caso.

En cambio, en sistemas modernos El procesamiento del habla utiliza el llamado filtros de frecuencia digitales, implementado en software. Esto fue posible después UPC La computadora se ha vuelto bastante poderosa.

Un filtro de frecuencia digital, implementado en software, convierte una señal digital de entrada en una señal digital de salida. Durante el proceso de conversión, el programa procesa de forma especial el flujo de valores numéricos de la amplitud de la señal procedente del convertidor analógico-digital. El resultado de la transformación también será un flujo de números, pero este flujo corresponderá a una señal ya filtrada.

Hablando del convertidor analógico-digital, notamos una característica tan importante como el número de niveles de cuantificación. Si se instala un convertidor analógico-digital de 16 bits en el adaptador de sonido, después de la digitalización los niveles de la señal de audio se pueden representar como 216 = 65536 valores diferentes.

Si hay pocos niveles de cuantificación, entonces el llamado ruido de cuantificación. Para reducir este ruido, los sistemas de digitalización de audio de alta calidad deben utilizar convertidores de analógico a digital con el máximo número de niveles de cuantificación disponibles.

Sin embargo, existe otra técnica para reducir el impacto del ruido de cuantificación en la calidad de la señal de audio, que se utiliza en los sistemas de grabación de audio digital. Cuando se utiliza esta técnica, la señal pasa a través de un amplificador no lineal antes de la digitalización, enfatizando las señales con baja amplitud de señal. Un dispositivo de este tipo mejora señales débiles más fuerte que fuerte.

Esto se ilustra en el gráfico de la amplitud de la señal de salida versus la amplitud de la señal de entrada que se muestra en la Fig. 2-7.

Arroz. 2-7. Amplificación no lineal antes de la digitalización.

En el paso de convertir el audio digitalizado nuevamente a analógico (veremos este paso más adelante en este capítulo), la señal analógica pasa nuevamente a través de un amplificador no lineal antes de enviarse a los parlantes. Esta vez se utiliza un amplificador diferente, que enfatiza las señales de alta amplitud y tiene una característica de transferencia (la dependencia de la amplitud de la señal de salida de la amplitud de la señal de entrada) inversa a la utilizada durante la digitalización.

¿Cómo puede ayudar todo esto a los creadores de sistemas de reconocimiento de voz?

Una persona, como saben, reconoce bastante bien el habla pronunciada en un susurro tranquilo o en voz bastante alta. Podemos decir que el rango dinámico de niveles de volumen del habla humana reconocida con éxito es bastante amplio.

de hoy sistemas informáticos Desafortunadamente, el reconocimiento de voz aún no puede presumir de esto. Sin embargo, para ampliar ligeramente el rango dinámico especificado, antes de digitalizar, puede pasar la señal del micrófono a través de un amplificador no lineal, cuya característica de transferencia se muestra en la Fig. 2-7. Esto reducirá el nivel de ruido de cuantificación al digitalizar señales débiles.

Los desarrolladores de sistemas de reconocimiento de voz, una vez más, se ven obligados a centrarse principalmente en adaptadores de sonido producidos comercialmente. No prevén la conversión de señal no lineal descrita anteriormente.

Sin embargo, es posible crear el equivalente en software de un amplificador no lineal que convierta la señal digitalizada antes de pasarla al módulo de reconocimiento de voz. Aunque un amplificador de software de este tipo no podrá reducir el ruido de cuantificación, se puede utilizar para enfatizar aquellos niveles de señal que transportan la mayor cantidad de información de voz. Por ejemplo, puede reducir la amplitud de las señales débiles, eliminando así el ruido de la señal.

La compresión es uno de los temas más mitológicos en la producción de sonido. Dicen que Beethoven hasta asustó con ella a los hijos de la vecina :(

Bueno, de hecho, usar la compresión no es más difícil que usar la distorsión, lo principal es comprender el principio de su funcionamiento y tener buen control. Esto es lo que veremos juntos ahora.

¿Qué es la compresión de audio?

Lo primero que hay que entender antes de la preparación es la compresión. trabajar con el rango dinámico del sonido. Y, a su vez, no es más que la diferencia entre los niveles de señal más alto y más bajo:

Entonces, La compresión es la compresión del rango dinámico.. Sí, Justo compresión de rango dinámico, o en otras palabras bajar el nivel de las partes altas de la señal y aumentar el volumen de las partes silenciosas. No más.

Entonces, es bastante razonable preguntarse por qué se relaciona tanta exageración. ¿Por qué todo el mundo habla de recetas para configurar correctamente el compresor, pero nadie las comparte? ¿Por qué, a pesar de una gran cantidad de complementos interesantes¿Muchos estudios todavía utilizan modelos de compresores raros y caros? ¿Por qué algunos fabricantes utilizan compresores en ajustes extremos, mientras que otros no los utilizan en absoluto? ¿Y cuál de ellos tiene razón al final?

Problemas resueltos por compresión.

Las respuestas a estas preguntas se encuentran en el plano de la comprensión del papel de la compresión en el trabajo con sonido. Y permite:

  1. Enfatizar el ataque sonido, haciéndolo más pronunciado;
  2. “Ajustar” partes individuales de instrumentos en la mezcla, añadiéndoles potencia y “peso”;
  3. Haz que grupos de instrumentos o una mezcla completa sean más cohesivos, un monolito tan único;
  4. Resolver conflictos entre herramientas. usando cadena lateral ;
  5. Corregir los errores del vocalista o músicos., nivelando su dinámica;
  6. Con una determinada configuración actuar como un efecto artístico.

Como puede ver, este es un proceso creativo no menos importante que, digamos, idear melodías o crear timbres interesantes. Además, cualquiera de los problemas anteriores se puede resolver utilizando 4 parámetros principales.

Parámetros básicos del compresor.

A pesar de la gran cantidad de modelos de compresores de software y hardware, toda la "magia" de la compresión ocurre cuando ajuste correcto parámetros principales: Umbral, Ratio, Ataque y Liberación. Veámoslos con más detalle:

Umbral o umbral de respuesta, dB

Este parámetro le permite establecer el valor a partir del cual funcionará el compresor (es decir, comprimirá la señal de audio). Así, si fijamos el umbral en -12dB, el compresor sólo funcionará en aquellas partes del rango dinámico que superen este valor. Si todo nuestro sonido es más bajo que -12db, el compresor simplemente lo pasará sin afectarlo de ninguna manera.

Relación o relación de compresión

El parámetro ratio determina cuánto se comprimirá una señal que supere el umbral. Un poco de matemática para completar el cuadro: digamos que configuramos un compresor con un umbral de -12 dB, relación 2:1 y aplicamos bucle de tambor, en el que el volumen del bombo es -4dB. ¿Cuál será el resultado del funcionamiento del compresor en este caso?

En nuestro caso, el nivel de bombo supera el umbral en 8 dB. Esta diferencia según el ratio se comprimirá a 4dB (8dB/2). Combinado con la parte no procesada de la señal, esto conducirá al hecho de que después del procesamiento con un compresor, el volumen del bombo será de -8 dB (umbral -12 dB + señal comprimida 4 dB).

Ataque, sra.

Este es el tiempo después del cual el compresor responderá al exceder el umbral de respuesta. Es decir, si el tiempo de ataque es superior a 0 ms... el compresor comienza a comprimir exceder la señal umbral no inmediatamente, sino después de un tiempo específico.

Liberación o recuperación, ms

Lo opuesto a un ataque: el valor de este parámetro le permite especificar cuánto tiempo después de que el nivel de la señal regrese por debajo del umbral. el compresor dejará de comprimir.

Antes de continuar, recomiendo encarecidamente tomar una muestra conocida, colocar cualquier compresor en su canal y experimentar con los parámetros anteriores durante 5 a 10 minutos para fijar de forma segura el material.

Todo Otros parámetros son opcionales.. Pueden diferir entre los diferentes modelos de compresores, razón por la cual los productores usan diferentes modelos para propósitos específicos (por ejemplo, un compresor para voces, otro para un grupo de batería, un tercero para el canal maestro). No me detendré en estos parámetros en detalle, solo daré información general Para entender de qué se trata todo esto:

  • Rodilla o torcedura (rodilla dura/blanda). Este parámetro determina qué tan rápido se aplicará la relación de compresión (relación): fuerte a lo largo de una curva o suavemente. Observo que en el modo Soft Knee el compresor no funciona linealmente, sino que comienza a comprimir suavemente (en la medida de lo posible, cuando hablamos de milisegundos) el sonido. ya antes del valor umbral. Para procesar grupos de canales y la mezcla general, a menudo se usa soft Knee (ya que funciona imperceptiblemente), y para enfatizar el ataque y otras características de instrumentos individuales, se usa Hard Knee;
  • Modo de respuesta: Pico/RMS. El modo Peak se justifica cuando es necesario limitar estrictamente las ráfagas de amplitud, así como en señales con una forma compleja, cuya dinámica y legibilidad deben transmitirse por completo. El modo RMS es muy suave con el sonido, lo que le permite espesarlo mientras mantiene el ataque;
  • Previsión (mirar hacia adelante). Este es el tiempo durante el cual el compresor sabrá lo que le espera. Una especie de análisis preliminar de las señales entrantes;
  • Maquillaje o ganancia. Un parámetro que le permite compensar la disminución de volumen como resultado de la compresión.

Primero y mayoría consejo principal , lo que elimina todas las preguntas adicionales sobre la compresión: si a) comprende el principio de compresión, b) sabe firmemente cómo este o aquel parámetro afecta el sonido y c) logra probar varios en la práctica diferentes modelosya no necesitas ningún consejo.

Lo digo absolutamente en serio. Si lees esta publicación con atención, experimentaste con el compresor estándar de tu GRAJILLA y uno o dos complementos, pero todavía no entiendo en qué casos es necesario establecer valores de ataque grandes, qué proporción usar y en qué modo procesar la señal original; luego continuará buscando recetas preparadas en Internet, aplicando ellos sin pensar en ninguna parte.

Recetas de ajuste fino del compresor Es algo así como recetas para afinar una reverberación o un coro: no tiene sentido y no tiene nada que ver con la creatividad. Por eso, repito persistentemente la única receta verdadera: ármate con este artículo, buenos auriculares de monitor, un complemento para controlar visualmente la forma de onda y pasar la noche en compañía de un par de compresores.

¡Tomar acción!