Convertir le son en un flux de chiffres. Synthèse et reconnaissance de la parole. Solutions modernes. Matériel de sonorisation informatique. Conversion audio en flux numérique Plage dynamique compressée ou standard

La deuxième partie du cycle est consacrée aux fonctions d'optimisation de la dynamique des images. Nous y expliquerons pourquoi de telles solutions sont nécessaires, envisagerons diverses options pour leur mise en œuvre, ainsi que leurs avantages et inconvénients.

Embrassez l'immensité

Idéalement, la caméra devrait capturer l'image du monde environnant tel qu'il est perçu par une personne. Cependant, du fait que les mécanismes de "vision" de la caméra et de l'œil humain sont sensiblement différents, il existe un certain nombre de limitations qui ne permettent pas de remplir cette condition.

L'un des problèmes rencontrés auparavant par les utilisateurs d'appareils photo argentiques et désormais rencontrés par les propriétaires d'appareils photo numériques est l'incapacité de capturer correctement des scènes avec de grandes différences de lumière sans l'utilisation d'appareils spéciaux et / ou de techniques de prise de vue spéciales. Les caractéristiques de l'appareil visuel humain permettent de bien percevoir les détails des scènes à contraste élevé aussi bien dans les zones très éclairées que dans les zones sombres. Malheureusement, le capteur de la caméra n'est pas toujours capable de capturer l'image telle que nous la voyons.

Plus la différence de luminosité sur la scène photographiée est importante, plus la probabilité de perte de détails dans les hautes lumières et/ou les ombres est élevée. En conséquence, au lieu d'un ciel bleu avec des nuages ​​​​luxuriants sur l'image, seule une tache blanchâtre est obtenue et les objets situés dans l'ombre se transforment en silhouettes sombres indistinctes ou se confondent même avec l'environnement.

La photographie classique utilise la notion latitude photographique(voir encadré pour plus de détails). Théoriquement, la latitude photographique des appareils photo numériques est déterminée par la profondeur de bits du convertisseur analogique-numérique (ADC). Par exemple, lors de l'utilisation d'un ADC 8 bits, compte tenu de l'erreur de quantification, la valeur théoriquement réalisable de la latitude photographique sera de 7 EV, pour un ADC 12 bits - 11 EV, etc. Cependant, dans les appareils réels, la plage dynamique des images est à même maximum théorique en raison de l'influence de divers types de bruit et d'autres facteurs.

Une grande différence dans les niveaux de luminosité est un sérieux
problème de photographie. Dans ce cas, les capacités de la caméra
n'était pas suffisant pour transmettre adéquatement le plus
zones claires de la scène, et par conséquent, au lieu d'une zone bleue
le ciel (marqué d'un trait) s'est avéré être une "tache" blanche

La valeur de luminosité maximale qu'un capteur photosensible peut détecter est déterminée par le niveau de saturation de ses cellules. La valeur minimale dépend de plusieurs facteurs, notamment la quantité de bruit thermique de la matrice, le bruit de transfert de charge et l'erreur ADC.

Il convient également de noter que la latitude photographique du même appareil photo numérique peut varier en fonction de la valeur de sensibilité définie dans les paramètres. La plage dynamique maximale est réalisable en réglant la sensibilité dite de base (correspondant à la valeur numérique minimale possible). Lorsque la valeur de ce paramètre augmente, la plage dynamique diminue en raison de l'augmentation du niveau de bruit.

Latitude photographique des modèles modernes d'appareils photo numériques équipés de capteurs grande taille et les ADC 14 bits ou 16 bits sont de 9 à 11 EV, ce qui est nettement supérieur à celui d'un film négatif couleur au format 35 mm (moyenne de 4 à 5 EV). Ainsi, même les appareils photo numériques relativement bon marché ont suffisamment de latitude photographique pour capturer de manière adéquate la plupart des scènes de photographie amateur typiques.

Cependant, il y a un problème d'une autre nature. Elle est liée aux restrictions imposées par les normes existantes pour l'enregistrement d'images numériques. En utilisant le format JPEG avec 8 bits par canal de couleur (qui est maintenant devenu la norme de facto pour l'enregistrement d'images numériques dans l'industrie informatique et la technologie numérique), il est même théoriquement impossible d'enregistrer une image avec une latitude photographique de plus de 8 EV .

Supposons que l'ADC de la caméra vous permette d'obtenir une image avec une profondeur de bits de 12 ou 14 bits, contenant des détails distincts dans les hautes lumières et les ombres. Cependant, si la latitude photographique de cette image dépasse 8 EV, alors lors du processus de conversion vers un format standard 8 bits sans aucune étape supplémentaire (c'est-à-dire simplement en supprimant des bits "supplémentaires"), une partie des informations enregistrées par le capteur photosensible sera perdu.

Plage dynamique et latitude photographique

En termes simples, la plage dynamique est définie comme le rapport entre la valeur de luminosité maximale d'une image et sa valeur minimale. En photographie classique, le terme latitude photographique est traditionnellement utilisé, ce qui, en fait, signifie la même chose.

La largeur de plage dynamique peut être exprimée sous forme de rapport (par exemple, 1000:1, 2500:1, etc.), mais l'échelle logarithmique est la plus couramment utilisée. Dans ce cas, la valeur du logarithme décimal du rapport de la luminosité maximale à sa valeur minimale est calculée, et le nombre est suivi de la lettre majuscule D (de la densité anglaise? - densité), moins souvent? - l'abréviation OD (de l'anglais densité optique ? - densité optique). Par exemple, si le rapport entre la valeur de luminosité maximale et la valeur minimale de n'importe quel appareil est de 1000:1, alors la plage dynamique sera de 3,0 D :

Pour mesurer la latitude photographique, on utilise traditionnellement des unités dites d'exposition, désignées par l'abréviation EV (des valeurs d'exposition anglaises ; les professionnels les appellent souvent « pieds » ou « pas »). C'est dans ces unités que la valeur de compensation d'exposition est généralement définie dans les paramètres de l'appareil photo. Augmenter la valeur de latitude photographique de 1 EV équivaut à doubler la différence entre les niveaux de luminosité maximum et minimum. Ainsi, l'échelle EV est également une échelle logarithmique, mais dans ce cas, un logarithme de base 2 est utilisé pour calculer les valeurs numériques. La latitude photographique sera de 8 EV :

La compression est un compromis raisonnable

La plupart façon efficace pour conserver toutes les informations d'image capturées par le capteur photosensible de l'appareil photo, il faut enregistrer les images au format RAW. Cependant, cette fonction n'est pas disponible sur tous les appareils photo et tous les photographes amateurs ne sont pas prêts à s'engager dans un travail minutieux de sélection. paramètres individuels pour chaque photo prise.

Pour réduire la possibilité de perte de détails dans les images à contraste élevé converties à l'intérieur de l'appareil photo en JPEG 8 bits, des appareils de nombreux fabricants (et pas seulement des compacts, mais aussi des reflex) ont été introduits fonctions spéciales, permettant sans intervention de l'utilisateur de compresser la plage dynamique des images enregistrées. En réduisant le contraste global et en perdant une petite partie des informations de l'image d'origine, de telles solutions permettent de conserver en JPEG 8 bits les détails dans les hautes lumières et les ombres enregistrés par le capteur photosensible de l'appareil, même si le la plage dynamique de l'image originale s'est avérée être plus large que 8 EV.

L'un des pionniers dans le développement de cette direction était la société HP. Lancé en 2003, l'appareil photo numérique HP Photosmart 945 a été le premier au monde à mettre en œuvre la technologie HP Adaptive Lightling, qui compense automatiquement le manque de lumière dans les zones sombres des images et préserve ainsi les détails des ombres sans risque de surexposition (ce qui est très important lors de la prise de vue de scènes à contraste élevé). L'algorithme de HP Adaptive Lightling est basé sur les principes énoncés par le scientifique anglais Edwin Land dans la théorie de la perception visuelle humaine RETINEX.

Menu des fonctions d'éclairage adaptatif HP

Comment fonctionne l'éclairage adaptatif ? Après avoir obtenu une image image 12 bits, une image monochrome auxiliaire en est extraite, qui est en fait une light map. Lors du traitement d'une image, cette carte est utilisée comme un masque qui permet d'ajuster le degré d'influence d'un filtre numérique assez complexe sur l'image. Ainsi, dans les zones correspondant aux points les plus sombres de la carte, l'impact sur l'image de la future image est minime, et inversement. Cette approche vous permet d'afficher des détails dans les ombres en éclaircissant sélectivement ces zones et, par conséquent, en réduisant le contraste global de l'image résultante.

Il convient de noter que lorsque la fonction d'éclairage adaptatif est activée, l'image capturée est traitée de la manière décrite ci-dessus avant que l'image finale ne soit écrite dans un fichier. Toutes les opérations décrites sont effectuées automatiquement et l'utilisateur ne peut sélectionner qu'un des deux modes d'éclairage adaptatif dans le menu de l'appareil photo (niveau d'exposition faible ou élevé) ou désactiver cette fonction.

D'une manière générale, bon nombre des fonctions spécifiques des appareils photo numériques modernes (y compris les systèmes de reconnaissance faciale abordés dans l'article précédent) sont en quelque sorte des sous-produits ou des produits de conversion de projets de recherche initialement réalisés pour des clients militaires. En ce qui concerne les fonctions d'optimisation de la plage dynamique de l'image, l'un des fournisseurs les plus connus de ces solutions est Apical. Les algorithmes créés par ses employés, en particulier, sous-tendent le fonctionnement de la fonction SAT (Shadow Adjustment Technology - technologie de correction des ombres) mise en œuvre dans un certain nombre d'appareils photo numériques Olympus. Brièvement, le fonctionnement de la fonction SAT peut être décrit comme suit : sur la base de l'image d'origine, un masque est créé correspondant aux zones les plus sombres, puis le niveau d'exposition est automatiquement corrigé pour ces zones.

Sony a également acquis une licence pour le droit d'utiliser les développements d'Apical. De nombreux modèles d'appareils photo compacts de la série Cyber-shot et d'appareils photo reflex de la série alpha disposent d'une fonction dite d'optimisation de la plage dynamique (Dynamic Range Optimizer, DRO).

Photos prises avec l'appareil HP Photosmart R927 éteint (en haut)
et éclairage adaptatif activé

La correction d'image lorsque DRO est activé est effectuée dans le processus de traitement d'image principal (c'est-à-dire avant l'enregistrement du fichier fini Format JPEG). Dans la version de base, DRO a un réglage en deux étapes (dans le menu, vous pouvez sélectionner le mode standard ou étendu de son fonctionnement). Lorsque le mode Standard est sélectionné, sur la base de l'analyse de l'image, l'exposition est corrigée pour la valeur d'exposition, puis une courbe de tonalité est appliquée à l'image pour égaliser l'équilibre global. Le mode avancé utilise un algorithme plus complexe qui vous permet d'apporter des corrections à la fois dans les ombres et dans les hautes lumières.

Les développeurs de Sony travaillent constamment à l'amélioration de l'algorithme DRO. Par exemple, dans l'appareil photo reflex a700, lorsque le mode DRO avancé est activé, il est possible de sélectionner l'une des cinq options de correction. De plus, il est possible d'enregistrer trois variantes d'une image à la fois (une sorte de bracketing) avec différents paramètres DRO.

De nombreux appareils photo numériques Nikon sont équipés du D-Lighting, qui est également basé sur les algorithmes Apical. Certes, contrairement aux solutions décrites ci-dessus, le D-Lighting est implémenté comme un filtre pour traiter les images précédemment enregistrées à l'aide d'une courbe de tonalité, dont la forme vous permet d'éclaircir les ombres, tout en gardant le reste de l'image inchangé. Mais comme dans ce cas, des images 8 bits prêtes à l'emploi sont traitées (et non l'image originale du cadre, qui a une profondeur de bits plus élevée et, par conséquent, une plage dynamique plus large), les possibilités de D-Lighting sont très limitées. L'utilisateur peut obtenir le même résultat en traitant l'image dans un éditeur graphique.

Lors de la comparaison de fragments agrandis, on voit clairement que les zones sombres de l'image originale (à gauche)
lorsque la fonction d'éclairage adaptatif est activée, ils deviennent plus clairs

Il existe également un certain nombre de solutions basées sur d'autres principes. Ainsi, dans de nombreux appareils photo de la famille Panasonic Lumix (en particulier, DMC-FX35, DMC-TZ4, DMC-TZ5, DMC-FS20, DMC-FZ18, etc.), la fonction de reconnaissance de l'éclairage (exposition intelligente) est implémentée, ce qui est un partie intégrante du système contrôle de tir automatique intelligent iA. La fonction d'exposition intelligente est basée sur l'analyse automatique de l'image du cadre et la correction des zones sombres de l'image pour éviter la perte de détails dans les ombres, ainsi que (si nécessaire) la compression de la plage dynamique des scènes à contraste élevé.

Dans certains cas, le fonctionnement de la fonction d'optimisation de la plage dynamique fournit non seulement certaines opérations de traitement de l'image d'origine, mais également la correction des paramètres de prise de vue. Par exemple, dans les nouveaux modèles d'appareils photo numériques Fujifilm (en particulier dans le FinePix S100FS), la fonction d'extension de la plage dynamique (Wide Dynamic Range, WDR) est implémentée, ce qui, selon les développeurs, vous permet d'augmenter la latitude photographique par une ou deux étapes (en termes de paramètres - 200 et 400%).

Lorsque la fonction WDR est activée, l'appareil photo prend des photos avec une correction d'exposition de -1 ou -2 EV (selon le réglage sélectionné). Ainsi, l'image du cadre est sous-exposée - cela est nécessaire pour conserver le maximum d'informations sur les détails dans les hautes lumières. Ensuite, l'image résultante est traitée à l'aide d'une courbe de tonalité, ce qui vous permet d'égaliser l'équilibre global et d'ajuster le niveau de noir. L'image est ensuite convertie au format 8 bits et enregistrée sous forme de fichier JPEG.

La compression de plage dynamique permet de conserver plus de détails
dans les lumières et les ombres, mais la conséquence inévitable d'un tel impact
est une diminution du contraste global. Sur l'image du bas
la texture des nuages ​​est beaucoup mieux travaillée, cependant
en raison du contraste plus faible, cette variante de l'image
semble moins naturel

Une fonction similaire appelée Dynamic Range Enlargement est implémentée dans un certain nombre d'appareils photo compacts et reflex Pentax (Optio S12, K200D, etc.). Selon le fabricant, l'utilisation de la fonction Dynamic Range Enlargement permet d'augmenter la latitude photographique des images de 1 EV sans perdre de détails dans les hautes lumières et les ombres.

Une fonction similaire appelée priorité aux hautes lumières (HTP) est implémentée dans un certain nombre de modèles de reflex Canon (EOS 40D, EOS 450D, etc.). D'après les informations du manuel d'utilisation, l'activation de HTP permet d'avoir plus de détails dans les hautes lumières (plus précisément, dans la plage de niveaux de 0 à 18 % de gris).

Conclusion

Résumons. La fonction de compression de plage dynamique intégrée vous permet de convertir l'image d'origine avec une large plage dynamique en un fichier JPEG 8 bits avec un minimum de dommages. En l'absence de sauvegarde d'images RAW, le mode de compression de plage dynamique permet au photographe d'utiliser tout le potentiel de son appareil photo lors de la prise de vue de scènes à contraste élevé.

Bien sûr, gardez à l'esprit que la compression de plage dynamique n'est pas un remède miracle, mais plutôt un compromis. La préservation des détails dans les hautes lumières et/ou les ombres se fait au prix d'un bruit accru dans les zones sombres de l'image, d'un contraste réduit et d'un certain grossissement des transitions tonales douces.

Comme toute fonction automatique, l'algorithme de compression de plage dynamique n'est pas une solution totalement universelle qui vous permet d'améliorer absolument n'importe quelle image. Par conséquent, il est logique de l'activer uniquement dans les cas où il est vraiment nécessaire. Par exemple, pour photographier une silhouette avec un arrière-plan bien développé, la fonction de compression de la plage dynamique doit être désactivée, sinon l'intrigue spectaculaire sera irrémédiablement gâchée.

En conclusion de l'examen de ce sujet, il convient de noter que l'utilisation des fonctions de compression de plage dynamique ne vous permet pas de «extraire» les détails de l'image résultante qui n'ont pas été capturés par le capteur de la caméra. Pour obtenir un résultat satisfaisant lors de la prise de vue de scènes à contraste élevé, il est nécessaire d'utiliser des dispositifs supplémentaires (par exemple, des filtres de dégradé pour photographier des paysages) ou des techniques spéciales (comme prendre plusieurs photos avec bracketing d'exposition puis les combiner en une seule image à l'aide de Tone Mapping technologie).

Le prochain article se concentrera sur la fonction de prise de vue en rafale.

À suivre

Réfléchissons à la question : pourquoi devons-nous augmenter le volume ? Afin d'entendre des sons faibles qui ne sont pas audibles dans nos conditions (par exemple, si vous ne pouvez pas écouter fort, s'il y a des bruits parasites dans la pièce, etc.). Est-il possible d'amplifier les sons faibles, mais pas les sons forts ? Il s'avère que vous pouvez. Cette technique s'appelle Dynamic Range Compression (DRC). Pour ce faire, vous devez modifier constamment le volume actuel - les sons faibles sont amplifiés, les forts ne le sont pas. La loi la plus simple du changement de volume est linéaire, c'est-à-dire le volume change selon la loi output_loudness = k * input_loudness, où k est le taux de compression de la plage dynamique :

Figure 18. Compression de plage dynamique.

Pour k = 1, aucun changement n'est effectué (le volume de sortie est égal au volume d'entrée). Fourchette< 1 громкость будет увеличиваться, а динамический диапазон - сужаться. Посмотрим на график (k=1/2) - тихий звук, имевший громкость -50дБ станет громче на 25дБ, что значительно громче, но при этом громкость диалогов (-27дБ) повысится всего лишь на 13.5дБ, а громкость самых громких звуков (0дБ) вообще не изменится. При k >1 - le volume diminuera et la plage dynamique augmentera.

Regardons les graphiques de sonie (k = 1/2 : compression DD de moitié) :

Figure 19. Graphiques de sonie.

Comme vous pouvez le voir dans l'original, il y avait à la fois des sons très calmes, 30 dB en dessous du niveau des dialogues, et des sons très forts - 30 dB au-dessus du niveau des dialogues. Ce. la plage dynamique était de 60 dB. Après compression, les sons forts ne sont que 15 dB plus élevés et les sons faibles sont 15 dB plus bas que les dialogues (la plage dynamique est maintenant de 30 dB). Ainsi, les sons forts deviennent beaucoup plus silencieux et les sons faibles deviennent beaucoup plus forts. Dans ce cas, aucun débordement ne se produit !

Passons maintenant aux histogrammes :

Figure 20. Un exemple de compression.

Comme vous pouvez le voir clairement, à +30dB de gain, la forme de l'histogramme est bien conservée, ce qui signifie que les sons forts restent bien définis (ne vont pas au maximum et ne sont pas coupés, comme c'est le cas avec un simple gain). Cela produit des sons calmes. L'histogramme le montre mal, mais la différence est très perceptible à l'oreille. L'inconvénient de la méthode est les mêmes sauts de volume. Cependant, le mécanisme de leur apparition diffère des sauts de volume qui se produisent lors de l'écrêtage, et leur nature est différente - ils apparaissent principalement lorsque les sons faibles sont très fortement amplifiés (et non lorsque les sons forts sont coupés, comme avec une amplification normale). Un niveau de compression excessif conduit à un aplatissement de l'image sonore - tous les sons ont tendance à avoir le même volume et la même inexpressivité.

Des sons faibles fortement amplifiés peuvent rendre audibles les bruits d'enregistrement. Par conséquent, un algorithme légèrement modifié est appliqué dans le filtre afin que le niveau de bruit augmente moins :

Figure 21. Augmenter le volume sans augmenter le bruit.

Ceux. à un niveau de volume de -50 dB, l'inflexion de la fonction de transfert se produit et le bruit sera moins amplifié (ligne jaune). En l'absence d'une telle inflexion, le bruit sera beaucoup plus fort (ligne grise). Une modification aussi simple réduit considérablement la quantité de bruit même à des niveaux de compression très élevés (compression 1:5 sur la figure). Le niveau "DRC" dans le filtre définit le niveau de gain pour les sons plus faibles (à -50dB), donc Le niveau de compression 1/5 indiqué sur la figure correspond au niveau +40 dB dans les réglages du filtre.

À une époque où les chercheurs commençaient à peine à résoudre le problème de la création d'une interface vocale pour les ordinateurs, ils devaient souvent fabriquer leur propre équipement permettant de saisir des informations audio dans un ordinateur, ainsi que de les émettre à partir d'un ordinateur. Aujourd'hui, de tels appareils ne présentent peut-être qu'un intérêt historique, car les ordinateurs modernes peuvent être facilement équipés de périphériques d'entrée et de sortie audio tels que des adaptateurs audio, des microphones, des écouteurs et des haut-parleurs.

Nous n'entrerons pas dans les détails de la structure interne de ces appareils, mais nous parlerons de leur fonctionnement et donnerons quelques recommandations pour choisir des appareils informatiques sonores pour travailler avec des systèmes de reconnaissance et de synthèse vocales.

Comme nous l'avons dit dans le chapitre précédent, le son n'est rien de plus que des vibrations de l'air dont la fréquence se situe dans la gamme de fréquences perçue par une personne. Chez différentes personnes, les limites exactes de la gamme de fréquences audibles peuvent varier, mais on pense que les vibrations sonores se situent entre 16 et 20 000 Hz.

La tâche d'un microphone est de convertir les vibrations sonores en vibrations électriques, qui peuvent ensuite être amplifiées, filtrées pour éliminer le bruit et numérisées pour entrer des informations sonores dans un ordinateur.

Selon le principe de fonctionnement, les microphones les plus courants sont divisés en carbone, électrodynamique, condensateur et électret. Certains de ces microphones nécessitent source externe courant (par exemple, charbon et condensateur), d'autres, sous l'influence des vibrations sonores, sont capables de générer indépendamment une tension électrique alternative (ce sont des microphones électrodynamiques et à électret).

Vous pouvez également séparer les microphones par objectif. Il existe des microphones de studio qui peuvent être tenus à la main ou montés sur un support, il existe des microphones radio qui peuvent être attachés aux vêtements, etc.

Il existe également des microphones spécialement conçus pour les ordinateurs. Ces microphones sont généralement montés sur un support placé sur la surface de la table. Les microphones d'ordinateur peuvent être combinés avec des écouteurs, comme illustré à la fig. 2-1.

Riz. 2-1. Casques avec microphone

Comment choisir parmi toute la variété de microphones celui qui convient le mieux aux systèmes de reconnaissance vocale ?

En principe, vous pouvez expérimenter avec n'importe quel microphone, tant qu'il peut être connecté à l'adaptateur audio de votre ordinateur. Cependant, les développeurs de systèmes de reconnaissance vocale recommandent d'acheter un microphone qui, pendant le fonctionnement, sera à une distance constante de la bouche de l'orateur.

Si la distance entre le microphone et la bouche ne change pas, le niveau moyen du signal électrique provenant du microphone ne changera pas non plus trop. Cela aura un impact positif sur la qualité des systèmes modernes de reconnaissance vocale.

Quel est le problème ici?

Une personne est capable de reconnaître avec succès la parole, dont le volume varie sur une très large plage. Le cerveau humain est capable de filtrer les paroles silencieuses des bruits tels que le bruit des voitures roulant dans la rue, les conversations superflues et la musique.

Quant aux systèmes de reconnaissance vocale modernes, leurs capacités dans ce domaine laissent beaucoup à désirer. Si le microphone est sur une table, lorsque vous tournez la tête ou changez la position de votre corps, la distance entre votre bouche et le microphone changera. Cela modifiera le niveau de sortie du microphone, ce qui dégradera la fiabilité de la reconnaissance vocale.

Par conséquent, lorsque vous travaillez avec des systèmes de reconnaissance vocale, les meilleurs résultats seront obtenus si vous utilisez un microphone attaché à un casque, comme illustré à la Fig. 2-1. Lors de l'utilisation d'un tel microphone, la distance entre la bouche et le microphone sera constante.

Nous attirons également votre attention sur le fait que toutes les expériences avec les systèmes de reconnaissance vocale sont mieux faites en isolement dans une pièce calme. Dans ce cas, l'influence des interférences sera minime. Bien sûr, si vous devez choisir un système de reconnaissance vocale capable de fonctionner dans des conditions de fortes interférences, les tests doivent être effectués différemment. Cependant, à la connaissance des auteurs du livre, l'immunité au bruit des systèmes de reconnaissance vocale est encore très, très faible.

Le microphone opère pour nous la transformation des vibrations sonores en vibrations. courant électrique. Ces fluctuations peuvent être vues sur l'écran de l'oscilloscope, mais ne vous précipitez pas au magasin pour acheter cet appareil coûteux. Nous pouvons réaliser toutes les études oscillographiques à l'aide d'un ordinateur classique équipé d'un adaptateur son, par exemple un adaptateur Sound Blaster. Plus tard, nous vous dirons comment le faire.

Sur la fig. 2-2 nous avons montré la forme d'onde signal sonore, résultant de la prononciation d'un son long a. Cette forme d'onde a été acquise à l'aide du programme GoldWave, que nous aborderons plus loin dans ce chapitre du livre, ainsi qu'à l'aide d'un adaptateur audio Sound Blaster et d'un microphone similaire à celui illustré à la Fig. 2-1.

Riz. 2-2. Oscillogramme du signal audio

Le programme GoldWave vous permet d'étirer la forme d'onde le long de l'axe du temps, ce qui vous permet de voir les moindres détails. Sur la fig. 2-3 nous avons montré un fragment étiré de l'oscillogramme du son a mentionné ci-dessus.

Riz. 2-3. Fragment d'oscillogramme d'un signal audio

Notez que l'amplitude du signal d'entrée du microphone change périodiquement et prend des valeurs positives et négatives.

Si une seule fréquence était présente dans le signal d'entrée (c'est-à-dire si le son était "propre"), la forme d'onde reçue du microphone serait sinusoïdale. Cependant, comme nous l'avons déjà dit, le spectre des sons de la parole humaine est constitué d'un ensemble de fréquences, de sorte que la forme de l'oscillogramme du signal de parole est loin d'être sinusoïdale.

Un signal dont l'amplitude change continuellement avec le temps, nous l'appellerons Signal analogique. C'est le signal provenant du microphone. Contrairement à l'analogique, signal numérique est un ensemble de valeurs numériques qui changent discrètement dans le temps.

Pour qu'un ordinateur traite un signal audio, il doit être converti de la forme analogique à la forme numérique, c'est-à-dire présenté comme un ensemble de valeurs numériques. Ce processus est appelé numérisation analogique.

La numérisation d'un signal audio (et de tout signal analogique) est effectuée à l'aide d'un appareil spécial appelé Convertisseur analogique-numérique ADC (convertisseur analogique-numérique, ADC). Cet appareil est situé sur la carte adaptateur son et est un microcircuit d'apparence ordinaire.

Comment fonctionne un convertisseur analogique-numérique ?

Il mesure périodiquement le niveau du signal d'entrée et délivre une valeur numérique du résultat de la mesure à la sortie. Ce processus est illustré sur la Fig. 2-4. Ici, les rectangles gris marquent les valeurs du signal d'entrée, mesurées avec un certain intervalle de temps constant. L'ensemble de ces valeurs est la représentation numérisée du signal analogique d'entrée.

Riz. 2-4. Mesures de la dépendance de l'amplitude du signal au temps

Sur la fig. Dans la figure 2-5, nous avons montré la connexion d'un convertisseur analogique-numérique à un microphone. Dans ce cas, un signal analogique est appliqué à l'entrée x 1, et un signal numérique est retiré des sorties u 1 -u n.

Riz. 2-5. Convertisseur analogique-numérique

Les convertisseurs analogique-numérique sont caractérisés par deux paramètres importants - la fréquence de conversion et le nombre de niveaux de quantification du signal d'entrée. Une sélection appropriée de ces paramètres est essentielle pour obtenir une numérisation adéquate d'un signal analogique.

À quelle fréquence devez-vous mesurer la valeur d'amplitude du signal analogique d'entrée afin que les informations sur les modifications du signal analogique d'entrée ne soient pas perdues à la suite de la numérisation ?

Il semblerait que la réponse soit simple - le signal d'entrée doit être mesuré aussi souvent que possible. En effet, plus un convertisseur analogique-numérique effectue souvent de telles mesures, mieux il suivra les moindres changements d'amplitude du signal d'entrée analogique.

Cependant, des mesures trop fréquentes peuvent conduire à une augmentation injustifiée du flux de données numériques et à un gaspillage de ressources informatiques dans le traitement du signal.

Heureusement, choisir le bon taux de conversion (taux d'échantillonnage) est assez facile. Pour ce faire, il suffit de se référer au théorème de Kotelnikov, connu des spécialistes dans le domaine du traitement numérique du signal. Le théorème stipule que la fréquence de conversion doit être le double de la fréquence maximale du spectre du signal converti. Par conséquent, afin de numériser sans perdre la qualité du signal audio, dont la fréquence se situe dans la plage de 16 à 20 000 Hz, vous devez sélectionner une fréquence de conversion qui ne soit pas inférieure à 40 000 Hz.

Notez cependant que dans les équipements audio professionnels, la fréquence de conversion est sélectionnée plusieurs fois supérieure à la valeur spécifiée. Ceci est fait pour obtenir un très Haute qualité son numérisé. Pour les systèmes de reconnaissance vocale, cette qualité n'est pas pertinente, nous n'attirerons donc pas votre attention sur ce choix.

Et quelle fréquence de conversion est nécessaire pour numériser le son de la parole humaine ?

Étant donné que les sons de la parole humaine se situent dans la gamme de fréquences de 300 à 4 000 Hz, la fréquence de conversion minimale requise est de 8 000 Hz. Toutefois plusieurs logiciels d'ordinateur la reconnaissance vocale utilise le taux de conversion standard de 44 000 Hz pour les adaptateurs audio conventionnels. D'une part, un tel taux de conversion ne conduit pas à une augmentation excessive du flux de données numériques, et d'autre part, il assure une numérisation de la parole avec une qualité suffisante.

De retour à l'école, on nous a appris qu'avec toutes les mesures, des erreurs surviennent qui ne peuvent pas être complètement éliminées. De telles erreurs surviennent en raison de la résolution limitée des instruments de mesure, et également du fait que le processus de mesure lui-même peut introduire certains changements dans la valeur mesurée.

Le convertisseur analogique-numérique représente le signal analogique d'entrée sous la forme d'un flux de nombres de capacité limitée. Les adaptateurs audio conventionnels contiennent des blocs ADC 16 bits capables de représenter l'amplitude du signal d'entrée sous la forme de 216 = 65536 valeurs différentes. Les dispositifs ADC des équipements audio haut de gamme peuvent être de 20 bits, offrant une plus grande précision dans la représentation de l'amplitude du signal audio.

Des systèmes et des programmes modernes de reconnaissance vocale ont été créés pour des ordinateurs ordinaires équipés d'adaptateurs sonores ordinaires. Par conséquent, pour effectuer des expériences de reconnaissance vocale, vous n'avez pas besoin d'acheter un adaptateur audio professionnel. Un adaptateur tel que Sound Blaster est tout à fait adapté à la numérisation de la parole pour une reconnaissance ultérieure.

En plus du signal utile, divers bruits pénètrent généralement dans le microphone - bruit de la rue, bruit du vent, conversations étrangères, etc. Le bruit a un impact négatif sur la qualité des systèmes de reconnaissance vocale, il faut donc s'en occuper. L'une des façons que nous avons déjà mentionnées est que les systèmes de reconnaissance vocale d'aujourd'hui sont mieux utilisés dans une pièce calme, en restant seul avec l'ordinateur.

Cependant, les conditions idéales ne peuvent pas toujours être créées, vous devez donc utiliser des méthodes spéciales pour vous débarrasser des interférences. Pour réduire le niveau de bruit, des astuces spéciales sont utilisées dans la conception des microphones et des filtres spéciaux qui suppriment les fréquences du spectre du signal analogique qui ne transportent pas d'informations utiles. De plus, une technique telle que la compression de la plage dynamique des niveaux de signal d'entrée est utilisée.

Parlons de tout cela dans l'ordre.

filtre de fréquence Un appareil qui convertit le spectre de fréquences d'un signal analogique est appelé. Dans ce cas, dans le processus de transformation, la sélection (ou l'absorption) des oscillations de certaines fréquences se produit.

Vous pouvez considérer cet appareil comme une sorte de boîte noire avec une entrée et une sortie. Par rapport à notre situation, un microphone sera connecté à l'entrée du filtre de fréquence, et un convertisseur analogique-numérique sera connecté à la sortie.

Les filtres de fréquence sont différents :

filtres passe-bas ;

Filtres passe-haut

Filtres passe-bande passants

bloquer les filtres passe-bande.

Filtres passe-bas(filtre passe-bas) supprime du spectre du signal d'entrée toutes les fréquences dont les valeurs sont inférieures à un certain seuil de fréquence, en fonction du réglage du filtre.

Étant donné que les signaux audio se situent dans la plage de 16 à 20 000 Hz, toutes les fréquences inférieures à 16 Hz peuvent être coupées sans dégrader la qualité sonore. Pour la reconnaissance vocale, la gamme de fréquences de 300 à 4000 Hz est importante, de sorte que les fréquences inférieures à 300 Hz peuvent être supprimées. Dans ce cas, tous les bruits dont le spectre de fréquence est inférieur à 300 Hz seront coupés du signal d'entrée et n'interféreront pas avec le processus de reconnaissance vocale.

De même, filtres passe-haut(filtre passe-haut) coupe du spectre du signal d'entrée toutes les fréquences au-dessus d'un certain seuil de fréquence.

Les humains ne peuvent pas entendre les sons à des fréquences de 20 000 Hz ou plus, ils peuvent donc être coupés du spectre sans détérioration notable de la qualité sonore. En ce qui concerne la reconnaissance vocale, toutes les fréquences supérieures à 4000 Hz peuvent être supprimées, ce qui entraînera une réduction significative du niveau d'interférence haute fréquence.

Filtre passe-bande(filtre passe-bande) peut être considéré comme une combinaison d'un filtre passe-bas et d'un filtre passe-haut. Un tel filtre arrête toutes les fréquences en dessous de la soi-disant fréquence de passage inférieure, ainsi que ci-dessus fréquence passe-haut.

Ainsi, pour un système de reconnaissance vocale, un filtre passe-bande passe-bande est pratique, ce qui retarde toutes les fréquences, à l'exception des fréquences comprises entre 300 et 4000 Hz.

Quant aux filtres coupe-bande (filtre coupe-bande), ils permettent de couper du spectre du signal d'entrée toutes les fréquences qui se situent dans une plage donnée. Un tel filtre est pratique, par exemple, pour supprimer le bruit qui occupe une certaine partie continue du spectre du signal.

Sur la fig. 2 à 6, nous avons montré la connexion d'un filtre pass-through.

Riz. 2-6. Filtrage du signal audio avant numérisation

Je dois dire que les adaptateurs de son habituels installés dans l'ordinateur ont un filtre passe-bande à travers lequel passe le signal analogique avant la numérisation. La bande passante d'un tel filtre correspond généralement à la plage des signaux audio, à savoir 16-20 000 Hz (dans différents adaptateurs audio, les valeurs des fréquences supérieures et inférieures peuvent varier légèrement).

Et comment obtenir une bande passante plus étroite de 300-4000 Hz, correspondant à la partie la plus informative du spectre de la parole humaine ?

Bien sûr, si vous avez un penchant pour la conception d'équipements électroniques, vous pouvez créer votre propre filtre à partir d'une puce d'amplificateur opérationnel, de résistances et de condensateurs. C'est exactement ce qu'ont fait les premiers créateurs de systèmes de reconnaissance vocale.

Cependant systèmes industriels la reconnaissance vocale doit pouvoir fonctionner sur du matériel informatique standard, de sorte que la manière de créer un filtre passe-bande spécial ne convient pas ici.

Au lieu de cela, dans systèmes modernes le traitement de la parole utilise ce qu'on appelle filtres de fréquence numériques implémenté dans le logiciel. Cela est devenu possible après CPU l'ordinateur est devenu assez puissant.

Un filtre de fréquence numérique implémenté dans un logiciel convertit un signal numérique d'entrée en un signal numérique de sortie. Pendant le processus de conversion, le programme traite de manière spéciale le flux de valeurs numériques de l'amplitude du signal provenant du convertisseur analogique-numérique. Le résultat de la conversion sera également un flux de nombres, mais ce flux correspondra au signal déjà filtré.

En parlant du convertisseur analogique-numérique, nous avons noté une caractéristique aussi importante que le nombre de niveaux de quantification. Si un convertisseur analogique-numérique 16 bits est installé dans l'adaptateur audio, après la numérisation, les niveaux de signal audio peuvent être représentés par 216 = 65536 valeurs différentes.

S'il y a peu de niveaux de quantification, alors le soi-disant bruit de quantification. Pour réduire ce bruit, les systèmes de numérisation audio de haute qualité doivent utiliser des convertisseurs analogique-numérique avec le nombre maximum de niveaux de quantification disponibles.

Cependant, il existe une autre astuce pour réduire l'effet du bruit de quantification sur la qualité du signal audio, qui est utilisée dans les systèmes d'enregistrement sonore numérique. En utilisant cette technique, le signal est passé à travers un amplificateur non linéaire avant la numérisation, ce qui accentue les signaux avec une petite amplitude de signal. Cet appareil amplifie signaux faibles plus fort que fort.

Ceci est illustré par le tracé de l'amplitude du signal de sortie par rapport à l'amplitude du signal d'entrée illustré à la Fig. 2-7.

Riz. 2-7. Amplification non linéaire avant numérisation

Lors de l'étape de reconversion de l'audio numérisé en analogique (dont nous parlerons plus loin dans ce chapitre), le signal analogique est à nouveau passé par un amplificateur non linéaire avant d'être émis vers les haut-parleurs. Cette fois, on utilise un amplificateur différent qui accentue les signaux de grande amplitude et a une caractéristique de transfert (dépendance de l'amplitude du signal de sortie sur l'amplitude du signal d'entrée) opposée à celle utilisée lors de la numérisation.

Comment tout cela peut-il aider les créateurs de systèmes de reconnaissance vocale ?

Une personne, comme vous le savez, est assez douée pour reconnaître un discours prononcé à voix basse ou à voix assez forte. On peut dire que la plage dynamique des niveaux de volume de la parole reconnue avec succès pour une personne est assez large.

Aujourd'hui systèmes informatiques La reconnaissance vocale, malheureusement, ne peut pas encore s'en vanter. Cependant, afin d'élargir légèrement la plage dynamique spécifiée avant la numérisation, il est possible de faire passer le signal du microphone à travers un amplificateur non linéaire, dont la caractéristique de transfert est illustrée à la Fig. 2-7. Cela réduira le niveau de bruit de quantification lors de la numérisation de signaux faibles.

Les développeurs de systèmes de reconnaissance vocale, encore une fois, sont obligés de se concentrer principalement sur les adaptateurs sonores disponibles dans le commerce. Ils ne permettent pas la conversion de signal non linéaire décrite ci-dessus.

Cependant, il est possible de créer l'équivalent logiciel d'un amplificateur non linéaire qui convertit le signal numérisé avant de le transmettre au module de reconnaissance vocale. Et bien qu'un tel amplificateur logiciel ne puisse pas réduire le bruit de quantification, il peut être utilisé pour accentuer les niveaux de signal qui transportent le plus d'informations vocales. Par exemple, vous pouvez réduire l'amplitude des signaux faibles, débarrassant ainsi le signal du bruit.

La compression est l'un des sujets les plus mythiques de la production sonore. On dit que Beethoven a même fait peur aux enfants de son voisin :(

Bon, en fait, appliquer la compression n'est pas plus difficile que d'utiliser la distorsion, l'essentiel est de comprendre comment ça marche et d'avoir bon contrôle. Ce que nous sommes maintenant ensemble et assurez-vous.

Qu'est-ce que la compression audio

La première chose à comprendre avant la préparation est que la compression est travailler avec la plage dynamique du son. Et , à son tour, n'est rien de plus que la différence entre le niveau de signal le plus fort et le plus faible :

Alors voilà la compression est la compression de la plage dynamique. Oui, Juste compression de plage dynamique, ou en d'autres termes baisser le volume des parties fortes du signal et augmenter le volume des parties calmes. Pas plus.

Vous pouvez tout à fait raisonnablement vous demander quelle est la raison d'un tel battage médiatique ? Pourquoi tout le monde parle de recettes pour un réglage correct du compresseur, mais personne ne les partage ? Pourquoi, malgré un grand nombre de plugins sympas, de nombreux studios utilisent-ils encore des modèles de compresseurs rares et chers ? Pourquoi certains producteurs utilisent-ils des compresseurs à des réglages extrêmes, tandis que d'autres ne les utilisent pas du tout ? Et lequel a raison au final ?

Problèmes que la compression résout

Les réponses à ces questions se situent dans le plan de la compréhension du rôle de la compression dans le travail avec le son. Et cela permet :

  1. Mettre l'accent sur l'attaque son, rendez-le plus prononcé;
  2. « Placer » des parties individuelles d'instruments dans le mixage, en leur ajoutant de la puissance et du "poids" ;
  3. Rendre les groupes d'instruments ou l'ensemble du mix plus cohérents, un tel monolithe unique ;
  4. Résoudre les conflits entre les outils utiliser la chaîne latérale ;
  5. Corriger les défauts du chanteur ou des musiciens, nivelant leur dynamique;
  6. Avec un certain réglage agir comme un effet artistique.

Comme vous pouvez le voir, ce n'est pas un processus créatif moins important que, par exemple, inventer des mélodies ou jouer des timbres intéressants. Dans ce cas, l'une des tâches ci-dessus peut être résolue en utilisant 4 paramètres principaux.

Paramètres principaux du compresseur

Malgré le grand nombre de modèles logiciels et matériels de compresseurs, toute la "magie" de la compression se produit avec les réglages corrects des principaux paramètres : Threshold, Ratio, Attack et Release. Considérons-les plus en détail:

Seuil ou seuil, dB

Ce paramètre vous permet de définir la valeur à laquelle le compresseur fonctionnera (c'est-à-dire compressera le signal audio). Ainsi, si nous fixons le seuil à -12 dB, le compresseur ne se déclenchera qu'aux endroits de la plage dynamique qui dépassent cette valeur. Si tout notre son est plus silencieux que -12db, le compresseur le passera simplement à travers lui-même sans l'affecter en aucune façon.

Rapport ou rapport d'aspect

Le paramètre ratio détermine le degré de compression du signal s'il dépasse le seuil. Un peu de maths pour compléter le tableau : disons que nous configurons un compresseur avec un seuil de -12dB, un ratio de 2:1 et que nous lui appliquons boucle de batterie, où le volume du kick est de -4dB. Quel sera le résultat du fonctionnement du compresseur dans ce cas ?

Dans notre cas, le niveau de kick dépasse le seuil de 8 dB. Cette différence sera compressée à 4dB (8dB/2) selon le ratio. Avec la partie non traitée du signal, cela conduira au fait qu'après traitement par le compresseur, le volume du coup de pied sera de -8db (seuil -12dB + 4dB signal compressé).

Attaque, madame

C'est le temps après lequel le compresseur réagira au dépassement du seuil. Autrement dit, si le temps d'attaque est supérieur à 0 ms - le compresseur commence à comprimer le dépassement du signal de seuil n'est pas instantané, mais après le temps spécifié.

Libération ou récupération, ms

L'opposé d'une attaque - la valeur de ce paramètre vous permet de spécifier combien de temps après le retour du niveau du signal sous le seuil le compresseur arrêtera de comprimer.

Avant de continuer, je recommande fortement de prendre un échantillon bien connu, de fixer n'importe quel compresseur à son canal et d'expérimenter les paramètres ci-dessus pendant 5 à 10 minutes pour fixer solidement le matériau.

Tous les autres paramètres sont facultatifs. Ils peuvent différer entre les différents modèles de compresseurs, ce qui explique en partie pourquoi les producteurs utilisent différents modèles à des fins spécifiques (par exemple, un compresseur pour le chant, un autre pour un groupe de batterie, un troisième pour un canal maître). Je ne m'attarderai pas sur ces paramètres en détail, mais donnerai seulement informations générales pour comprendre de quoi il s'agit :

  • Genou ou pli (genou dur/mou). Ce paramètre détermine la rapidité avec laquelle le taux de compression (ratio) sera appliqué : dur sur une courbe ou lisse. Je note qu'en mode Soft Knee, le compresseur ne fonctionne pas en ligne droite, mais démarre en douceur (dans la mesure où cela peut convenir quand on parle de millisecondes) pour resserrer le son déjà avant la valeur du seuil. Pour traiter des groupes de canaux et le mixage global, le soft knee est plus souvent utilisé (puisqu'il fonctionne de manière imperceptible), et le hard knee est utilisé pour accentuer l'attaque et d'autres caractéristiques des instruments individuels ;
  • Mode de réponse : Crête/RMS. Le mode Peak se justifie lorsqu'il s'agit de limiter sévèrement les rafales d'amplitude, ainsi que sur des signaux à la forme complexe dont la dynamique et la lisibilité doivent être parfaitement restituées. Le mode RMS est très doux sur le son, permettant de le condenser, tout en conservant l'attaque ;
  • Prévoyance (anticipation). C'est le temps pendant lequel le compresseur saura à quoi s'attendre. Une sorte d'analyse préliminaire des signaux entrants ;
  • Maquillage ou Gain. Paramètre qui permet de compenser la baisse de volume due à la compression.

D'abord et la plupart conseil principal , ce qui enlève toute autre question sur la compression : si vous a) comprenez le principe de la compression, b) vous savez parfaitement comment tel ou tel paramètre affecte le son, et c) avez réussi à en essayer plusieurs différents modèlestu n'as pas besoin de conseils.

Je suis absolument sérieux. Si vous lisez attentivement cette entrée, expérimenté avec le compresseur régulier de votre CHOUCAS et un ou deux plugins, mais je n'ai toujours pas compris dans quels cas il est nécessaire de définir de grandes valeurs d'attaque, quel rapport utiliser et dans quel mode traiter le signal d'origine - vous continuerez alors à rechercher sur Internet des recettes toutes faites, les utiliser n'importe où sans réfléchir.

Recettes de réglage fin du compresseur c'est un peu comme des recettes pour peaufiner une réverbération ou un chorus - dépourvues de sens et n'ayant rien à voir avec la créativité. Par conséquent, je répète avec insistance la seule vraie recette : armez-vous de cet article, bon casque d'écoute, un plug-in pour le contrôle visuel de la forme d'onde et passer la soirée en compagnie d'un couple de compresseurs.

Passer à l'action!




Haut