Skaņas pārvēršana skaitļu plūsmā. Runas sintēze un atpazīšana. Mūsdienīgi risinājumi. Datoru audio tehnika. Audio pārveidošana skaitļu straumē Dinamiskais diapazons saspiests vai standarta

Sērijas otrā daļa ir veltīta attēlu dinamiskā diapazona optimizēšanas funkcijām. Tajā mēs pastāstīsim, kāpēc šādi risinājumi ir nepieciešami, apsvērsim dažādas to ieviešanas iespējas, kā arī to priekšrocības un trūkumus.

Aptveriet bezgalību

Ideālā gadījumā kamerai vajadzētu uzņemt apkārtējās pasaules attēlu, kādu cilvēks to uztver. Taču, ņemot vērā to, ka kameras un cilvēka acs “redzes” mehānismi būtiski atšķiras, pastāv virkne ierobežojumu, kas neļauj izpildīt šo nosacījumu.

Viena no problēmām, ar ko iepriekš saskārās filmu kameru lietotāji un ar ko saskaras arī tagad digitālo fotokameru īpašnieki, ir nespēja adekvāti uzņemt ainas ar lielām apgaismojuma atšķirībām, neizmantojot īpašas ierīces un/vai īpašas fotografēšanas metodes. Cilvēka vizuālās sistēmas īpatnības ļauj vienlīdz labi uztvert liela kontrasta ainu detaļas gan spilgti apgaismotās, gan tumšās vietās. Diemžēl kameras sensors ne vienmēr spēj uzņemt attēlu tā, kā mēs to redzam.

Jo lielāka ir fotografētā sižeta spilgtuma atšķirība, jo lielāka ir detaļu zuduma iespējamība izgaismotajās vietās un/vai ēnās. Rezultātā zilu debesu vietā ar sulīgiem mākoņiem attēls izrādās tikai bālgans plankums, un objekti, kas atrodas ēnās, pārvēršas neizteiktos tumšos siluetos vai pilnībā saplūst ar apkārtējo vidi.

Klasiskajā fotogrāfijā jēdziens fotografēšanas platums(Sīkāku informāciju skatiet sānjoslā). Teorētiski digitālo kameru fotografēšanas platumu nosaka analogā-digitālā pārveidotāja (ADC) bitu dziļums. Piemēram, izmantojot 8 bitu ADC, ņemot vērā kvantēšanas kļūdu, teorētiski sasniedzamā fotogrāfiskā platuma vērtība būs 7 EV, 12 bitu ADC - 11 EV utt. Tomēr reālās ierīcēs attēlu dinamiskais diapazons izrādās tāds plkst tāds pats teorētiskais maksimums dažāda veida trokšņu un citu faktoru ietekmes dēļ.

Liela spilgtuma līmeņu atšķirība ir nopietna
problēma fotografējot. Šajā gadījumā kameras iespējas
izrādījās nepietiekami adekvātai pārraidei visvairāk
gaišās ainas zonas, un rezultātā zilā apgabala vietā
debesis (apzīmētas ar insultu) izrādās balts "plāksteris"

Maksimālo spilgtuma vērtību, ko var ierakstīt gaismas jutīgais sensors, nosaka tā šūnu piesātinājuma līmenis. Minimālā vērtība ir atkarīga no vairākiem faktoriem, tostarp matricas termiskā trokšņa daudzuma, lādiņa pārneses trokšņa un ADC kļūdas.

Ir arī vērts atzīmēt, ka vienas un tās pašas digitālās kameras fotografēšanas platums var atšķirties atkarībā no iestatījumos iestatītās jutības vērtības. Maksimālais dinamiskais diapazons ir sasniedzams, iestatot tā saukto pamata jutību (kas atbilst minimālajai iespējamajai skaitliskajai vērtībai). Palielinoties šī parametra vērtībai, pieaugošā trokšņa līmeņa dēļ dinamiskais diapazons samazinās.

Mūsdienu ar sensoriem aprīkoto digitālo kameru modeļu fotografēšanas plašums liels izmērs un 14 vai 16 bitu ADC, svārstās no 9 līdz 11 EV, kas ir ievērojami augstāks salīdzinājumā ar līdzīgiem 35 mm krāsu negatīvu filmu raksturlielumiem (vidēji no 4 līdz 5 EV). Tādējādi pat salīdzinoši lētām digitālajām kamerām ir pietiekams fotografēšanas platums, lai adekvāti atspoguļotu tipiskākās amatieru fotografēšanas ainas.

Tomēr pastāv cita veida problēma. Tas ir saistīts ar ierobežojumiem, ko nosaka esošie digitālo attēlu ierakstīšanas standarti. Izmantojot JPEG formātu ar 8 bitiem katrā krāsu kanālā (kas tagad ir kļuvis par de facto standartu digitālo attēlu ierakstīšanai datorindustrijā un digitālajās tehnoloģijās), pat teorētiski nav iespējams saglabāt attēlu ar fotografēšanas platumu, kas lielāks par 8 EV.

Pieņemsim, ka kameras ADC ļauj iegūt attēlu ar 12 vai 14 bitu dziļumu, kas satur saskatāmas detaļas gan izgaismotajos, gan ēnās. Taču, ja šī attēla fotografēšanas platums pārsniedz 8 EV, tad pārveidošanas procesā uz standarta 8 bitu formātu bez jebkādām papildu darbībām (tas ir, vienkārši atmetot “papildus” bitus), daļa no informācijas, ko ieraksta tiks zaudēts gaismas jutīgais sensors.

Dinamiskais diapazons un fotografēšanas platuma grādiem

Vienkārši sakot, dinamiskais diapazons ir definēts kā attēla maksimālās spilgtuma vērtības attiecība pret tā minimālo vērtību. Klasiskajā fotogrāfijā tradicionāli tiek lietots termins fotogrāfiskais platums, kas būtībā nozīmē vienu un to pašu.

Dinamiskā diapazona platumu var izteikt kā attiecību (piemēram, 1000:1, 2500:1 utt.), bet visbiežāk tas tiek darīts logaritmiskā mērogā. Šajā gadījumā tiek aprēķināta maksimālā spilgtuma un tās minimālās vērtības attiecības decimāllogaritma vērtība, un pēc cipara lielais burts D (no angļu valodas blīvums? - blīvums) vai retāk? - saīsinājums OD. (no angļu valodas optical density? - optical density) tiek likts. Piemēram, ja maksimālās spilgtuma vērtības attiecība pret ierīces minimālo vērtību ir 1000:1, tad dinamiskais diapazons būs vienāds ar 3,0 D:

Fotogrāfijas platuma mērīšanai tradicionāli tiek izmantotas tā sauktās ekspozīcijas vienības, saīsināti EV (ekspozīcijas vērtības; profesionāļi tās bieži sauc par “stopiem” vai “soļiem”). Tieši šajās vienībās parasti tiek iestatīta ekspozīcijas kompensācijas vērtība kameras iestatījumos. Fotogrāfijas platuma vērtības palielināšana par 1 EV ir līdzvērtīga maksimālā un minimālā spilgtuma līmeņu starpības dubultošanai. Tādējādi arī EV skala ir logaritmiska, taču šajā gadījumā skaitlisko vērtību aprēķināšanai tiek izmantots logaritms 2. Piemēram, ja ierīce spēj uzņemt attēlus ar maksimālo un minimālo spilgtuma attiecību 256:1, tad tā fotografēšanas platums būs 8 EV:

Saspiešana ir saprātīgs kompromiss

Lielākā daļa efektīvs veids Lai saglabātu visu attēla informāciju, ko ieraksta kameras gaismas jutīgais sensors, ir iespējams ierakstīt attēlus RAW formātā. Tomēr ne visām kamerām ir šāda funkcija, un ne katrs fotogrāfs amatieris ir gatavs iesaistīties rūpīgā atlases darbā. individuālie iestatījumi par katru uzņemto fotoattēlu.

Lai samazinātu iespējamību, ka tiks zaudētas liela kontrasta attēlu detaļas, kas kamerā pārveidotas 8 bitu JPEG formātā, ir ieviestas daudzu ražotāju ierīces (ne tikai kompaktās, bet arī spoguļkameras). īpašas funkcijas, kas ļauj saspiest saglabāto attēlu dinamisko diapazonu bez lietotāja iejaukšanās. Samazinot kopējo kontrastu un zaudējot nelielu daļu no sākotnējā attēla informācijas, šādi risinājumi ļauj saglabāt detaļas gaišajos un ēnās, ko 8 bitu JPEG formātā uztver ierīces gaismjutīgais sensors, pat ja attēla dinamiskais diapazons tiek saglabāts. sākotnējais attēls izrādījās platāks par 8 EV.

Viens no pionieriem šīs jomas attīstībā bija uzņēmums HP. 2003. gadā izlaistajā HP Photosmart 945 digitālajā kamerā bija pasaulē pirmā HP Adaptive Lightling tehnoloģija, kas automātiski kompensē vāju apgaismojuma līmeni fotoattēlu tumšās zonās un tādējādi saglabā ēnas detaļas bez pārmērīgas ekspozīcijas riska (kas ir ļoti svarīgi, fotografējot ar augstu apgaismojuma līmeni). kontrasta ainas). HP Adaptive Lightling algoritms ir balstīts uz angļu zinātnieka Edvīna Landa izvirzītajiem principiem cilvēka vizuālās uztveres RETINEX teorijā.

HP adaptīvā apgaismojuma izvēlne

Kā darbojas adaptīvais apgaismojums? Pēc attēla 12 bitu attēla iegūšanas no tā tiek iegūts papildu vienkrāsains attēls, kas faktiski ir izstarojuma karte. Apstrādājot attēlu, šī karte tiek izmantota kā maska, kas ļauj regulēt diezgan sarežģīta digitālā filtra ietekmes pakāpi uz attēlu. Tādējādi apgabalos, kas atbilst kartes tumšākajiem punktiem, ietekme uz nākotnes attēla attēlu ir minimāla un otrādi. Šī pieeja ļauj atklāt ēnu detaļas, selektīvi paspilgtinot šīs zonas un attiecīgi samazinot iegūtā attēla kopējo kontrastu.

Jāņem vērā, ka, ja ir iespējots adaptīvais apgaismojums, uzņemtais attēls tiek apstrādāts iepriekš aprakstītajā veidā, pirms gatavā attēla ierakstīšanas failā. Visas aprakstītās darbības tiek veiktas automātiski, un lietotājs kameras izvēlnē var izvēlēties tikai vienu no diviem adaptīvā apgaismojuma darbības režīmiem (zemu vai augstu ekspozīciju) vai atspējot šo funkciju.

Vispārīgi runājot, daudzas specifiskas mūsdienu digitālo kameru funkcijas (ieskaitot iepriekšējā rakstā apskatītās sejas atpazīšanas sistēmas) ir sava veida blakusprodukts vai pārveides produkts pētnieciskajam darbam, kas sākotnēji tika veikts militāriem klientiem. Runājot par attēla dinamiskā diapazona optimizācijas funkcijām, viens no pazīstamākajiem šādu risinājumu nodrošinātājiem ir Apical. Jo īpaši tās darbinieku izveidotie algoritmi ir SAT (Shadow Adjustment Technology) funkcijas pamatā, kas ieviesta vairākos Olympus digitālo kameru modeļos. Īsumā SAT funkcijas darbību var raksturot šādi: pamatojoties uz attēla sākotnējo attēlu, tiek izveidota maska, kas atbilst tumšākajiem apgabaliem, un pēc tam šiem apgabaliem tiek automātiski koriģēta ekspozīcijas vērtība.

Sony arī ieguva licenci Apical izstrādes izmantošanai. Daudzos Cyber-shot sērijas kompaktkameru modeļos un alfa sērijas DSLR kamerās ir tā sauktā dinamiskā diapazona optimizētāja (DRO) funkcija.

Fotoattēli, kas uzņemti ar izslēgtu HP Photosmart R927 (augšā)
un aktivizēta adaptīvā apgaismojuma funkcija

Kad DRO ir aktivizēts, attēla korekcija tiek veikta sākotnējās attēla apstrādes laikā (tas ir, pirms gatavā JPEG faila ierakstīšanas). Pamata versijā DRO ir divpakāpju iestatījums (izvēlnē varat izvēlēties standarta vai papildu darbības režīmu). Atlasot Standarta režīmu, ekspozīcijas līmeņi tiek pielāgoti, pamatojoties uz fotoattēla attēla analīzi, un pēc tam attēlam tiek piemērota toņu līkne, lai izlīdzinātu kopējo līdzsvaru. Uzlabotajā režīmā tiek izmantots sarežģītāks algoritms, kas ļauj veikt korekcijas gan ēnās, gan izgaismotajās vietās.

Sony izstrādātāji pastāvīgi strādā, lai uzlabotu DRO algoritmu. Piemēram, a700 spoguļkamerā, kad ir aktivizēts uzlabotais DRO režīms, ir iespējams izvēlēties vienu no piecām korekcijas iespējām. Turklāt ir iespējams vienlaikus saglabāt trīs viena attēla versijas (sava ​​veida dublēšana) ar dažādiem DRO iestatījumiem.

Daudziem Nikon digitālo kameru modeļiem ir D-Lighting funkcija, kas arī ir balstīta uz Apical algoritmiem. Tiesa, atšķirībā no iepriekš aprakstītajiem risinājumiem, D-Lighting ir realizēts kā filtrs iepriekš saglabāto attēlu apstrādei, izmantojot tonālo līkni, kuras forma ļauj padarīt ēnas gaišākas, vienlaikus saglabājot citas attēla zonas nemainīgas. Bet, tā kā šajā gadījumā tiek apstrādāti gatavie 8 bitu attēli (nevis oriģinālais kadra attēls, kuram ir lielāks bitu dziļums un attiecīgi plašāks dinamiskais diapazons), D-Lighting iespējas ir ļoti ierobežotas. Lietotājs var iegūt tādu pašu rezultātu, apstrādājot attēlu grafiskā redaktorā.

Salīdzinot palielinātos fragmentus, ir skaidri redzams, ka sākotnējā attēla tumšie apgabali (pa kreisi)
kad tika ieslēgta adaptīvā apgaismojuma funkcija, tie kļuva gaišāki

Ir arī vairāki risinājumi, kuru pamatā ir citi principi. Tādējādi daudzas Panasonic Lumix saimes kameras (jo īpaši DMC-FX35, DMC-TZ4, DMC-TZ5, DMC-FS20, DMC-FZ18 utt.) īsteno gaismas atpazīšanas funkciju (Intelligent Exposure), kas ir sistēmas neatņemama sastāvdaļa iA inteliģentā automātiskā fotografēšanas kontrole. Intelligent Exposure funkcija ir balstīta uz automātisku kadra attēla analīzi un attēla tumšo apgabalu korekciju, lai izvairītos no detaļu zuduma ēnās, kā arī (ja nepieciešams) augsta kontrasta ainu dinamiskā diapazona saspiešanu.

Dažos gadījumos dinamiskā diapazona optimizācijas funkcija ietver ne tikai noteiktas darbības oriģinālā attēla attēla apstrādei, bet arī fotografēšanas iestatījumu korekciju. Piemēram, jaunie Fujifilm digitālo kameru modeļi (jo īpaši FinePix S100FS) ievieš funkciju dinamiskā diapazona paplašināšanai (Wide Dynamic Range, WDR), kas, pēc izstrādātāju domām, ļauj palielināt fotografēšanas platumu par vienu vai divi soļi (iestatījumu terminoloģijā - 200 un 400%).

Kad WDR ir aktivizēts, kamera uzņem fotoattēlus ar ekspozīcijas kompensāciju -1 vai -2 EV (atkarībā no atlasītā iestatījuma). Tādējādi kadra attēls izrādās nepietiekami eksponēts - tas ir nepieciešams, lai saglabātu maksimālu informāciju par detaļām izcēlumos. Pēc tam iegūtais attēls tiek apstrādāts, izmantojot toņu līkni, kas ļauj izlīdzināt kopējo līdzsvaru un pielāgot melnās krāsas līmeni. Pēc tam attēls tiek pārveidots 8 bitu formātā un ierakstīts kā JPEG fails.

Dinamiskā diapazona saspiešana saglabā vairāk detaļu
gaismā un ēnā, bet šādas iedarbības neizbēgamas sekas
ir kopējā kontrasta samazināšanās. Apakšējā attēlā
tomēr mākoņu tekstūra ir daudz labāk attīstīta
zemāka kontrasta dēļ šī fotoattēla versija
izskatās mazāk dabiski

Līdzīga funkcija ar nosaukumu Dynamic Range Enlargement ir ieviesta vairākās Pentax kompaktajās un SLR kamerās (Optio S12, K200D utt.). Saskaņā ar ražotāja teikto, dinamiskā diapazona palielināšanas funkcijas izmantošana ļauj palielināt attēlu fotografēšanas platumu par 1 EV, nezaudējot detaļas gaišajos un ēnās.

Līdzīga funkcija ar nosaukumu Highlight tone priority (HTP) ir ieviesta vairākos Canon DSLR modeļos (EOS 40D, EOS 450D utt.). Saskaņā ar lietotāja rokasgrāmatu, aktivizējot HTP, tiek uzlabota izceltā informācija (konkrēti, pelēkā diapazonā no 0 līdz 18%).

Secinājums

Apkoposim. Iebūvētā dinamiskā diapazona saspiešana ļauj konvertēt augsta dinamiskā diapazona avota attēlu uz 8 bitu attēlu ar minimāliem bojājumiem JPEG fails. Bez iespējas saglabāt attēlus RAW formātā, dinamiskā diapazona saspiešanas režīms ļauj fotogrāfiem pilnīgāk izmantot savas kameras potenciālu, uzņemot augsta kontrasta ainas.

Protams, ir svarīgi atcerēties, ka dinamiskā diapazona saspiešana nav brīnumlīdzeklis, bet gan kompromiss. Detaļu saglabāšana izgaismotajās vietās un/vai ēnās ir saistīta ar trokšņu līmeņa paaugstināšanos attēla tumšajos apgabalos, kontrasta samazināšanos un vienmērīgu toņu pāreju rupjību.

Tāpat kā jebkura automātiska funkcija, arī dinamiskā diapazona saspiešanas algoritms nav pilnībā universāls risinājums, kas ļauj uzlabot absolūti jebkuru fotoattēlu. Tāpēc ir jēga to aktivizēt tikai gadījumos, kad tas patiešām ir nepieciešams. Piemēram, lai uzņemtu siluetu ar labi noformētu fonu, ir jāizslēdz dinamiskā diapazona saspiešanas funkcija – pretējā gadījumā iespaidīgā aina tiks bezcerīgi sabojāta.

Noslēdzot šīs tēmas apskatu, jāatzīmē, ka dinamiskā diapazona saspiešanas funkciju izmantošana neļauj iegūtajā attēlā “izvilkt” detaļas, kuras nav tvēris kameras sensors. Lai sasniegtu apmierinošus rezultātus, uzņemot augsta kontrasta ainas, iespējams, būs jāizmanto papildu rīki (piemēram, gradienta filtri ainavu fotografēšanai) vai īpašas metodes (piemēram, vairāku kadru uzņemšana ar ekspozīcijas dublēšanu un pēc tam to sapludināšana vienā attēlā, izmantojot tehnoloģiju Tone Mapping. ).

Nākamajā rakstā galvenā uzmanība tiks pievērsta sērijveida funkcijai.

Turpinājums sekos

Padomāsim par jautājumu – kāpēc mums jāpagriež skaļāk? Lai dzirdētu klusas skaņas, kas mūsu apstākļos nav dzirdamas (piemēram, ja nevarat klausīties skaļi, ja telpā ir svešs troksnis utt.). Vai ir iespējams pastiprināt klusas skaņas, atstājot skaļas mierā? Izrādās, ka tas ir iespējams. Šo paņēmienu sauc par dinamiskā diapazona saspiešanu (DRC). Lai to izdarītu, jums pastāvīgi jāmaina pašreizējais skaļums - jāpastiprina klusas skaņas, skaļas - ne. Vienkāršākais tilpuma izmaiņu likums ir lineārs, t.i. Skaļums mainās atbilstoši likumam output_loudness = k * input_loudness, kur k ir dinamiskā diapazona kompresijas pakāpe:

18. attēls. Dinamiskā diapazona saspiešana.

Ja k = 1, izmaiņas netiek veiktas (izvades apjoms ir vienāds ar ievades skaļumu). Pie k< 1 громкость будет увеличиваться, а динамический диапазон - сужаться. Посмотрим на график (k=1/2) - тихий звук, имевший громкость -50дБ станет громче на 25дБ, что значительно громче, но при этом громкость диалогов (-27дБ) повысится всего лишь на 13.5дБ, а громкость самых громких звуков (0дБ) вообще не изменится. При k >1 - samazināsies skaļums un palielināsies dinamiskais diapazons.

Apskatīsim skaļuma grafikus (k = 1/2: DD saspiešana ir dubultota):

19. attēls. Skaļuma grafiki.

Kā redzat oriģinālā, bija gan ļoti klusas skaņas, 30 dB zem dialoga līmeņa, gan ļoti skaļas - 30 dB virs dialoga līmeņa. Tas. dinamiskais diapazons bija 60 dB. Pēc saspiešanas skaļas skaņas ir tikai par 15 dB augstākas, bet klusās skaņas ir par 15 dB zemākas nekā dialogs (dinamiskais diapazons tagad ir 30 dB). Tādējādi skaļas skaņas kļuva ievērojami klusākas, un klusās skaņas kļuva ievērojami skaļākas. Šajā gadījumā nav pārplūdes!

Tagad apskatīsim histogrammas:

20. attēls. Saspiešanas piemērs.

Kā jūs varat skaidri redzēt, ar pastiprinājumu līdz +30dB, histogrammas forma ir labi saglabāta, kas nozīmē, ka skaļas skaņas paliek labi izteiktas (tās neiet uz maksimumu un netiek nogrieztas, kā tas notiek ar vienkāršu pastiprinājumu) . Tas rada klusas skaņas. Histogramma to parāda slikti, taču atšķirība ir ļoti pamanāma no auss. Šīs metodes trūkums ir vienādi skaļuma lēcieni. Tomēr to rašanās mehānisms atšķiras no skaļuma lēcieniem, kas rodas griešanas laikā, un to raksturs ir atšķirīgs - tie parādās galvenokārt tad, kad klusas skaņas ir ļoti spēcīgi pastiprinātas (un nevis tad, kad tiek nogrieztas skaļas, kā ar parasto pastiprinājumu). Pārmērīgs kompresijas līmenis noved pie skaņas attēla saplacināšanas - visas skaņas mēdz būt vienādas skaļuma un neizteiksmības.

Pārmērīga klusu skaņu pastiprināšana var izraisīt ierakstīšanas troksni, kas kļūst dzirdams. Tāpēc filtrs izmanto nedaudz modificētu algoritmu, lai trokšņa līmenis pieaugtu mazāk:

21. attēls. Skaļuma palielināšana, nepalielinot troksni.

Tie. ja skaļuma līmenis ir -50 dB, pārsūtīšanas funkcija izliekas, un troksnis tiks pastiprināts mazāk (dzeltenā līnija). Ja šāda izliekuma nav, troksnis būs daudz skaļāks (pelēka līnija). Šī vienkāršā modifikācija ievērojami samazina trokšņu daudzumu pat ļoti augstā kompresijas līmenī (attēlā kompresija 1:5). Filtra “DRC” līmenis nosaka pastiprinājuma līmeni klusām skaņām (pie -50 dB), t.i. Attēlā redzamais 1/5 kompresijas līmenis atbilst +40dB līmenim filtra iestatījumos.

Laikā, kad pētnieki tikai sāka risināt runas interfeisa izveides problēmu datoriem, bieži nācās izgatavot pašiem savu aprīkojumu, kas ļautu audio informāciju ievadīt datorā un arī izvadīt to no datora. Mūsdienās šādas ierīces var būt tikai vēsturiskas, jo mūsdienu datorus var viegli aprīkot ar audio ievades un izvades ierīcēm, piemēram, skaņas adapteriem, mikrofoniem, austiņām un skaļruņiem.

Mēs neiedziļināsimies šo ierīču iekšējās struktūras detaļās, bet runāsim par to darbību un sniegsim dažus ieteikumus audio datoru ierīču izvēlei darbam ar runas atpazīšanas un sintēzes sistēmām.

Kā jau teicām iepriekšējā nodaļā, skaņa ir nekas cits kā gaisa vibrācijas, kuru frekvence atrodas cilvēka uztveramo frekvenču diapazonā. Precīzas skaņas frekvenču diapazona robežas var atšķirties no cilvēka uz cilvēku, taču tiek uzskatīts, ka skaņas vibrācijas atrodas diapazonā no 16 līdz 20 000 Hz.

Mikrofona mērķis ir pārveidot skaņas vibrācijas elektriskās vibrācijās, kuras pēc tam var pastiprināt, filtrēt, lai novērstu traucējumus, un digitalizētu audio informācijas ievadīšanai datorā.

Pamatojoties uz to darbības principu, visizplatītākie mikrofoni ir sadalīti oglekļa, elektrodinamiskajos, kondensatoros un elektretos. Dažiem no šiem mikrofoniem ir nepieciešams ārējais avots strāva (piemēram, ogleklis un kondensators), citi skaņas vibrāciju ietekmē spēj patstāvīgi radīt mainīgu elektrisko spriegumu (tie ir elektrodinamiskie un elektreta mikrofoni).

Varat arī atdalīt mikrofonus atbilstoši to mērķim. Ir studijas mikrofoni, kurus var turēt rokā vai uzstādīt uz statīva, ir radio mikrofoni, kurus var piespraust pie apģērba utt.

Ir arī īpaši datoriem paredzēti mikrofoni. Šādi mikrofoni parasti tiek uzstādīti uz statīva, kas novietots uz galda virsmas. Datora mikrofonus var kombinēt ar austiņām, kā parādīts attēlā. 2-1.

Rīsi. 2-1. Austiņas ar mikrofonu

Kā jūs varat izvēlēties no dažādiem mikrofoniem, kas ir vislabāk piemēroti runas atpazīšanas sistēmām?

Principā jūs varat eksperimentēt ar jebkuru mikrofonu, kas jums ir, ja vien to var savienot ar datora audio adapteri. Tomēr runas atpazīšanas sistēmu izstrādātāji iesaka iegādāties mikrofonu, kas darbības laikā atradīsies pastāvīgā attālumā no runātāja mutes.

Ja attālums starp mikrofonu un muti nemainās, tad pārāk nemainīsies arī vidējais no mikrofona nākošā elektriskā signāla līmenis. Tas pozitīvi ietekmēs mūsdienu runas atpazīšanas sistēmu darbību.

Kāda ir problēma?

Cilvēks spēj veiksmīgi atpazīt runu, kuras skaļums svārstās ļoti plašā diapazonā. Cilvēka smadzenes spēj izfiltrēt klusu runu no traucējumiem, piemēram, uz ielas braucošu automašīnu trokšņa, ārējām sarunām un mūzikas.

Kas attiecas uz mūsdienu runas atpazīšanas sistēmām, to spējas šajā jomā atstāj daudz vēlamo. Ja mikrofons atrodas uz galda, tad, pagriežot galvu vai mainot ķermeņa stāvokli, attālums starp muti un mikrofonu mainīsies. Tas mainīs mikrofona izvades līmeni, kas savukārt samazinās runas atpazīšanas uzticamību.

Tāpēc, strādājot ar runas atpazīšanas sistēmām, vislabākie rezultāti tiks sasniegti, ja izmantosit austiņām pievienotu mikrofonu, kā parādīts attēlā. 2-1. Izmantojot šādu mikrofonu, attālums starp muti un mikrofonu būs nemainīgs.

Mēs arī vēršam jūsu uzmanību uz to, ka visus eksperimentus ar runas atpazīšanas sistēmām vislabāk var veikt privāti klusā telpā. Šajā gadījumā traucējumu ietekme būs minimāla. Protams, ja jums ir jāizvēlas runas atpazīšanas sistēma, kas var darboties spēcīgu traucējumu apstākļos, tad testi ir jāveic citādi. Taču, cik zina grāmatas autori, runas atpazīšanas sistēmu trokšņu imunitāte joprojām ir ļoti, ļoti zema.

Mikrofons mums pārvērš skaņas viļņus vibrācijās. elektriskā strāva. Šīs svārstības var redzēt osciloskopa ekrānā, taču nesteidzieties uz veikalu, lai iegādātos šo dārgo ierīci. Visus oscilogrāfiskos pētījumus varam veikt, izmantojot parastu datoru, kas aprīkots ar skaņas adapteri, piemēram, Sound Blaster adapteri. Vēlāk mēs jums pateiksim, kā to izdarīt.

Attēlā 2-2 mēs parādījām oscilogrammu skaņas signāls, kas rodas, izrunājot garu skaņu a. Šī viļņu forma tika iegūta, izmantojot programmu GoldWave, par kuru mēs runāsim vēlāk šajā grāmatas nodaļā, kā arī izmantojot Sound Blaster audio adapteri un mikrofonu, kas ir līdzīgs attēlā redzamajam. 2-1.

Rīsi. 2-2. Audio signāla oscilogramma

GoldWave programma ļauj izstiept oscilogrammu pa laika asi, kas ļauj redzēt mazākās detaļas. Attēlā 2-3 parādījām iepriekš minētās skaņas oscilogrammas izstieptu fragmentu a.

Rīsi. 2-3. Audiosignāla oscilogrammas fragments

Lūdzu, ņemiet vērā, ka no mikrofona nākošā ieejas signāla lielums periodiski mainās un iegūst gan pozitīvas, gan negatīvas vērtības.

Ja ieejas signālā būtu tikai viena frekvence (tas ir, ja skaņa būtu “tīra”), no mikrofona saņemtā viļņa forma būtu sinusoidāls vilnis. Taču, kā jau teicām, cilvēka runas skaņu spektrs sastāv no frekvenču kopas, kā rezultātā runas signāla oscilogrammas forma ir tālu no sinusoidāla.

Mēs izsauksim signālu, kura lielums laika gaitā nepārtraukti mainās analogais signāls. Tas ir tieši signāls, kas nāk no mikrofona. Atšķirībā no analogiem, digitālais signāls ir skaitlisko vērtību kopa, kas laika gaitā diskrēti mainās.

Lai dators apstrādātu audio signālu, tas ir jāpārveido no analogā uz digitālo formu, tas ir, jāuzrāda kā skaitlisko vērtību kopa. Šo procesu sauc par analogo signālu digitalizāciju.

Audio (un jebkura analogā) signāla digitalizācija tiek veikta, izmantojot īpašu ierīci, ko sauc analogo-digitālo pārveidotāju ADC (Analog to Digital Converter, ADC). Šī ierīce atrodas uz skaņas adaptera plates un ir parasta izskata mikroshēma.

Kā darbojas analogo-digitālo pārveidotājs?

Tas periodiski mēra ieejas signāla līmeni un izvada mērījuma rezultāta skaitlisku vērtību. Šis process ir parādīts attēlā. 2-4. Šeit pelēkie taisnstūri norāda ieejas signāla vērtības, kas izmērītas noteiktā laika intervālā. Šādu vērtību kopa ir ieejas analogā signāla digitalizēts attēlojums.

Rīsi. 2-4. Signāla amplitūdas un laika mērījumi

Attēlā 2-5 mēs parādījām analogā-digitālā pārveidotāja pievienošanu mikrofonam. Šajā gadījumā analogais signāls tiek piegādāts ieejai x 1, un digitālais signāls tiek noņemts no izejām u 1 -u n.

Rīsi. 2-5. Analogo-digitālo pārveidotājs

Analogo-digitālo pārveidotājus raksturo divi svarīgi parametri - pārveidošanas frekvence un ieejas signāla kvantēšanas līmeņu skaits. Pareiza šo parametru izvēle ir ļoti svarīga, lai panāktu adekvātu analogā signāla digitālo attēlojumu.

Cik bieži jāmēra ieejas analogā signāla amplitūda, lai digitalizācijas rezultātā nepazustu informācija par izmaiņām ieejas analogajā signālā?

Šķiet, ka atbilde ir vienkārša - ieejas signāls ir jāmēra pēc iespējas biežāk. Patiešām, jo ​​biežāk analogo-digitālo pārveidotājs veic šādus mērījumus, jo labāk tas spēs izsekot mazākajām izmaiņām ieejas analogā signāla amplitūdā.

Tomēr pārāk bieži mērījumi var izraisīt nepamatotu digitālo datu plūsmas palielināšanos un datora resursu izšķērdēšanu, apstrādājot signālu.

Par laimi, izvēlēties pareizo konversijas frekvenci (iztveršanas frekvenci) ir pavisam vienkārši. Lai to izdarītu, pietiek pievērsties Koteļņikova teorēmai, kas ir zināma speciālistiem digitālo signālu apstrādes jomā. Teorēma nosaka, ka pārveidošanas frekvencei jābūt divreiz lielākai par pārveidotā signāla spektra maksimālo frekvenci. Tāpēc, lai digitalizētu, nezaudējot audio signāla kvalitāti, kura frekvence ir diapazonā no 16 līdz 20 000 Hz, jums ir jāizvēlas pārveidošanas frekvence, kas nav mazāka par 40 000 Hz.

Tomēr ņemiet vērā, ka profesionālajā audio iekārtā pārveidošanas frekvence tiek izvēlēta vairākas reizes augstāka par norādīto vērtību. Tas tiek darīts, lai sasniegtu ļoti Augstas kvalitātes digitalizēta skaņa. Šī kvalitāte runas atpazīšanas sistēmām nav būtiska, tāpēc mēs nekoncentrēsim jūsu uzmanību uz šo izvēli.

Kāda pārveidošanas frekvence ir nepieciešama, lai digitalizētu cilvēka runas skaņu?

Tā kā cilvēka runas skaņas atrodas frekvenču diapazonā no 300 līdz 4000 Hz, minimālā nepieciešamā pārveidošanas frekvence ir 8000 Hz. Tomēr daudzi datorprogrammas Runas atpazīšana izmanto standarta konvertēšanas frekvenci 44 000 Hz parastajiem audio adapteriem. No vienas puses, šāda pārveidošanas biežums neizraisa pārmērīgu digitālo datu plūsmas pieaugumu, no otras puses, tas nodrošina runas digitalizāciju pietiekami kvalitatīvi.

Jau skolas laikā mums mācīja, ka ar jebkuriem mērījumiem rodas kļūdas, kuras nevar pilnībā novērst. Šādas kļūdas rodas mērinstrumentu ierobežotās izšķirtspējas dēļ, kā arī tāpēc, ka pats mērīšanas process var ieviest dažas izmaiņas izmērītajā vērtībā.

Analogo-ciparu pārveidotājs attēlo ieejas analogo signālu kā ierobežotas jaudas skaitļu plūsmu. Parastie audio adapteri satur 16 bitu ADC blokus, kas spēj attēlot ievades signāla amplitūdu kā 216 = 65536 dažādas vērtības. ADC ierīces augstākās klases audio iekārtās var būt 20 bitu, nodrošinot lielāku precizitāti audio signāla amplitūdas attēlošanā.

Parastajiem datoriem, kas aprīkoti ar parastajiem skaņas adapteriem, tika izveidotas modernas runas atpazīšanas sistēmas un programmas. Tāpēc, lai veiktu eksperimentus ar runas atpazīšanu, jums nav jāiegādājas profesionāls audio adapteris. Adapteris, piemēram, Sound Blaster, ir diezgan piemērots runas digitalizēšanai tās turpmākas atpazīšanas nolūkos.

Paralēli noderīgajam signālam mikrofonā parasti ienāk dažādi trokšņi - troksnis no ielas, vēja troksnis, svešas sarunas utt. Troksnis negatīvi ietekmē runas atpazīšanas sistēmu darbību, tāpēc ar to ir jācīnās. Vienu no veidiem jau minējām – mūsdienu runas atpazīšanas sistēmas vislabāk izmantot klusā telpā, vienatnē ar datoru.

Tomēr ne vienmēr ir iespējams radīt ideālus apstākļus, tāpēc ir nepieciešams izmantot īpašas metodes, lai atbrīvotos no traucējumiem. Lai samazinātu trokšņa līmeni, tiek izmantoti īpaši triki, izstrādājot mikrofonus un īpašus filtrus, kas no analogā signāla spektra noņem frekvences, kas nenes noderīgu informāciju. Turklāt tiek izmantota tāda tehnika kā ieejas signāla līmeņu dinamiskā diapazona saspiešana.

Parunāsim par to visu secībā.

Frekvences filtrs ir ierīce, kas pārveido analogā signāla frekvenču spektru. Šajā gadījumā pārveidošanas procesā tiek atbrīvotas (vai absorbētas) noteiktu frekvenču vibrācijas.

Varat iedomāties šo ierīci kā melnu kasti ar vienu ieeju un vienu izvadi. Saistībā ar mūsu situāciju frekvenču filtra ieejai tiks pievienots mikrofons, bet izejai - analogo-digitālo pārveidotājs.

Ir dažādi frekvenču filtri:

· zemas caurlaidības filtri;

Augstas caurlaidības filtri;

· pārraides frekvenču joslas filtri;

· joslas apturēšanas filtri.

Zemas caurlaidības filtri(zemas caurlaidības filtrs) no ieejas signāla spektra noņem visas frekvences, kuru vērtības ir zem noteiktas sliekšņa frekvences atkarībā no filtra iestatījuma.

Tā kā audio signāli atrodas diapazonā no 16 līdz 20 000 Hz, visas frekvences, kas ir mazākas par 16 Hz, var nogriezt, nepasliktinot skaņas kvalitāti. Runas atpazīšanai svarīgs ir frekvenču diapazons no 300 līdz 4000 Hz, tāpēc var izgriezt frekvences, kas zemākas par 300 Hz. Šajā gadījumā visi traucējumi, kuru frekvenču spektrs ir zem 300 Hz, tiks izgriezti no ieejas signāla, un tie netraucēs runas atpazīšanas procesu.

Tāpat augstas caurlaidības filtri(augstas caurlaidības filtrs) izslēdz no ieejas signāla spektra visas frekvences, kas pārsniedz noteiktu sliekšņa frekvenci.

Cilvēki nevar dzirdēt skaņas ar frekvenci 20 000 Hz un augstāku, tāpēc tās var izgriezt no spektra bez manāmas skaņas kvalitātes pasliktināšanās. Runājot par runas atpazīšanu, šeit jūs varat izgriezt visas frekvences virs 4000 Hz, kas ievērojami samazinās augstfrekvences traucējumu līmeni.

Joslas caurlaides filtrs(joslas caurlaides filtru) var uzskatīt par zemas caurlaidības un augstfrekvences filtra kombināciju. Šāds filtrs aizkavē visas frekvences zem t.s zemāka caurlaides frekvence un arī augstāk augšējās caurlaides frekvence.

Tādējādi runas atpazīšanas sistēmai ir ērts caurlaides joslas filtrs, kas aizkavē visas frekvences, izņemot frekvences 300-4000 Hz diapazonā.

Kas attiecas uz joslas apturēšanas filtriem, tie ļauj no ieejas signāla spektra izgriezt visas frekvences, kas atrodas noteiktā diapazonā. Šāds filtrs ir ērts, piemēram, lai novērstu traucējumus, kas aizņem noteiktu nepārtrauktu signāla spektra daļu.

Attēlā 2-6 mēs parādījām caurlaides joslas filtra savienojumu.

Rīsi. 2-6. Audio signāla filtrēšana pirms digitalizācijas

Jāteic, ka parastajos datorā uzstādītajos skaņas adapteros ir iekļauts joslas caurlaides filtrs, caur kuru analogais signāls iziet pirms digitalizācijas. Šāda filtra caurlaides josla parasti atbilst audio signālu diapazonam, proti, 16-20 000 Hz (dažādos audio adapteros augšējās un apakšējās frekvences vērtības var atšķirties nelielās robežās).

Kā panākt šaurāku joslas platumu 300-4000 Hz, kas atbilst visinformatīvākajai cilvēka runas spektra daļai?

Protams, ja jums ir tieksme uz elektronisko iekārtu projektēšanu, jūs varat izveidot savu filtru no operatīvā pastiprinātāja mikroshēmas, rezistoriem un kondensatoriem. Tas ir aptuveni tas, ko darīja pirmie runas atpazīšanas sistēmu veidotāji.

Tomēr rūpnieciskās sistēmas Runas atpazīšanas sistēmām jābūt funkcionālām uz standarta datora aparatūras, tāpēc īpaša frekvenču joslas filtra izveides ceļš šeit nav piemērots.

Tā vietā iekšā modernas sistēmas runas apstrādē izmanto t.s digitālie frekvenču filtri, ieviests programmatūrā. Tas kļuva iespējams pēc tam Procesors Dators ir kļuvis diezgan jaudīgs.

Digitālais frekvences filtrs, kas ieviests programmatūrā, pārveido ieejas digitālo signālu izejas ciparu signālā. Pārveidošanas procesā programma īpašā veidā apstrādā signāla amplitūdas skaitlisko vērtību plūsmu, kas nāk no analogā-digitālā pārveidotāja. Pārveidošanas rezultāts būs arī skaitļu straume, taču šī straume atbildīs jau filtrētam signālam.

Runājot par analogo-digitālo pārveidotāju, mēs atzīmējām tik svarīgu raksturlielumu kā kvantēšanas līmeņu skaits. Ja skaņas adapterī ir uzstādīts 16 bitu analogais-digitālais pārveidotājs, tad pēc digitalizācijas audio signāla līmeņus var attēlot kā 216 = 65536 dažādas vērtības.

Ja ir maz kvantēšanas līmeņu, tad t.s kvantēšanas troksnis. Lai samazinātu šo troksni, augstas kvalitātes audio digitalizācijas sistēmās jāizmanto analogo-digitālo pārveidotāji ar maksimālo pieejamo kvantēšanas līmeņu skaitu.

Tomēr ir vēl viens paņēmiens, lai samazinātu kvantēšanas trokšņa ietekmi uz audio signāla kvalitāti, ko izmanto digitālajās audio ierakstīšanas sistēmās. Izmantojot šo paņēmienu, signāls pirms digitalizācijas tiek nodots caur nelineāru pastiprinātāju, uzsverot signālus ar zemu signāla amplitūdu. Šāda ierīce uzlabo vāji signāli stiprāks par stipru.

To ilustrē izejas signāla amplitūdas grafiks pret ieejas signāla amplitūdu, kas parādīta attēlā. 2-7.

Rīsi. 2-7. Nelineāra pastiprināšana pirms digitalizācijas

Digitalizētā audio pārveidošanā atpakaļ uz analogo (šo darbību apskatīsim vēlāk šajā nodaļā), analogais signāls atkal tiek nodots caur nelineāru pastiprinātāju, pirms tiek izvadīts skaļruņos. Šoreiz tiek izmantots cits pastiprinātājs, kas izceļ augstas amplitūdas signālus un kuram ir pārsūtīšanas raksturlielums (izejas signāla amplitūdas atkarība no ieejas signāla amplitūdas), kas ir apgriezts digitalizācijas laikā izmantotajam.

Kā tas viss var palīdzēt runas atpazīšanas sistēmu radītājiem?

Cilvēks, kā zināms, diezgan labi atpazīst runu, kas runāta klusā čukstā vai diezgan skaļā balsī. Var teikt, ka veiksmīgi atpazītas runas skaļuma līmeņu dinamiskais diapazons cilvēkam ir diezgan plašs.

Šodienas datorsistēmas runas atpazīšana diemžēl ar to vēl nevar lepoties. Tomēr, lai nedaudz paplašinātu norādīto dinamisko diapazonu, pirms digitalizācijas signālu no mikrofona var nodot caur nelineāru pastiprinātāju, kura pārraides raksturlielums ir parādīts attēlā. 2-7. Tas samazinās kvantēšanas trokšņa līmeni, digitalizējot vājus signālus.

Runas atpazīšanas sistēmu izstrādātāji atkal ir spiesti galvenokārt koncentrēties uz komerciāli ražotiem skaņas adapteriem. Tie neparedz iepriekš aprakstīto nelineāro signāla pārveidošanu.

Tomēr ir iespējams izveidot programmatūras ekvivalentu nelineāram pastiprinātājam, kas pārveido digitalizēto signālu pirms tā nodošanas runas atpazīšanas modulim. Lai gan šāds programmatūras pastiprinātājs nespēs samazināt kvantēšanas troksni, to var izmantot, lai uzsvērtu tos signāla līmeņus, kas nes visvairāk runas informācijas. Piemēram, jūs varat samazināt vāju signālu amplitūdu, tādējādi atbrīvojot signālu no trokšņa.

Kompresija ir viena no mītu apvītākajām tēmām skaņas producēšanā. Saka, ka Bēthovens ar viņu pat nobiedējis kaimiņu bērnus:(

Labi, patiesībā saspiešanas izmantošana nav grūtāka nekā kropļojumu izmantošana, galvenais ir saprast tās darbības principu un laba kontrole. Tas ir tas, ko mēs tagad redzēsim kopā.

Kas ir audio saspiešana

Pirmā lieta, kas jāsaprot pirms sagatavošanas, ir kompresija. darbs ar skaņas dinamisko diapazonu. Un, savukārt, tas ir nekas vairāk kā atšķirība starp skaļāko un klusāko signāla līmeni:

Tātad, saspiešana ir dinamiskā diapazona saspiešana. Jā, Vienkārši dinamiskā diapazona saspiešana vai citiem vārdiem sakot signāla skaļo daļu līmeņa pazemināšana un kluso daļu skaļuma palielināšana. Vairāk ne.

Jūs varat pamatoti brīnīties, kāpēc tad šāda ažiotāža ir saistīta? Kāpēc visi runā par pareizu kompresora iestatījumu receptēm, bet neviens ar tām nedalās? Kāpēc, neskatoties uz to milzīgs skaits lielisku spraudņu, daudzas studijas joprojām izmanto dārgus, retus kompresoru modeļus? Kāpēc daži ražotāji kompresorus izmanto ekstremālos iestatījumos, bet citi tos neizmanto vispār? Un kuram no viņiem galu galā ir taisnība?

Problēmas atrisinātas ar saspiešanu

Atbildes uz šādiem jautājumiem slēpjas kompresijas lomas darbā ar skaņu izpratnes plaknē. Un tas ļauj:

  1. Uzsveriet uzbrukumu skaņa, padarot to izteiktāku;
  2. Atsevišķu instrumentu daļu “iestādīšana” maisījumā, pievienojot tiem jaudu un “svaru”;