Transformarea sunetului într-un flux de numere. Sinteza și recunoașterea vorbirii. Soluții moderne. Echipamente audio computerizate. Conversia audio într-un flux de numere Interval dinamic comprimat sau standard

A doua parte a seriei este dedicată funcțiilor de optimizare a gamei dinamice a imaginilor. În ea vă vom spune de ce sunt necesare astfel de soluții, luați în considerare diverse opțiuni pentru implementarea lor, precum și avantajele și dezavantajele lor.

Îmbrățișează imensitatea

În mod ideal, o cameră ar trebui să captureze o imagine a lumii înconjurătoare așa cum o percepe o persoană. Cu toate acestea, datorită faptului că mecanismele de „viziune” a unei camere și a ochiului uman sunt semnificativ diferite, există o serie de restricții care nu permit îndeplinirea acestei condiții.

Una dintre problemele cu care se confruntau anterior utilizatorii de camere cu film și cu care se confruntă acum proprietarii de camere digitale este incapacitatea de a surprinde în mod adecvat scene cu diferențe mari de iluminare fără utilizarea unor dispozitive speciale și/sau tehnici speciale de fotografiere. Particularitățile sistemului vizual uman fac posibilă perceperea detaliilor scenelor cu contrast ridicat la fel de bine atât în ​​zonele puternic luminate, cât și în cele întunecate. Din păcate, senzorul camerei nu este întotdeauna capabil să captureze o imagine așa cum o vedem noi.

Cu cât este mai mare diferența de luminozitate în scena fotografiată, cu atât este mai mare probabilitatea de pierdere a detaliilor în lumini și/sau umbre. Drept urmare, în loc de un cer albastru cu nori luxurianți, imaginea se dovedește a fi doar o pată albicioasă, iar obiectele situate în umbră se transformă în siluete întunecate indistincte sau se contopesc complet cu mediul înconjurător.

În fotografia clasică, conceptul de latitudinea fotografică(Vezi bara laterală pentru detalii). Teoretic, latitudinea fotografică a camerelor digitale este determinată de adâncimea de biți a convertorului analog-digital (ADC). De exemplu, atunci când se utilizează un ADC de 8 biți, ținând cont de eroarea de cuantizare, valoarea teoretic realizabilă a latitudinii fotografice va fi de 7 EV, pentru un ADC de 12 biți - 11 EV etc. Cu toate acestea, în dispozitivele reale, gama dinamică a imaginilor se dovedește a fi la același maxim teoretic datorită influenței diferitelor tipuri de zgomot și a altor factori.

O diferență mare de niveluri de luminozitate reprezintă o problemă gravă
problemă când faceți fotografii. În acest caz, capacitățile camerei
s-au dovedit a fi insuficiente pentru transmiterea adecvată a celor mai multe
zone luminoase ale scenei și, ca urmare, în loc de o zonă de albastru
cerul (marcat cu un accident vascular cerebral) se dovedește a fi un „petic” alb

Valoarea maximă a luminozității pe care o poate înregistra un senzor sensibil la lumină este determinată de nivelul de saturație al celulelor sale. Valoarea minimă depinde de mai mulți factori, inclusiv cantitatea de zgomot termic al matricei, zgomotul de transfer de sarcină și eroarea ADC.

De asemenea, este de remarcat faptul că latitudinea fotografică a aceleiași camere digitale poate varia în funcție de valoarea sensibilității setată în setări. Gama dinamică maximă este realizabilă prin setarea așa-numitei sensibilități de bază (corespunzătoare valorii numerice minime posibile). Pe măsură ce valoarea acestui parametru crește, intervalul dinamic scade din cauza creșterii nivelului de zgomot.

Amploarea fotografică a modelelor moderne de camere digitale echipate cu senzori marime mareși ADC-uri pe 14 sau 16 biți, variază de la 9 la 11 EV, ceea ce este semnificativ mai mare în comparație cu caracteristicile similare ale filmelor negative color de 35 mm (în medie 4 până la 5 EV). Astfel, chiar și camerele digitale relativ ieftine au o latitudine fotografică suficientă pentru a transmite în mod adecvat majoritatea scenelor tipice de filmare pentru amatori.

Cu toate acestea, există o problemă de alt tip. Este asociat cu limitările impuse de standardele existente pentru înregistrarea imaginilor digitale. Folosind formatul JPEG cu 8 biți pe canal de culoare (care a devenit acum standardul de facto pentru înregistrarea imaginilor digitale în industria computerelor și tehnologia digitală), este chiar imposibil să salvezi o imagine cu o latitudine fotografică mai mare de 8 EV.

Să presupunem că ADC-ul camerei vă permite să obțineți o imagine cu o adâncime de biți de 12 sau 14 biți, care conține detalii perceptibile atât în ​​lumini, cât și în umbre. Cu toate acestea, dacă latitudinea fotografică a acestei imagini depășește 8 EV, atunci în procesul de conversie la un format standard de 8 biți fără acțiuni suplimentare (adică, pur și simplu prin eliminarea biților „în plus”), o parte din informațiile înregistrate de către senzorul fotosensibil se va pierde.

Interval dinamicși latitudinea fotografică

Pentru a spune simplu, intervalul dinamic este definit ca raportul dintre valoarea maximă a luminozității unei imagini și valoarea sa minimă. În fotografia clasică, termenul de latitudine fotografică este folosit în mod tradițional, ceea ce înseamnă în esență același lucru.

Lățimea intervalului dinamic poate fi exprimată ca un raport (de exemplu, 1000:1, 2500:1 etc.), dar cel mai adesea acest lucru se face pe o scară logaritmică. În acest caz, se calculează valoarea logaritmului zecimal al raportului dintre luminozitatea maximă și valoarea sa minimă, iar după număr litera majusculă D (din engleză density? - density), sau mai rar? - abrevierea OD (din engleza optical density? - optical density) este plasat. De exemplu, dacă raportul dintre valoarea maximă a luminozității și valoarea minimă a unui dispozitiv este 1000:1, atunci intervalul dinamic va fi egal cu 3,0 D:

Pentru a măsura latitudinea fotografică, se folosesc în mod tradițional așa-numitele unități de expunere, prescurtate EV (valori de expunere; profesioniștii le numesc adesea „opriri” sau „pași”). În aceste unități valoarea de compensare a expunerii este de obicei setată în setările camerei. Creșterea valorii latitudinii fotografice cu 1 EV echivalează cu dublarea diferenței dintre nivelurile maxime și minime de luminozitate. Astfel, scala EV este, de asemenea, logaritmică, dar în acest caz se utilizează logaritmul de bază 2. De exemplu, dacă un dispozitiv este capabil să capteze imagini cu un raport de luminozitate maxim la minim de 256:1, atunci latitudinea fotografică va fi de 8 EV:

Compresia este un compromis rezonabil

Cel mai mod eficient Pentru a păstra întreaga dimensiune a informațiilor despre imagine înregistrate de senzorul sensibil la lumină al camerei, este posibil să înregistrați imagini în format RAW. Cu toate acestea, nu toate camerele au o astfel de funcție și nu orice fotograf amator este pregătit să se angajeze în munca minuțioasă de selecție. setări individuale pentru fiecare fotografie făcută.

Pentru a reduce probabilitatea de a pierde detaliile imaginilor cu contrast ridicat convertite în interiorul camerei în JPEG de 8 biți, au fost introduse dispozitive de la mulți producători (nu doar cele compacte, ci și cele SLR). funcții speciale, permițându-vă să comprimați intervalul dinamic al imaginilor salvate fără intervenția utilizatorului. Prin reducerea contrastului general și pierderea unei mici părți a informațiilor din imaginea originală, astfel de soluții fac posibilă păstrarea detaliilor în lumini și umbre înregistrate de senzorul sensibil la lumină al dispozitivului în format JPEG de 8 biți, chiar dacă intervalul dinamic din imaginea originală sa dovedit a fi mai lată de 8 EV.

Unul dintre pionierii în dezvoltarea acestui domeniu a fost compania HP. Lansată în 2003, camera digitală HP Photosmart 945 a prezentat prima tehnologie HP Adaptive Lightling din lume, care compensează automat nivelurile scăzute de lumină în zonele întunecate ale fotografiilor și, astfel, păstrează detaliile din umbră fără riscul de supraexpunere (ceea ce este foarte important atunci când fotografiați la nivel ridicat). scene de contrast). Algoritmul HP Adaptive Lightling se bazează pe principiile stabilite de omul de știință englez Edwin Land în teoria RETINEX a percepției vizuale umane.

Meniul HP Adaptive Lighting

Cum funcționează Adaptive Lighting? După obținerea unei imagini de 12 biți a imaginii, din aceasta este extrasă o imagine monocromă auxiliară, care este de fapt o hartă de iradiere. La procesarea unei imagini, acest card este folosit ca mască, permițându-vă să reglați gradul de influență al unui filtru digital destul de complex asupra imaginii. Astfel, în zonele corespunzătoare celor mai întunecate puncte ale hărții, impactul asupra imaginii viitoarei imagini este minim și invers. Această abordare permite dezvăluirea detaliilor umbrelor prin iluminarea selectivă a acestor zone și, în consecință, reducerea contrastului general al imaginii rezultate.

Trebuie remarcat faptul că atunci când Iluminarea adaptivă este activată, imaginea capturată este procesată în modul descris mai sus înainte ca imaginea finală să fie scrisă într-un fișier. Toate operațiunile descrise sunt efectuate automat, iar utilizatorul poate selecta doar unul dintre cele două moduri de operare Adaptive Lighting (expunere scăzută sau mare) din meniul camerei sau poate dezactiva această funcție.

În general, multe funcții specifice ale camerelor digitale moderne (inclusiv sistemele de recunoaștere facială discutate în articolul anterior) sunt un fel de produs secundar sau produs de conversie al muncii de cercetare care a fost efectuată inițial pentru clienții militari. Când vine vorba de funcțiile de optimizare a intervalului dinamic al imaginii, unul dintre cei mai cunoscuți furnizori de astfel de soluții este Apical. Algoritmii creați de angajații săi, în special, stau la baza funcționării funcției SAT (Shadow Adjustment Technology), implementată într-un număr de modele de camere digitale Olympus. Pe scurt, funcționarea funcției SAT poate fi descrisă după cum urmează: pe baza imaginii originale a imaginii, se creează o mască corespunzătoare zonelor cele mai întunecate, iar apoi valoarea expunerii este corectată automat pentru aceste zone.

Sony a achiziționat, de asemenea, o licență de utilizare a dezvoltărilor Apical. Multe modele de camere compacte din seria Cyber-shot și din camerele DSLR din seria alpha implementează așa-numita funcție Dynamic Range Optimizer (DRO).

Fotografii realizate cu HP Photosmart R927 oprit (sus)
și funcția de iluminare adaptivă activată

Când DRO este activat, corectarea imaginii este efectuată în timpul procesării inițiale a imaginii (adică înainte de înregistrarea fișierului JPEG finalizat). În versiunea de bază, DRO are o setare în două etape (puteți selecta un mod de operare standard sau avansat în meniu). Când selectați modul Standard, nivelurile de expunere sunt ajustate pe baza analizei imaginii fotografiei, iar apoi se aplică imaginii o curbă de ton pentru a uniformiza echilibrul general. Modul avansat folosește un algoritm mai complex care permite corectarea atât a umbrelor, cât și a luminii.

Dezvoltatorii Sony lucrează în mod constant pentru a îmbunătăți algoritmul DRO. De exemplu, în camera SLR a700, când modul avansat DRO este activat, este posibil să selectați una dintre cele cinci opțiuni de corecție. În plus, este posibil să salvați trei versiuni ale unei imagini simultan (un fel de bracketing) cu diferite setări DRO.

Multe modele de aparate foto digitale Nikon au o funcție D-Lighting, care se bazează și pe algoritmi apicali. Adevărat, spre deosebire de soluțiile descrise mai sus, D-Lighting este implementat ca un filtru pentru procesarea imaginilor salvate anterior folosind o curbă tonală, a cărei formă vă permite să faceți umbrele mai ușoare, păstrând în același timp alte zone ale imaginii neschimbate. Dar, deoarece în acest caz sunt procesate imagini gata făcute pe 8 biți (și nu imaginea cadrului original, care are o adâncime de biți mai mare și, în consecință, o gamă dinamică mai largă), capacitățile D-Lighting sunt foarte limitate. Utilizatorul poate obține același rezultat prin procesarea imaginii într-un editor grafic.

Când comparăm fragmente mărite, este clar vizibil că zonele întunecate ale imaginii originale (stânga)
când funcția Adaptive Lighting a fost activată, acestea au devenit mai ușoare

Există, de asemenea, o serie de soluții bazate pe alte principii. Astfel, multe camere din familia Lumix de la Panasonic (în special, DMC-FX35, DMC-TZ4, DMC-TZ5, DMC-FS20, DMC-FZ18 etc.) implementează funcția de recunoaștere a luminii (Intelligent Exposure), care este o parte integrantă a sistemului iA control automat inteligent al fotografierii. Funcția Intelligent Exposure se bazează pe analiza automată a imaginii cadrului și corectarea zonelor întunecate ale imaginii pentru a evita pierderea detaliilor în umbră, precum și (dacă este necesar) comprimarea intervalului dinamic al scenelor cu contrast ridicat.

În unele cazuri, funcția de optimizare a intervalului dinamic implică nu numai anumite operații de procesare a imaginii originale, ci și corectarea setărilor de fotografiere. De exemplu, noile modele de camere digitale Fujifilm (în special, FinePix S100FS) implementează o funcție de extindere a intervalului dinamic (Wide Dynamic Range, WDR), care, potrivit dezvoltatorilor, vă permite să creșteți latitudinea fotografică cu unul sau doi pași (în terminologia setărilor - 200 și 400%).

Când WDR este activat, camera face fotografii cu compensarea expunerii de -1 sau -2 EV (în funcție de setarea selectată). Astfel, imaginea cadrului se dovedește a fi subexpusă - acest lucru este necesar pentru a păstra informații maxime despre detaliile din evidențieri. Imaginea rezultată este apoi procesată folosind o curbă de ton, care vă permite să egalizați echilibrul general și să reglați nivelul de negru. Imaginea este apoi convertită în format de 8 biți și înregistrată ca fișier JPEG.

Compresia din intervalul dinamic păstrează mai multe detalii
în lumini și umbre, dar o consecință inevitabilă a unei astfel de expuneri
este o scădere a contrastului general. În imaginea de jos
textura norilor este însă mult mai bine dezvoltată
din cauza contrastului mai mic, această versiune a fotografiei
arata mai putin natural

O funcție similară numită Dynamic Range Enlargement este implementată într-un număr de camere compacte și SLR de la Pentax (Optio S12, K200D etc.). Potrivit producătorului, utilizarea funcției de mărire a intervalului dinamic vă permite să creșteți latitudinea fotografică a imaginilor cu 1 EV fără a pierde detalii în lumini și umbre.

O funcție similară numită Highlight tone priority (HTP) este implementată într-un număr de modele Canon DSLR (EOS 40D, EOS 450D etc.). Conform manualului utilizatorului, activarea HTP îmbunătățește detaliile de evidențiere (în special, în intervalul de gri de la 0 la 18%).

Concluzie

Să rezumam. Compresia în gamă dinamică încorporată vă permite să convertiți o imagine sursă cu gamă dinamică înaltă la 8 biți cu daune minime Fișier JPEG. Fără opțiunea de salvare a imaginilor în format RAW, modul Dynamic Range Compression permite fotografilor să utilizeze mai pe deplin potențialul camerei lor atunci când înregistrează scene cu contrast ridicat.

Desigur, este important să ne amintim că compresia în intervalul dinamic nu este un remediu miraculos, ci mai degrabă un compromis. Păstrarea detaliilor în lumini și/sau umbre vine cu prețul creșterii nivelului de zgomot în zonele întunecate ale imaginii, reducându-i contrastul și oarecum grosieră tranzițiile tonale netede.

Ca orice funcție automată, algoritmul de compresie în intervalul dinamic nu este o soluție complet universală care vă permite să îmbunătățiți absolut orice fotografie. Prin urmare, are sens să-l activați doar în cazurile în care este cu adevărat necesar. De exemplu, pentru a fotografia o siluetă cu un fundal bine proiectat, funcția de compresie a intervalului dinamic trebuie dezactivată - altfel scena spectaculoasă va fi ruinată fără speranță.

Încheind analiza noastră asupra acestui subiect, trebuie remarcat faptul că utilizarea funcțiilor de compresie în intervalul dinamic nu ne permite să „extragem” detalii din imaginea rezultată care nu au fost capturate de senzorul camerei. Pentru a obține rezultate satisfăcătoare atunci când fotografiați scene cu contrast ridicat, poate fi necesar să utilizați instrumente suplimentare (cum ar fi filtre de gradient pentru fotografia de peisaj) sau tehnici speciale (cum ar fi fotografierea mai multor cadre cu bracketing de expunere și apoi îmbinarea lor într-o singură imagine folosind tehnologia Tone Mapping). ).

Următorul articol se va concentra pe funcția de explozie.

Va urma

Să ne gândim la întrebarea - de ce trebuie să mărim volumul? Pentru a auzi sunete liniștite care nu sunt audibile în condițiile noastre (de exemplu, dacă nu puteți asculta cu voce tare, dacă există zgomot străin în cameră etc.). Este posibil să amplificați sunetele liniștite, lăsându-le singure pe cele puternice? Se dovedește că este posibil. Această tehnică se numește compresie în intervalul dinamic (DRC). Pentru a face acest lucru, trebuie să schimbați volumul curent în mod constant - amplificați sunetele liniștite, cele puternice - nu. Cea mai simplă lege a modificării volumului este liniară, adică. Volumul se modifică conform legii output_loudness = k * input_loudness, unde k este raportul de compresie al intervalului dinamic:

Figura 18. Compresie în intervalul dinamic.

Când k = 1, nu se fac modificări (volumul de ieșire este egal cu volumul de intrare). La k< 1 громкость будет увеличиваться, а динамический диапазон - сужаться. Посмотрим на график (k=1/2) - тихий звук, имевший громкость -50дБ станет громче на 25дБ, что значительно громче, но при этом громкость диалогов (-27дБ) повысится всего лишь на 13.5дБ, а громкость самых громких звуков (0дБ) вообще не изменится. При k >1 - volumul va scădea și intervalul dinamic va crește.

Să ne uităm la graficele de volum (k = 1/2: compresia DD este dublată):

Figura 19. Grafice de intensitate.

După cum puteți vedea în original, au fost atât sunete foarte liniștite, cu 30 dB sub nivelul dialogului, cât și foarte puternice - 30 dB peste nivelul dialogului. Acea. intervalul dinamic a fost de 60 dB. După compresie, sunetele puternice sunt cu doar 15 dB mai mari, iar sunetele liniștite sunt cu 15 dB mai mici decât dialogul (intervalul dinamic este acum de 30 dB). Astfel, sunetele puternice au devenit semnificativ mai silențioase, iar sunetele slabe au devenit semnificativ mai puternice. În acest caz, nu există preaplin!

Acum să ne uităm la histograme:

Figura 20. Exemplu de compresie.

După cum puteți vedea clar, cu amplificare de până la +30dB, forma histogramei este bine păstrată, ceea ce înseamnă că sunetele puternice rămân bine exprimate (nu merg la maxim și nu sunt întrerupte, așa cum se întâmplă cu amplificarea simplă) . Acest lucru produce sunete liniștite. Histograma arată prost acest lucru, dar diferența este foarte vizibilă după ureche. Dezavantajul acestei metode este aceleași salturi de volum. Cu toate acestea, mecanismul apariției lor diferă de salturile de zgomot care apar în timpul tăierii, iar caracterul lor este diferit - ele apar în principal atunci când sunetele liniștite sunt foarte puternic amplificate (și nu atunci când sunt tăiate cele puternice, ca în cazul amplificarii normale). Un nivel excesiv de compresie duce la o aplatizare a imaginii sunetului - toate sunetele tind să aibă aceeași intensitate și inexpresivitate.

Amplificarea excesivă a sunetelor silențioase poate face ca zgomotul de înregistrare să devină audibil. Prin urmare, filtrul folosește un algoritm ușor modificat, astfel încât nivelul de zgomot să crească mai puțin:

Figura 21. Creșterea volumului fără creșterea zgomotului.

Acestea. la un nivel de volum de -50dB, funcția de transfer se inflectează, iar zgomotul va fi amplificat mai puțin (linia galbenă). În absența unei astfel de inflexiuni, zgomotul va fi mult mai puternic (linia gri). Această modificare simplă reduce semnificativ cantitatea de zgomot chiar și la niveluri de compresie foarte ridicate (compresie 1:5 în imagine). Nivelul „DRC” din filtru setează nivelul câștigului pentru sunetele liniștite (la -50dB), adică Nivelul de compresie de 1/5 prezentat în figură corespunde nivelului de +40 dB din setările filtrului.

Într-o perioadă în care cercetătorii abia începeau să rezolve problema creării unei interfețe de vorbire pentru computere, ei trebuiau adesea să-și facă propriile echipamente care să permită introducerea informațiilor audio în computer și, de asemenea, să le scoată de pe computer. Astăzi, astfel de dispozitive pot fi doar de interes istoric, deoarece computerele moderne pot fi echipate cu ușurință cu dispozitive de intrare și ieșire audio, cum ar fi adaptoare de sunet, microfoane, căști și difuzoare.

Nu vom aprofunda în detaliile structurii interne a acestor dispozitive, dar vom vorbi despre modul în care funcționează și vom oferi câteva recomandări pentru alegerea dispozitivelor computerizate audio pentru lucrul cu sisteme de recunoaștere și sinteză a vorbirii.

După cum am spus deja în capitolul anterior, sunetul nu este altceva decât vibrații ale aerului, a căror frecvență se află în gama de frecvențe percepute de oameni. Limitele exacte ale intervalului de frecvențe audibile pot varia de la persoană la persoană, dar se crede că vibrațiile sonore se află în intervalul 16-20.000 Hz.

Scopul unui microfon este de a converti vibrațiile sonore în vibrații electrice, care pot fi apoi amplificate, filtrate pentru a elimina interferențele și digitizate pentru a introduce informații audio într-un computer.

Pe baza principiului lor de funcționare, cele mai comune microfoane sunt împărțite în carbon, electrodinamic, condensator și electret. Unele dintre aceste microfoane necesită sursă externă curent (de exemplu, carbon și condensator), altele, sub influența vibrațiilor sonore, sunt capabile să genereze independent tensiune electrică alternativă (acestea sunt microfoane electrodinamice și electret).

De asemenea, puteți separa microfoanele în funcție de scopul lor. Există microfoane de studio care pot fi ținute în mână sau montate pe un suport, există microfoane radio care pot fi prinse de îmbrăcăminte și așa mai departe.

Există și microfoane concepute special pentru computere. Astfel de microfoane sunt de obicei montate pe un suport amplasat pe suprafața unei mese. Microfoanele computerului pot fi combinate cu căști, așa cum se arată în Fig. 2-1.

Orez. 2-1. Căști cu microfon

Cum puteți alege din varietatea de microfoane care sunt cele mai potrivite pentru sistemele de recunoaștere a vorbirii?

În principiu, poți experimenta cu orice microfon pe care îl ai, atâta timp cât acesta poate fi conectat la adaptorul audio al computerului tău. Cu toate acestea, dezvoltatorii de sisteme de recunoaștere a vorbirii recomandă achiziționarea unui microfon care, în timpul funcționării, va fi la o distanță constantă de gura vorbitorului.

Daca distanta dintre microfon si gura nu se modifica, atunci nici nivelul mediu al semnalului electric care vine de la microfon nu se va schimba prea mult. Acest lucru va avea un impact pozitiv asupra performanței sistemelor moderne de recunoaștere a vorbirii.

Care este problema?

O persoană este capabilă să recunoască cu succes vorbirea, al cărei volum variază într-o gamă foarte largă. Creierul uman este capabil să filtreze vorbirea liniștită din interferențe, cum ar fi zgomotul mașinilor care trec pe stradă, conversațiile din afara și muzica.

În ceea ce privește sistemele moderne de recunoaștere a vorbirii, abilitățile lor în acest domeniu lasă mult de dorit. Dacă microfonul este pe o masă, atunci când vă întoarceți capul sau vă schimbați poziția corpului, distanța dintre gură și microfon se va schimba. Acest lucru va schimba nivelul de ieșire a microfonului, ceea ce, la rândul său, va reduce fiabilitatea recunoașterii vorbirii.

Prin urmare, atunci când lucrați cu sisteme de recunoaștere a vorbirii, cele mai bune rezultate vor fi obținute dacă utilizați un microfon atașat la căști, așa cum se arată în Fig. 2-1. Când utilizați un astfel de microfon, distanța dintre gură și microfon va fi constantă.

De asemenea, vă atragem atenția asupra faptului că toate experimentele cu sisteme de recunoaștere a vorbirii sunt cel mai bine efectuate în intimitate, într-o cameră liniștită. În acest caz, influența interferenței va fi minimă. Desigur, dacă trebuie să selectați un sistem de recunoaștere a vorbirii care poate funcționa în condiții de interferență puternică, atunci testele trebuie efectuate diferit. Cu toate acestea, din câte știu autorii cărții, imunitatea la zgomot a sistemelor de recunoaștere a vorbirii este încă foarte, foarte scăzută.

Microfonul transformă undele sonore în vibrații pentru noi. curent electric. Aceste fluctuații pot fi văzute pe ecranul osciloscopului, dar nu vă grăbiți la magazin să achiziționați acest dispozitiv scump. Putem efectua toate studiile oscilografice folosind un computer obișnuit echipat cu un adaptor de sunet, de exemplu, un adaptor Sound Blaster. Mai târziu vă vom spune cum să faceți acest lucru.

În fig. 2-2 am arătat oscilograma semnal sonor, rezultat din pronunțarea unui sunet lung a. Această formă de undă a fost obținută folosind programul GoldWave, despre care vom vorbi mai târziu în acest capitol al cărții, precum și folosind un adaptor audio Sound Blaster și un microfon similar cu cel prezentat în Fig. 2-1.

Orez. 2-2. Oscilogramă semnal audio

Programul GoldWave vă permite să întindeți oscilograma de-a lungul axei timpului, ceea ce vă permite să vedeți cele mai mici detalii. În fig. 2-3 am arătat un fragment întins din oscilograma sus-menționată a sunetului a.

Orez. 2-3. Fragment de oscilogramă a unui semnal audio

Vă rugăm să rețineți că mărimea semnalului de intrare care vine de la microfon se modifică periodic și ia atât valori pozitive, cât și negative.

Dacă în semnalul de intrare ar exista o singură frecvență (adică dacă sunetul a fost „curat”), forma de undă primită de la microfon ar fi o undă sinusoidală. Cu toate acestea, așa cum am spus deja, spectrul sunetelor vorbirii umane constă dintr-un set de frecvențe, drept urmare forma oscilogramei semnalului de vorbire este departe de a fi sinusoidală.

Vom numi un semnal a cărui magnitudine se modifică continuu în timp semnal analog. Acesta este exact semnalul care vine de la microfon. Spre deosebire de analog, semnal digital este un set de valori numerice care se modifică discret în timp.

Pentru ca un computer să proceseze un semnal audio, acesta trebuie convertit din formă analogică în formă digitală, adică prezentat ca un set de valori numerice. Acest proces se numește digitizare a semnalului analogic.

Digitalizarea unui semnal audio (și a oricărui semnal analogic) se realizează folosind un dispozitiv special numit convertor analog-digital ADC (Convertor analog-digital, ADC). Acest dispozitiv este situat pe placa adaptorului de sunet și este un microcircuit cu aspect obișnuit.

Cum funcționează un convertor analog-digital?

Măsoară periodic nivelul semnalului de intrare și emite o valoare numerică a rezultatului măsurării. Acest proces este ilustrat în Fig. 2-4. Aici, dreptunghiurile gri indică valorile semnalului de intrare măsurate la un interval de timp constant. Un set de astfel de valori este o reprezentare digitalizată a semnalului analogic de intrare.

Orez. 2-4. Măsurători ale amplitudinii semnalului în funcție de timp

În fig. 2-5 am arătat conectarea unui convertor analog-digital la un microfon. În acest caz, un semnal analogic este furnizat la intrarea x 1 și un semnal digital este eliminat de la ieșirile u 1 -u n.

Orez. 2-5. Convertor analog-digital

Convertoarele analog-digitale sunt caracterizate de doi parametri importanți - frecvența de conversie și numărul de niveluri de cuantizare ale semnalului de intrare. Selectarea corectă a acestor parametri este esențială pentru a obține o reprezentare digitală adecvată a semnalului analogic.

Cât de des trebuie să măsurați amplitudinea semnalului analog de intrare, astfel încât informațiile despre modificările semnalului analog de intrare să nu se piardă ca urmare a digitizării?

S-ar părea că răspunsul este simplu - semnalul de intrare trebuie măsurat cât mai des posibil. Într-adevăr, cu cât un convertor analog-digital efectuează mai des astfel de măsurători, cu atât mai bine va putea urmări cele mai mici modificări ale amplitudinii semnalului analogic de intrare.

Cu toate acestea, măsurătorile excesiv de frecvente pot duce la o creștere nejustificată a fluxului de date digitale și la o risipă de resurse informatice la procesarea semnalului.

Din fericire, alegerea frecvenței de conversie potrivită (frecvența de eșantionare) este destul de simplă. Pentru a face acest lucru, este suficient să apelăm la teorema lui Kotelnikov, cunoscută specialiștilor în domeniul procesării digitale a semnalului. Teorema afirmă că frecvența de conversie trebuie să fie de două ori mai mare decât frecvența maximă a spectrului semnalului convertit. Prin urmare, pentru a digitiza fără a pierde calitatea unui semnal audio a cărui frecvență se află în intervalul 16-20.000 Hz, trebuie să selectați o frecvență de conversie nu mai mică de 40.000 Hz.

Rețineți, totuși, că în echipamentele audio profesionale frecvența de conversie este selectată de câteva ori mai mare decât valoarea specificată. Acest lucru se face pentru a realiza foarte Calitate superioară sunet digitalizat. Această calitate nu este relevantă pentru sistemele de recunoaștere a vorbirii, așa că nu vă vom concentra atenția asupra acestei alegeri.

Ce frecvență de conversie este necesară pentru a digitiza sunetul vorbirii umane?

Deoarece sunetele vorbirii umane se află în intervalul de frecvență de 300-4000 Hz, frecvența minimă de conversie necesară este de 8000 Hz. Cu toate acestea, mulți programe de calculator Recunoașterea vorbirii folosește o frecvență de conversie standard de 44.000 Hz pentru adaptoarele audio convenționale. Pe de o parte, o astfel de frecvență de conversie nu duce la o creștere excesivă a fluxului de date digitale și, pe de altă parte, asigură digitizarea vorbirii cu o calitate suficientă.

Înapoi la școală, am fost învățați că la orice măsurători apar erori, care nu pot fi eliminate complet. Astfel de erori apar din cauza rezoluției limitate a instrumentelor de măsurare, precum și datorită faptului că procesul de măsurare în sine poate introduce unele modificări în valoarea măsurată.

Un convertor analog-digital reprezintă semnalul analogic de intrare ca un flux de numere de capacitate limitată. Adaptoarele audio convenționale conțin blocuri ADC de 16 biți capabile să reprezinte amplitudinea semnalului de intrare ca 216 = 65536 de valori diferite. Dispozitivele ADC din echipamentele audio de ultimă generație pot fi pe 20 de biți, oferind o precizie mai mare în reprezentarea amplitudinii semnalului audio.

Современные системы и программы распознавания речи создавались для обычных компьютеров, оборудованных обычными