Pretvarjanje zvoka v tok številk. Sinteza in prepoznavanje govora. Sodobne rešitve. Računalniška avdio oprema. Pretvarjanje zvoka v tok številk Dinamični razpon stisnjen ali standarden

Drugi del serije je posvečen funkcijam za optimizacijo dinamičnega razpona slik. V njem vam bomo povedali, zakaj so takšne rešitve potrebne, razmislili o različnih možnostih za njihovo izvedbo, pa tudi o njihovih prednostih in slabostih.

Objemite neizmernost

V idealnem primeru bi morala kamera zajeti podobo okoliškega sveta, kot ga človek dojema. Vendar pa zaradi dejstva, da se mehanizmi "vida" kamere in človeškega očesa bistveno razlikujejo, obstajajo številne omejitve, ki ne omogočajo izpolnjevanja tega pogoja.

Ena od težav, s katero so se prej srečevali uporabniki filmskih kamer in se zdaj soočajo lastniki digitalnih kamer, je nezmožnost ustreznega zajemanja prizorov z velikimi razlikami v osvetlitvi brez uporabe posebnih naprav in/ali posebnih tehnik snemanja. Posebnosti človeškega vidnega sistema omogočajo enako dobro zaznavanje podrobnosti visokokontrastnih prizorov tako v močno osvetljenih kot v temnih območjih. Na žalost senzor kamere ne more vedno zajeti slike, kot jo vidimo.

Večja ko je razlika v svetlosti na fotografiranem prizoru, večja je verjetnost izgube podrobnosti v svetlih delih in/ali sencah. Posledično se namesto modrega neba z bujnimi oblaki slika izkaže le za belkasto liso, predmeti v senci pa se spremenijo v nejasne temne silhuete ali se popolnoma zlijejo z okoliškim okoljem.

V klasični fotografiji je koncept fotografska širina(Za podrobnosti glejte stransko vrstico). Teoretično je fotografska širina digitalnih fotoaparatov določena z bitno globino analogno-digitalnega pretvornika (ADC). Na primer, pri uporabi 8-bitnega ADC bo ob upoštevanju napake kvantizacije teoretično dosegljiva vrednost fotografske širine 7 EV, za 12-bitni ADC - 11 EV itd. Vendar se v resničnih napravah izkaže, da je dinamični razpon slik enak pri isti teoretični maksimum zaradi vpliva različnih vrst hrupa in drugih dejavnikov.

Velika razlika v stopnjah svetlosti pomeni resno
problem pri fotografiranju. V tem primeru zmogljivosti kamere
izkazalo za nezadostno za ustrezen prenos večine
svetla območja prizora in posledično namesto območja modre barve
nebo (označeno s črto) se izkaže za belo "liso"

Največja vrednost svetlosti, ki jo lahko zabeleži svetlobno občutljiv senzor, je določena s stopnjo nasičenosti njegovih celic. Najmanjša vrednost je odvisna od več dejavnikov, vključno s količino toplotnega šuma matrike, šuma prenosa naboja in napake ADC.

Omeniti velja tudi, da se lahko fotografska širina istega digitalnega fotoaparata razlikuje glede na vrednost občutljivosti, nastavljeno v nastavitvah. Največji dinamični razpon je mogoče doseči z nastavitvijo tako imenovane osnovne občutljivosti (ki ustreza najmanjši možni numerični vrednosti). Ko se vrednost tega parametra poveča, se dinamični razpon zmanjša zaradi naraščajoče ravni hrupa.

Fotografska širina sodobnih modelov digitalnih fotoaparatov opremljenih s senzorji velika številka in 14- ali 16-bitnih ADC, se giblje od 9 do 11 EV, kar je bistveno več v primerjavi s podobnimi lastnostmi 35 mm barvnih negativ filmov (povprečno 4 do 5 EV). Tako imajo tudi razmeroma poceni digitalni fotoaparati zadostno fotografsko širino za ustrezen prenos večine tipičnih prizorov amaterskega fotografiranja.

Vendar pa obstaja problem drugačne vrste. Povezan je z omejitvami, ki jih nalagajo obstoječi standardi za snemanje digitalnih slik. Z uporabo formata JPEG z 8 bitov na barvni kanal (ki je zdaj postal de facto standard za snemanje digitalnih slik v računalniški industriji in digitalni tehnologiji) je celo teoretično nemogoče shraniti sliko s fotografsko širino, večjo od 8 EV.

Predpostavimo, da vam ADC fotoaparata omogoča pridobitev slike z bitno globino 12 ali 14 bitov, ki vsebuje vidne podrobnosti v svetlih in senčnih delih. Če pa fotografska širina te slike presega 8 EV, potem se v procesu pretvorbe v standardni 8-bitni format brez kakršnih koli dodatnih dejanj (to je preprosto z zavrženjem "odvečnih" bitov) del informacij, ki jih posname fotoobčutljiv senzor bo izgubljen.

Dinamični razpon in fotografsko širino

Če poenostavimo, je dinamični razpon definiran kot razmerje med največjo vrednostjo svetlosti slike in njeno najmanjšo vrednostjo. V klasični fotografiji se tradicionalno uporablja izraz fotografska širina, ki v bistvu pomeni isto.

Širina dinamičnega razpona je lahko izražena kot razmerje (na primer 1000:1, 2500:1 itd.), vendar se najpogosteje to naredi v logaritemskem merilu. V tem primeru se izračuna vrednost decimalnega logaritma razmerja med največjo svetlostjo in njeno najmanjšo vrednostjo, po številki pa velika črka D (iz angleške gostote? - gostota) ali manj pogosto? - okrajšava OD (iz angleške optične gostote? - optična gostota) je postavljena. Na primer, če je razmerje med največjo vrednostjo svetlosti in najmanjšo vrednostjo naprave 1000:1, bo dinamični razpon enak 3,0 D:

Za merjenje fotografske širine se tradicionalno uporabljajo tako imenovane ekspozicijske enote, skrajšano EV (vrednosti osvetlitve; strokovnjaki jih pogosto imenujejo "postanki" ali "koraki"). V teh enotah je vrednost kompenzacije osvetlitve običajno nastavljena v nastavitvah fotoaparata. Povečanje vrednosti fotografske širine za 1 EV je enakovredno podvojitvi razlike med največjo in najmanjšo stopnjo svetlosti. Tako je lestvica EV prav tako logaritemska, vendar se v tem primeru za izračun številskih vrednosti uporablja logaritem z osnovo 2. Na primer, če je naprava sposobna zajemati slike z največjim in najmanjšim razmerjem svetlosti 256:1, potem njena fotografska širina bo 8 EV:

Kompresija je razumen kompromis

večina učinkovit načinČe želite ohraniti celoten obseg informacij o sliki, ki jih posname senzor fotoaparata, občutljiv na svetlobo, je možno posneti slike v formatu RAW. Vendar nimajo vsi fotoaparati takšne funkcije in ni vsak amaterski fotograf pripravljen na mukotrpno delo izbire posamezne nastavitve za vsako posneto fotografijo.

Da bi zmanjšali verjetnost izgube podrobnosti visokokontrastnih slik, pretvorjenih v fotoaparatu v 8-bitni JPEG, so bile uvedene naprave številnih proizvajalcev (ne samo kompaktnih, ampak tudi zrcalnorefleksnih). posebne funkcije, ki vam omogoča stiskanje dinamičnega obsega shranjenih slik brez posredovanja uporabnika. Z zmanjšanjem splošnega kontrasta in izgubo majhnega dela informacij na izvirni sliki takšne rešitve omogočajo ohranitev podrobnosti v svetlih delih in sencah, ki jih zabeleži svetlobno občutljiv senzor naprave v 8-bitnem formatu JPEG, tudi če dinamični razpon Izkazalo se je, da je izvirna slika širša od 8 EV.

Eden od pionirjev razvoja tega področja je bilo podjetje HP. Digitalni fotoaparat HP Photosmart 945, ki je bil izdan leta 2003, je vseboval prvo tehnologijo HP Adaptive Lightling na svetu, ki samodejno kompenzira nizke ravni svetlobe na temnih območjih fotografij in tako ohrani podrobnosti v senci brez tveganja preosvetlitve (kar je zelo pomembno pri fotografiranju z visoko svetlobo). kontrastni prizori). Algoritem HP Adaptive Lightling temelji na načelih, ki jih je postavil angleški znanstvenik Edwin Land v teoriji človeškega vizualnega zaznavanja RETINEX.

Meni HP Adaptive Lighting

Kako deluje prilagodljiva osvetlitev? Po pridobitvi 12-bitne slike slike se iz nje izlušči pomožna enobarvna slika, ki je pravzaprav mapa obsevanosti. Pri obdelavi slike se ta kartica uporablja kot maska, ki vam omogoča prilagajanje stopnje vpliva precej zapletenega digitalnega filtra na sliko. Tako je na območjih, ki ustrezajo najtemnejšim točkam zemljevida, vpliv na podobo bodoče podobe minimalen in obratno. Ta pristop omogoča, da se razkrijejo podrobnosti v senci s selektivnim posvetlitvijo teh območij in posledično zmanjšanjem splošnega kontrasta nastale slike.

Upoštevati je treba, da ko je omogočena prilagodljiva osvetlitev, se zajeta slika obdela na zgoraj opisan način, preden se končna slika zapiše v datoteko. Vse opisane operacije se izvajajo samodejno, uporabnik pa lahko v meniju kamere izbere le enega od dveh načinov delovanja Adaptive Lighting (nizka ali visoka osvetlitev) ali pa to funkcijo onemogoči.

Na splošno so številne posebne funkcije sodobnih digitalnih fotoaparatov (vključno s sistemi za prepoznavanje obrazov, o katerih smo govorili v prejšnjem članku) nekakšen stranski proizvod ali proizvod pretvorbe raziskovalnega dela, ki je bilo prvotno opravljeno za vojaške stranke. Ko govorimo o funkcijah optimizacije dinamičnega razpona slike, je eden najbolj znanih ponudnikov tovrstnih rešitev Apical. Algoritmi, ki so jih ustvarili njeni zaposleni, so še posebej osnova za delovanje funkcije SAT (Shadow Adjustment Technology), implementirane v številne modele Olympusovih digitalnih fotoaparatov. Na kratko lahko delovanje funkcije SAT opišemo takole: na podlagi izvirne slike slike se ustvari maska, ki ustreza najtemnejšim območjem, nato pa se vrednost osvetlitve samodejno popravi za ta področja.

Sony je pridobil tudi licenco za uporabo razvoja podjetja Apical. Številni modeli kompaktnih fotoaparatov serije Cyber-shot in fotoaparatov DSLR serije alpha imajo tako imenovano funkcijo Dynamic Range Optimizer (DRO).

Fotografije, posnete z izklopljeno napravo HP Photosmart R927 (zgoraj)
in aktivirano funkcijo Adaptive Lighting

Ko je DRO aktiviran, se popravek slike izvede med začetno obdelavo slike (to je pred snemanjem končne datoteke JPEG). DRO ima v osnovni izvedbi dvostopenjsko nastavitev (v meniju lahko izberete standardni ali napredni način delovanja). Ko izberete standardni način, se ravni osvetlitve prilagodijo na podlagi analize slike fotografije, nato pa se na sliko uporabi tonska krivulja, da se izravna splošno ravnovesje. Napredni način uporablja bolj zapleten algoritem, ki omogoča popravke v sencah in svetlih delih.

Razvijalci Sony nenehno delajo na izboljšanju algoritma DRO. Na primer, pri fotoaparatu a700 SLR, ko je aktiviran napredni način DRO, je mogoče izbrati eno od petih možnosti popravka. Poleg tega je možno shraniti tri različice ene slike naenkrat (neke vrste bracketing) z različnimi nastavitvami DRO.

Veliko modelov digitalnih fotoaparatov Nikon ima funkcijo D-Lighting, ki prav tako temelji na apical algoritmih. Res je, da je v nasprotju z zgoraj opisanimi rešitvami D-Lighting implementiran kot filter za obdelavo predhodno shranjenih slik z uporabo tonske krivulje, katere oblika vam omogoča, da naredite sence svetlejše, medtem ko ostala področja slike ostanejo nespremenjena. Ker pa se v tem primeru obdelujejo že pripravljene 8-bitne slike (in ne izvirna okvirna slika, ki ima višjo bitno globino in s tem širši dinamični razpon), so zmožnosti D-Lightinga zelo omejene. Uporabnik lahko dobi enak rezultat z obdelavo slike v grafičnem urejevalniku.

Pri primerjavi povečanih fragmentov je jasno razvidno, da temna področja izvirne slike (levo)
ko je bila vklopljena funkcija Adaptive Lighting, so postale svetlejše

Obstajajo tudi številne rešitve, ki temeljijo na drugih načelih. Tako veliko Panasonicovih fotoaparatov družine Lumix (zlasti DMC-FX35, DMC-TZ4, DMC-TZ5, DMC-FS20, DMC-FZ18 itd.) izvaja funkcijo prepoznavanja svetlobe (Intelligent Exposure), ki je sestavni del sistema iA inteligentnega avtomatskega nadzora streljanja. Funkcija Inteligentna osvetlitev temelji na samodejni analizi okvirne slike in korekciji temnih področij slike, da se prepreči izguba podrobnosti v sencah, ter (če je potrebno) kompresiji dinamičnega razpona prizorov z visokim kontrastom.

V nekaterih primerih funkcija optimizacije dinamičnega razpona ne vključuje le določenih operacij za obdelavo izvirne slikovne slike, temveč tudi popravek nastavitev fotografiranja. Na primer, novi modeli digitalnih fotoaparatov Fujifilm (zlasti FinePix S100FS) izvajajo funkcijo za razširitev dinamičnega razpona (Wide Dynamic Range, WDR), ki po mnenju razvijalcev omogoča povečanje fotografske širine za eno ali dva koraka (v terminologiji nastavitev - 200 in 400%).

Ko je WDR aktiviran, fotoaparat posname fotografije s kompenzacijo osvetlitve -1 ali -2 EV (odvisno od izbrane nastavitve). Tako se izkaže, da je slika okvirja premalo osvetljena - to je potrebno, da ohranimo največ informacij o podrobnostih v poudarkih. Nastala slika se nato obdela s tonsko krivuljo, ki omogoča izenačitev splošnega ravnovesja in prilagoditev ravni črne barve. Slika se nato pretvori v 8-bitni format in posname kot datoteka JPEG.

Stiskanje dinamičnega obsega ohrani več podrobnosti
v luči in sencah, a neizogibna posledica takšne izpostavljenosti
je zmanjšanje celotnega kontrasta. Na spodnji sliki
vendar je tekstura oblakov veliko bolje razvita
zaradi nižjega kontrasta ta različica fotografije
izgleda manj naravno

Podobna funkcija, imenovana Dynamic Range Enlargement, je implementirana v številnih kompaktnih in SLR fotoaparatih Pentax (Optio S12, K200D itd.). Po navedbah proizvajalca vam uporaba funkcije Dynamic Range Enlargement omogoča povečanje fotografske širine slik za 1 EV, ne da bi pri tem izgubili podrobnosti v svetlih in senčnih delih.

Podobna funkcija, imenovana Highlight tone priority (HTP), je implementirana v številnih modelih Canon DSLR (EOS 40D, EOS 450D itd.). Glede na uporabniški priročnik aktiviranje HTP izboljša svetle podrobnosti (natančneje v območju sive barve od 0 do 18 %).

Zaključek

Naj povzamemo. Vgrajeno stiskanje dinamičnega razpona vam omogoča pretvorbo izvorne slike z visokim dinamičnim razponom v 8-bitno z minimalno škodo JPEG datoteko. Brez možnosti shranjevanja slik v formatu RAW način stiskanja dinamičnega razpona omogoča fotografom, da v celoti izkoristijo potencial svojega fotoaparata pri fotografiranju prizorov z visokim kontrastom.

Seveda si je treba zapomniti, da stiskanje dinamičnega razpona ni čudežno zdravilo, temveč kompromis. Ohranjanje podrobnosti v svetlih delih in/ali sencah je posledica povečanja ravni šuma v temnih območjih slike, zmanjšanja njenega kontrasta in nekoliko grobejših gladkih tonskih prehodov.

Kot katera koli samodejna funkcija tudi algoritem stiskanja dinamičnega razpona ni povsem univerzalna rešitev, ki vam omogoča izboljšanje popolnoma katere koli fotografije. Zato ga je smiselno aktivirati le v primerih, ko je to res potrebno. Na primer, če želite posneti silhueto z dobro oblikovanim ozadjem, je treba izklopiti funkcijo stiskanja dinamičnega razpona - sicer bo spektakularen prizor brezupno uničen.

Če zaključimo našo obravnavo te teme, je treba opozoriti, da nam uporaba funkcij stiskanja dinamičnega razpona ne omogoča, da v nastali sliki "izvlečemo" podrobnosti, ki jih senzor kamere ni zajel. Za doseganje zadovoljivih rezultatov pri fotografiranju visokokontrastnih prizorov boste morda morali uporabiti dodatna orodja (kot so gradientni filtri za pokrajinsko fotografijo) ali posebne tehnike (kot je snemanje več sličic z različnimi nastavitvami osvetlitve in nato združitev v eno sliko s tehnologijo Tone Mapping ).

Naslednji članek se bo osredotočil na funkcijo burst.

Se nadaljuje

Pomislimo na vprašanje - zakaj moramo povečati glasnost? Da bi slišali tihe zvoke, ki v naših razmerah niso slišni (na primer, če ne morete poslušati glasno, če je v prostoru tuji hrup itd.). Ali je mogoče ojačati tihe zvoke, glasne pa pustiti pri miru? Izkazalo se je, da je to mogoče. Ta tehnika se imenuje stiskanje dinamičnega obsega (DRC). Če želite to narediti, morate nenehno spreminjati trenutno glasnost - povečati tihe zvoke, glasne - ne. Najenostavnejši zakon spreminjanja prostornine je linearen, tj. Glasnost se spreminja po zakonu output_loudness = k * input_loudness, kjer je k kompresijsko razmerje dinamičnega razpona:

Slika 18. Stiskanje dinamičnega obsega.

Ko je k = 1, ni sprememb (izhodna prostornina je enaka vhodni prostornini). Na k< 1 громкость будет увеличиваться, а динамический диапазон - сужаться. Посмотрим на график (k=1/2) - тихий звук, имевший громкость -50дБ станет громче на 25дБ, что значительно громче, но при этом громкость диалогов (-27дБ) повысится всего лишь на 13.5дБ, а громкость самых громких звуков (0дБ) вообще не изменится. При k >1 - glasnost se bo zmanjšala in dinamični razpon povečal.

Poglejmo grafe glasnosti (k = 1/2: kompresija DD je podvojena):

Slika 19. Grafi glasnosti.

Kot lahko vidite v izvirniku, so bili tako zelo tihi zvoki, 30 dB pod nivojem dialoga, kot tudi zelo glasni - 30 dB nad nivojem dialoga. to. dinamični razpon je bil 60 dB. Po kompresiji so glasni zvoki le 15 dB višji, tihi zvoki pa 15 dB nižji od dialoga (dinamični razpon je zdaj 30 dB). Tako so glasni zvoki postali bistveno tišji, tihi zvoki pa občutno glasnejši. V tem primeru prelivanja ni!

Zdaj pa poglejmo histograme:

Slika 20. Primer stiskanja.

Kot lahko jasno vidite, je z ojačanjem do +30dB oblika histograma dobro ohranjena, kar pomeni, da glasni zvoki ostanejo dobro izraženi (ne gredo do maksimuma in niso odrezani, kot se zgodi pri preprostem ojačanju) . To proizvaja tihe zvoke. Histogram to slabo pokaže, vendar je razlika na uho zelo opazna. Pomanjkljivost te metode so enaki skoki volumna. Vendar se mehanizem njihovega nastanka razlikuje od skokov glasnosti, ki nastanejo med rezanjem, in njihov značaj je drugačen - pojavijo se predvsem pri zelo močnem ojačanju tihih zvokov (in ne pri rezanju glasnih, kot pri normalnem ojačanju). Prekomerna stopnja kompresije vodi do sploščitve zvočne slike - vsi zvoki so ponavadi enako glasni in neizraziti.

Prekomerno ojačanje tihih zvokov lahko povzroči, da postane slišen šum pri snemanju. Zato filter uporablja nekoliko spremenjen algoritem, tako da se raven šuma manj dvigne:

Slika 21. Povečanje glasnosti brez povečanja šuma.

Tisti. pri glasnosti -50 dB se prenosna funkcija obrne in hrup bo manj ojačan (rumena črta). Če takega pregiba ni, bo hrup veliko glasnejši (siva črta). Ta preprosta sprememba bistveno zmanjša količino šuma tudi pri zelo visokih stopnjah stiskanja (kompresija 1:5 na sliki). Raven »DRC« v filtru nastavi stopnjo ojačanja za tihe zvoke (pri -50 dB), tj. Stopnja kompresije 1/5, prikazana na sliki, ustreza stopnji +40 dB v nastavitvah filtra.

V času, ko so raziskovalci šele začeli reševati problem ustvarjanja govornega vmesnika za računalnike, so pogosto morali izdelati lastno opremo, ki bi omogočala vnos zvočnih informacij v računalnik in tudi izhod iz računalnika. Danes so takšne naprave morda le zgodovinskega pomena, saj je sodobne računalnike mogoče enostavno opremiti z avdio vhodnimi in izhodnimi napravami, kot so zvočni adapterji, mikrofoni, slušalke in zvočniki.

Ne bomo se poglabljali v podrobnosti notranje strukture teh naprav, ampak bomo govorili o njihovem delovanju in podali nekaj priporočil za izbiro zvočnih računalniških naprav za delo s sistemi za prepoznavanje in sintezo govora.

Kot smo že povedali v prejšnjem poglavju, zvok ni nič drugega kot nihanje zraka, katerega frekvenca je v območju frekvenc, ki jih zaznava človek. Natančne meje zvočnega frekvenčnega območja se lahko razlikujejo od osebe do osebe, vendar se verjame, da zvočne vibracije ležijo v območju od 16 do 20.000 Hz.

Namen mikrofona je pretvoriti zvočne vibracije v električne vibracije, ki jih je mogoče nato ojačati, filtrirati za odstranitev motenj in digitalizirati za vnos zvočnih informacij v računalnik.

Glede na princip delovanja delimo najpogostejše mikrofone na ogljikove, elektrodinamične, kondenzatorske in elektretne. Nekateri od teh mikrofonov zahtevajo zunanji vir tok (na primer ogljik in kondenzator), drugi pa lahko pod vplivom zvočnih vibracij samostojno ustvarjajo izmenično električno napetost (to so elektrodinamični in elektretni mikrofoni).

Mikrofone lahko ločite tudi po namenu. Obstajajo studijski mikrofoni, ki jih lahko držite v roki ali namestite na stojalo, obstajajo radijski mikrofoni, ki jih lahko pritrdite na oblačila itd.

Obstajajo tudi mikrofoni, zasnovani posebej za računalnike. Takšni mikrofoni so običajno nameščeni na stojalo, nameščeno na površini mize. Računalniške mikrofone je mogoče kombinirati s slušalkami, kot je prikazano na sl. 2-1.

riž. 2-1. Slušalke z mikrofonom

Kako lahko med različnimi mikrofoni izberete tiste, ki so najprimernejši za sisteme za prepoznavanje govora?

Načeloma lahko eksperimentirate s katerim koli mikrofonom, ki ga imate, če ga je mogoče povezati z zvočnim adapterjem vašega računalnika. Vendar pa razvijalci sistemov za prepoznavanje govora priporočajo nakup mikrofona, ki bo med delovanjem na stalni razdalji od govornikovih ust.

Če se razdalja med mikrofonom in usti ne spremeni, se tudi povprečna raven električnega signala, ki prihaja iz mikrofona, ne bo preveč spremenila. To bo pozitivno vplivalo na delovanje sodobnih sistemov za prepoznavanje govora.

V čem je problem?

Človek je sposoben uspešno prepoznati govor, katerega glasnost se spreminja v zelo širokem razponu. Človeški možgani lahko filtrirajo tihi govor pred motnjami, kot so hrup avtomobilov, ki vozijo po ulici, zunanji pogovori in glasba.

Kar zadeva sodobne sisteme za prepoznavanje govora, njihove sposobnosti na tem področju puščajo veliko želenega. Če je mikrofon na mizi, se bo razdalja med usti in mikrofonom spremenila, ko obrnete glavo ali spremenite položaj telesa. To bo spremenilo izhodno raven mikrofona, kar bo posledično zmanjšalo zanesljivost prepoznavanja govora.

Zato boste pri delu s sistemi za prepoznavanje govora najboljše rezultate dosegli, če uporabljate mikrofon, priključen na slušalke, kot je prikazano na sl. 2-1. Pri uporabi takšnega mikrofona bo razdalja med usti in mikrofonom konstantna.

Opozarjamo vas tudi na dejstvo, da je vse poskuse s sistemi za prepoznavanje govora najbolje izvajati v zasebnosti v tihi sobi. V tem primeru bo vpliv motenj minimalen. Seveda, če morate izbrati sistem za prepoznavanje govora, ki lahko deluje v pogojih močnih motenj, je treba preskuse izvesti drugače. Vendar, kolikor vedo avtorji knjige, je odpornost sistemov za prepoznavanje govora na hrup še vedno zelo, zelo nizka.

Mikrofon za nas pretvori zvočne valove v vibracije. električni tok. Ta nihanja je mogoče videti na zaslonu osciloskopa, vendar ne hitite v trgovino za nakup te drage naprave. Vse oscilografske študije lahko izvedemo z običajnim računalnikom, opremljenim z zvočnim adapterjem, na primer adapterjem Sound Blaster. Kasneje vam bomo povedali, kako to storiti.

Na sl. 2-2 smo prikazali oscilogram zvočni signal, ki je posledica izgovarjanja dolgega zvoka a. Ta valovna oblika je bila pridobljena s programom GoldWave, o katerem bomo govorili pozneje v tem poglavju knjige, pa tudi z uporabo zvočnega adapterja Sound Blaster in mikrofona, podobnega tistemu, prikazanemu na sliki. 2-1.

riž. 2-2. Oscilogram zvočnega signala

Program GoldWave vam omogoča raztezanje oscilograma vzdolž časovne osi, kar vam omogoča, da vidite najmanjše podrobnosti. Na sl. 2-3 smo prikazali raztegnjen fragment zgoraj omenjenega oscilograma zvoka a.

riž. 2-3. Fragment oscilograma zvočnega signala

Upoštevajte, da se velikost vhodnega signala, ki prihaja iz mikrofona, občasno spreminja in ima tako pozitivne kot negativne vrednosti.

Če bi bila v vhodnem signalu prisotna samo ena frekvenca (to je, če bi bil zvok "čist"), bi bila valovna oblika, prejeta iz mikrofona, sinusni val. Vendar, kot smo že povedali, je spekter zvokov človeškega govora sestavljen iz niza frekvenc, zaradi česar je oblika oscilograma govornega signala daleč od sinusoidne.

Imenovali bomo signal, katerega velikost se skozi čas nenehno spreminja analogni signal. To je točno signal, ki prihaja iz mikrofona. Za razliko od analognega, digitalni signal je niz številskih vrednosti, ki se diskretno spreminjajo skozi čas.

Da bi računalnik lahko obdelal zvočni signal, ga je treba pretvoriti iz analogne v digitalno obliko, torej predstaviti kot niz številskih vrednosti. Ta proces se imenuje analogna digitalizacija signala.

Digitalizacija zvočnega (in katerega koli analognega) signala se izvede s posebno napravo, imenovano analogno-digitalni pretvornik ADC (analogno-digitalni pretvornik, ADC). Ta naprava se nahaja na plošči zvočnega adapterja in je običajno mikrovezje.

Kako deluje analogno-digitalni pretvornik?

Periodično meri nivo vhodnega signala in izpiše numerično vrednost rezultata meritve. Ta postopek je prikazan na sl. 2-4. Tukaj sivi pravokotniki označujejo vrednosti vhodnega signala, izmerjene v nekem konstantnem časovnem intervalu. Niz takih vrednosti je digitalizirana predstavitev vhodnega analognega signala.

riž. 2-4. Meritve amplitude signala v odvisnosti od časa

Na sl. 2-5 smo prikazali povezavo analogno-digitalnega pretvornika z mikrofonom. V tem primeru se analogni signal dovaja na vhod x 1, digitalni signal pa se odstrani iz izhodov u 1 -u n.

riž. 2-5. Analogno-digitalni pretvornik

Za analogno-digitalne pretvornike sta značilna dva pomembna parametra - frekvenca pretvorbe in število nivojev kvantizacije vhodnega signala. Pravilna izbira teh parametrov je ključnega pomena za doseganje ustrezne digitalne predstavitve analognega signala.

Kako pogosto morate meriti amplitudo vhodnega analognega signala, da se informacije o spremembah vhodnega analognega signala ne izgubijo zaradi digitalizacije?

Zdi se, da je odgovor preprost - vhodni signal je treba meriti čim pogosteje. Dejansko pogosteje kot analogno-digitalni pretvornik izvaja takšne meritve, bolje bo lahko sledil najmanjšim spremembam v amplitudi vhodnega analognega signala.

Prepogoste meritve pa lahko privedejo do neupravičenega povečanja pretoka digitalnih podatkov in tratenja računalniških virov pri obdelavi signala.

Na srečo je izbira prave frekvence pretvorbe (frekvenca vzorčenja) precej preprosta. Če želite to narediti, je dovolj, da se obrnete na Kotelnikov izrek, ki je znan strokovnjakom na področju digitalne obdelave signalov. Izrek pravi, da mora biti frekvenca pretvorbe dvakrat večja od največje frekvence spektra pretvorjenega signala. Zato morate za digitalizacijo brez izgube kakovosti zvočnega signala, katerega frekvenca je v območju 16–20.000 Hz, izbrati frekvenco pretvorbe najmanj 40.000 Hz.

Upoštevajte pa, da je v profesionalni avdio opremi izbrana frekvenca pretvorbe nekajkrat višja od navedene vrednosti. To se naredi za dosego zelo Visoka kvaliteta digitaliziran zvok. Ta kakovost ni pomembna za sisteme za prepoznavanje govora, zato vaše pozornosti ne bomo osredotočali na to izbiro.

Kakšna frekvenca pretvorbe je potrebna za digitalizacijo zvoka človeškega govora?

Ker zvoki človeškega govora ležijo v frekvenčnem območju 300-4000 Hz, je najmanjša zahtevana frekvenca pretvorbe 8000 Hz. Vendar pa mnogi računalniški programi Prepoznavanje govora uporablja standardno frekvenco pretvorbe 44.000 Hz za običajne zvočne adapterje. Po eni strani takšna frekvenca pretvorbe ne vodi do pretiranega povečanja pretoka digitalnih podatkov, po drugi strani pa zagotavlja dovolj kakovostno digitalizacijo govora.

Že v šoli so nas učili, da pri vsaki meritvi nastanejo napake, ki jih ni mogoče popolnoma odpraviti. Takšne napake nastanejo zaradi omejene ločljivosti merilnih instrumentov, pa tudi zaradi dejstva, da lahko sam proces merjenja vnese nekaj sprememb v izmerjeno vrednost.

Analogno-digitalni pretvornik predstavlja vhodni analogni signal kot tok števil omejene kapacitete. Običajni zvočni adapterji vsebujejo 16-bitne bloke ADC, ki lahko predstavijo amplitudo vhodnega signala kot 216 = 65536 različnih vrednosti. Naprave ADC v vrhunski zvočni opremi so lahko 20-bitne, kar zagotavlja večjo natančnost pri predstavljanju amplitude zvočnega signala.

Sodobni sistemi in programi za prepoznavanje govora so bili ustvarjeni za običajne računalnike, opremljene z navadnimi zvočnimi adapterji. Zato vam za izvajanje poskusov s prepoznavanjem govora ni treba kupiti profesionalnega zvočnega adapterja. Adapter, kot je Sound Blaster, je povsem primeren za digitalizacijo govora z namenom njegovega nadaljnjega prepoznavanja.

Skupaj s koristnim signalom v mikrofon običajno vstopijo različni šumi - hrup z ulice, hrup vetra, tuji pogovori itd. Hrup negativno vpliva na delovanje sistemov za prepoznavanje govora, zato se je treba z njim spopasti. Enega od načinov smo že omenili - današnje sisteme za prepoznavanje govora je najbolje uporabljati v tihi sobi, sam z računalnikom.

Vendar pa ni vedno mogoče ustvariti idealnih pogojev, zato je treba uporabiti posebne metode, da se znebite motenj. Za zmanjšanje ravni hrupa se pri oblikovanju mikrofonov uporabljajo posebni triki in posebni filtri, ki iz spektra analognega signala odstranijo frekvence, ki ne prenašajo uporabnih informacij. Poleg tega se uporablja tehnika, kot je stiskanje dinamičnega obsega ravni vhodnega signala.

Pogovorimo se o vsem tem po vrsti.

Frekvenčni filter je naprava, ki pretvarja frekvenčni spekter analognega signala. V tem primeru se med procesom pretvorbe sproščajo (ali absorbirajo) vibracije določenih frekvenc.

To napravo si lahko predstavljate kot nekakšno črno skrinjico z enim vhodom in enim izhodom. Glede na našo situacijo bo na vhod frekvenčnega filtra priključen mikrofon, na izhod pa analogno-digitalni pretvornik.

Obstajajo različni frekvenčni filtri:

· nizkoprepustni filtri;

visokoprepustni filtri;

· oddajni pasovni filtri;

· pasovni filtri.

Nizkoprepustni filtri(nizkoprepustni filter) iz spektra vhodnega signala odstrani vse frekvence, katerih vrednosti so pod določeno mejno frekvenco, odvisno od nastavitve filtra.

Ker zvočni signali ležijo v območju od 16 do 20.000 Hz, je mogoče vse frekvence, nižje od 16 Hz, odrezati brez poslabšanja kakovosti zvoka. Za prepoznavanje govora je pomembno frekvenčno območje 300-4000 Hz, zato lahko frekvence pod 300 Hz izločimo. V tem primeru bodo vse motnje, katerih frekvenčni spekter leži pod 300 Hz, izrezane iz vhodnega signala in ne bodo motile procesa prepoznavanja govora.

prav tako visokoprepustni filtri(visokoprepustni filter) iz spektra vhodnega signala izloči vse frekvence nad določeno mejno frekvenco.

Ljudje ne slišimo zvokov s frekvenco 20.000 Hz in več, zato jih lahko izločimo iz spektra brez opaznega poslabšanja kakovosti zvoka. Kar zadeva prepoznavanje govora, lahko tukaj izrežete vse frekvence nad 4000 Hz, kar bo povzročilo znatno zmanjšanje ravni visokofrekvenčnih motenj.

Pasovni filter(pasovni filter) si lahko predstavljamo kot kombinacijo nizkopasovnega in visokoprepustnega filtra. Tak filter zakasni vse frekvence pod t.i nižja frekvenca prehoda, in tudi zgoraj frekvenca zgornjega prehoda.

Tako je pasovni filter primeren za sistem za prepoznavanje govora, ki zakasni vse frekvence razen frekvenc v območju 300-4000 Hz.

Kar zadeva pasovne filtre, vam omogočajo, da iz spektra vhodnega signala izločite vse frekvence, ki ležijo v danem območju. Tak filter je primeren na primer za zatiranje motenj, ki zasedajo določen neprekinjen del spektra signala.

Na sl. 2-6 smo prikazali povezavo pasovnega filtra.

riž. 2-6. Filtriranje zvočnega signala pred digitalizacijo

Надо сказать, что обычные звуковые адаптеры, установленные в компьютере, имеют