Äänen muuntaminen numerovirraksi. Puheen synteesi ja tunnistus. Nykyaikaiset ratkaisut. Tietokoneen äänilaitteet. Äänen muuntaminen numerovirraksi Dynaaminen alue pakattu tai vakio

Sarjan toinen osa on omistettu kuvien dynaamisen alueen optimointitoiminnoille. Siinä kerromme sinulle, miksi tällaisia ​​​​ratkaisuja tarvitaan, harkitsemme erilaisia ​​​​vaihtoehtoja niiden toteuttamiseksi sekä niiden edut ja haitat.

Syleile äärettömyyttä

Ihannetapauksessa kameran pitäisi ottaa kuva ympäröivästä maailmasta sellaisena kuin ihminen sen näkee. Kuitenkin, koska kameran ja ihmissilmän "näön" mekanismit ovat merkittävästi erilaisia, on olemassa useita rajoituksia, jotka eivät salli tämän ehdon täyttymistä.

Yksi filmikameroiden käyttäjien aiemmin ja nyt digikameroiden omistajien kohtaamista ongelmista on kyvyttömyys kaapata riittävästi kohtauksia, joissa on suuria valaistuseroja ilman erikoislaitteita ja/tai erityisiä kuvaustekniikoita. Ihmisen visuaalisen järjestelmän erityispiirteet mahdollistavat suurikontrastisten kohtausten yksityiskohtien havaitsemisen yhtä hyvin sekä kirkkaasti valaistuilla että tummilla alueilla. Valitettavasti kameran anturi ei aina pysty ottamaan kuvaa sellaisena kuin me sen näemme.

Mitä suurempi kirkkauden ero valokuvatussa kohtauksessa, sitä todennäköisemmin yksityiskohtien menetys on valoisassa ja/tai varjossa. Seurauksena on, että sinisen taivaan ja rehevien pilvien sijaan kuva osoittautuu vain valkeaksi täpläksi, ja varjoissa sijaitsevat kohteet muuttuvat epäselviksi tummiksi siluetteiksi tai sulautuvat täysin ympäröivään ympäristöön.

Klassisessa valokuvauksessa käsite valokuvallinen leveysaste(Katso lisätietoja sivupalkista). Teoreettisesti digitaalikameroiden valokuvausleveysaste määräytyy analogia-digitaalimuuntimen (ADC) bittisyvyyden mukaan. Esimerkiksi käytettäessä 8-bittistä ADC:tä, ottaen huomioon kvantisointivirheen, valokuvausleveysasteen teoreettisesti saavutettavissa oleva arvo on 7 EV, 12-bittiselle ADC:lle - 11 EV jne. Todellisissa laitteissa kuvien dynaaminen alue kuitenkin osoittautuu olevan klo sama teoreettinen maksimi erityyppisten melun ja muiden tekijöiden vaikutuksesta.

Suuri ero kirkkaustasoissa on vakava asia
ongelma valokuvia otettaessa. Tässä tapauksessa kameran ominaisuudet
osoittautui riittämättömäksi suurimman osan riittävään välittämiseen
kohtauksen vaaleilla alueilla ja sen seurauksena sinisen alueen sijaan
taivas (merkitty viivalla) osoittautuu valkoiseksi "täpläksi"

Suurin kirkkausarvo, jonka valoherkkä anturi voi tallentaa, määräytyy sen solujen kylläisyystason mukaan. Minimiarvo riippuu useista tekijöistä, mukaan lukien matriisin lämpökohinan määrä, varauksensiirtokohina ja ADC-virhe.

On myös syytä huomata, että saman digitaalikameran valokuvausleveysaste voi vaihdella asetuksissa määritetyn herkkyysarvon mukaan. Suurin dynaaminen alue on saavutettavissa asettamalla ns. perusherkkyys (vastaten pienintä mahdollista numeerista arvoa). Kun tämän parametrin arvo kasvaa, dynaaminen alue pienenee lisääntyvän melutason vuoksi.

Antureilla varustettujen digitaalikameroiden nykyaikaisten mallien valokuvaus iso koko ja 14- tai 16-bittiset ADC:t, vaihtelevat välillä 9-11 EV, mikä on huomattavasti korkeampi verrattuna 35 mm:n värinegatiivisten elokuvien vastaaviin ominaisuuksiin (keskimäärin 4-5 EV). Siten jopa suhteellisen edullisilla digitaalikameroilla on riittävä valokuvausleveysaste, joka riittää välittämään tyypillisimmät amatöörikuvauskohtaukset.

On kuitenkin olemassa toisenlainen ongelma. Se liittyy olemassa olevien digitaalisten kuvien tallentamista koskevien standardien asettamiin rajoituksiin. Käyttämällä JPEG-muotoa, jossa on 8 bittiä värikanavaa kohden (josta on nyt tullut de facto standardi digitaalisten kuvien tallentamiseen tietokoneteollisuudessa ja digitaalitekniikassa), on jopa teoriassa mahdotonta tallentaa kuvaa, jonka valokuvausleveysaste on yli 8 EV.

Oletetaan, että kameran ADC mahdollistaa kuvan, jonka bittisyvyys on 12 tai 14 bittiä ja joka sisältää havaittavissa olevia yksityiskohtia sekä valoissa että varjoissa. Jos tämän kuvan valokuvausleveysaste kuitenkin ylittää 8 EV:n, osa 8-bittiseen standardimuotoon muunnetaan ilman lisätoimenpiteitä (eli yksinkertaisesti hylkäämällä "ylimääräiset" bitit). valoherkkä anturi katoaa.

Dynaaminen alue ja valokuvausleveysaste

Yksinkertaisesti sanottuna dynaaminen alue määritellään kuvan suurimman kirkkausarvon suhteeksi sen minimiarvoon. Klassisessa valokuvauksessa käytetään perinteisesti termiä valokuvaus leveysaste, joka tarkoittaa olennaisesti samaa asiaa.

Dynaamisen alueen leveys voidaan ilmaista suhdelukuna (esim. 1000:1, 2500:1 jne.), mutta useimmiten tämä tehdään logaritmisella asteikolla. Tässä tapauksessa lasketaan maksimikirkkauden ja sen vähimmäisarvon suhteen desimaalilogaritmin arvo ja numeron jälkeen iso kirjain D (englanninkielisestä tiheydestä? - tiheys) tai harvemmin? - lyhenne OD (englannin sanasta optical density? - optinen tiheys) asetetaan. Jos esimerkiksi suurimman kirkkausarvon suhde laitteen minimiarvoon on 1000:1, dynaaminen alue on yhtä suuri kuin 3,0 D:

Valokuvauksen leveysasteen mittaamiseen käytetään perinteisesti niin kutsuttuja valotusyksiköitä, lyhennettynä EV (valotusarvot; ammattilaiset kutsuvat niitä usein "pysähdyksiksi" tai "askeiksi"). Näissä yksiköissä valotuksen korjausarvo asetetaan yleensä kameran asetuksissa. Valokuvallisen leveysasteen arvon lisääminen 1 EV:llä vastaa maksimi- ja vähimmäiskirkkaustasojen välisen eron kaksinkertaistamista. Näin ollen EV-asteikko on myös logaritminen, mutta tässä tapauksessa lukuarvot lasketaan perus 2 logaritmilla.Esimerkiksi jos laite pystyy ottamaan kuvia maksimi-minimikirkkaussuhteella 256:1, niin sen valokuvausleveysaste on 8 EV:

Kompressio on järkevä kompromissi

Suurin osa tehokas tapa Voit tallentaa kuvia RAW-muodossa, jotta kameran valoherkän tunnistimen tallentamat kuvatiedot säilyvät kokonaisuudessaan. Kaikilla kameroilla ei kuitenkaan ole tällaista toimintoa, eivätkä kaikki amatöörivalokuvaajat ole valmiita osallistumaan vaivalloiseen valintatyöhön. yksittäisiä asetuksia jokaisesta otetusta valokuvasta.

Jotta kameran sisällä 8-bittiseksi JPEG-muotoon muunnettujen suurikontrastisten kuvien yksityiskohtien menettämisen todennäköisyys pienenee, markkinoille on tuotu useiden valmistajien laitteita (ei vain kompakteja, vaan myös SLR-laitteita). erikoistoiminnot, jonka avulla voit pakata tallennettujen kuvien dynaamisen alueen ilman käyttäjän toimia. Vähentämällä kokonaiskontrastia ja menettämällä pienen osan alkuperäisen kuvan tiedoista tällaiset ratkaisut mahdollistavat laitteen valoherkän tunnistimen 8-bittisessä JPEG-muodossa tallentamien valo- ja varjokohtien yksityiskohtien säilyttämisen, vaikka kuvan dynaaminen alue alkuperäinen kuva osoittautui leveäksi kuin 8 EV.

Yksi tämän alueen kehityksen edelläkävijöistä oli HP-yhtiö. Vuonna 2003 julkaistussa HP Photosmart 945 -digitaalikamerassa oli maailman ensimmäinen HP Adaptive Lightling -tekniikka, joka kompensoi automaattisesti valokuvien tummien alueiden heikon valaistuksen ja säilyttää siten varjojen yksityiskohdat ilman ylivalotuksen riskiä (mikä on erittäin tärkeää kuvattaessa korkeaa valoa). kontrastikohtaukset). HP Adaptive Lightling -algoritmi perustuu periaatteisiin, jotka englantilainen tiedemies Edwin Land on määritellyt ihmisen visuaalisen havainnon RETINEX-teoriassa.

HP Adaptive Lighting -valikko

Kuinka adaptiivinen valaistus toimii? Kun kuvasta on saatu 12-bittinen kuva, siitä erotetaan yksivärinen apukuva, joka on itse asiassa irradianssikartta. Kuvaa käsiteltäessä tätä korttia käytetään maskina, jonka avulla voit säätää melko monimutkaisen digitaalisen suodattimen vaikutuksen astetta kuvaan. Näin ollen kartan tummimpia pisteitä vastaavilla alueilla vaikutus tulevan kuvan kuvaan on minimaalinen ja päinvastoin. Tämä lähestymistapa mahdollistaa varjojen yksityiskohtien paljastamisen kirkastamalla näitä alueita valikoivasti ja vähentämällä vastaavasti tuloksena olevan kuvan kokonaiskontrastia.

On huomattava, että kun Adaptive Lighting on käytössä, otettu kuva käsitellään edellä kuvatulla tavalla ennen kuin valmis kuva kirjoitetaan tiedostoon. Kaikki kuvatut toiminnot suoritetaan automaattisesti, ja käyttäjä voi valita vain yhden kahdesta mukautuvan valaistuksen toimintatilasta (matala tai korkea valotus) kameran valikosta tai poistaa tämän toiminnon käytöstä.

Yleisesti ottaen monet nykyaikaisten digitaalikameroiden erityistoiminnot (mukaan lukien edellisessä artikkelissa käsitellyt kasvojentunnistusjärjestelmät) ovat eräänlainen sivutuote tai muunnostuote tutkimustyöstä, joka tehtiin alun perin sotilasasiakkaille. Mitä tulee kuvan dynaamisen alueen optimointitoimintoihin, yksi tunnetuimmista tällaisten ratkaisujen toimittajista on Apical. Erityisesti sen työntekijöiden luomat algoritmit ovat SAT (Shadow Adjustment Technology) -toiminnon toiminnan taustalla, ja se on toteutettu useissa Olympus-digitaalikameramalleissa. Lyhyesti SAT-toiminnon toimintaa voidaan kuvata seuraavasti: kuvan alkuperäisen kuvan perusteella luodaan tummimpia alueita vastaava maski, jonka jälkeen valotusarvo korjataan automaattisesti näille alueille.

Sony hankki myös lisenssin käyttää Apicalin kehitystä. Monissa Cyber-shot-sarjan kompaktikameramalleissa ja alfa-sarjan DSLR-kameroissa on ns. Dynamic Range Optimizer (DRO) -toiminto.

Valokuvat, jotka on otettu HP Photosmart R927 -laitteen ollessa pois päältä (ylhäällä)
ja aktivoitu Adaptive Lighting -toiminto

Kun DRO on aktivoitu, kuvan korjaus suoritetaan ensimmäisen kuvankäsittelyn aikana (eli ennen valmiin JPEG-tiedoston tallennusta). Perusversiossa DRO:ssa on kaksivaiheinen asetus (voit valita valikosta vakio- tai edistyneen toimintatilan). Kun valitset Vakio-tilan, valotustasot säädetään valokuvan kuva-analyysin perusteella, minkä jälkeen kuvaan sovelletaan sävykäyrää yleisen tasapainon tasoittamiseksi. Edistynyt tila käyttää monimutkaisempaa algoritmia, joka mahdollistaa korjauksen sekä varjoissa että valoisissa kohteissa.

Sonyn kehittäjät työskentelevät jatkuvasti parantaakseen DRO-algoritmia. Esimerkiksi a700 SLR-kamerassa, kun edistynyt DRO-tila on aktivoitu, on mahdollista valita yksi viidestä korjausvaihtoehdosta. Lisäksi yhdestä kuvasta on mahdollista tallentaa kolme versiota kerralla (eräänlainen haarukointi) eri DRO-asetuksella.

Monissa Nikonin digitaalikameramalleissa on D-Lighting-toiminto, joka myös perustuu Apical-algoritmeihin. Totta, toisin kuin yllä kuvatut ratkaisut, D-Lighting on toteutettu suodattimena aiemmin tallennettujen kuvien käsittelyyn käyttämällä sävykäyrää, jonka muoto mahdollistaa varjojen vaaleuden pitäen muut kuvan alueet ennallaan. Mutta koska tässä tapauksessa käsitellään valmiita 8-bittisiä kuvia (eikä alkuperäistä kehyskuvaa, jolla on suurempi bittisyvyys ja vastaavasti laajempi dynaaminen alue), D-Lightingin ominaisuudet ovat hyvin rajalliset. Käyttäjä voi saada saman tuloksen käsittelemällä kuvaa graafisessa editorissa.

Kun verrataan suurennettuja fragmentteja, on selvästi nähtävissä, että alkuperäisen kuvan tummat alueet (vasemmalla)
kun Adaptive Lighting -toiminto otettiin käyttöön, niistä tuli vaaleampia

On myös useita muihin periaatteisiin perustuvia ratkaisuja. Siten monet Panasonicin Lumix-perheen kamerat (erityisesti DMC-FX35, DMC-TZ4, DMC-TZ5, DMC-FS20, DMC-FZ18 jne.) toteuttavat valontunnistustoiminnon (Intelligent Exposure), joka on olennainen osa järjestelmää iA älykäs automaattinen ampumisen ohjaus. Älykäs valotustoiminto perustuu kehyskuvan automaattiseen analysointiin ja kuvan tummien alueiden korjaamiseen, jotta vältetään yksityiskohtien menetys varjoissa, sekä (tarvittaessa) suuren kontrastin kohtausten dynaamisen alueen pakkaaminen.

Joissakin tapauksissa dynaamisen alueen optimointitoiminto ei sisällä vain tiettyjä toimintoja alkuperäisen kuvan käsittelemiseksi, vaan myös kuvausasetusten korjaamista. Esimerkiksi Fujifilmin digitaalikameroiden uudet mallit (erityisesti FinePix S100FS) toteuttavat dynaamisen alueen laajentamistoiminnon (Wide Dynamic Range, WDR), jonka avulla voit kehittäjien mukaan lisätä valokuvausleveyttä yhdellä tai kaksi vaihetta (asetusterminologiassa - 200 ja 400%).

Kun WDR on käytössä, kamera ottaa valokuvia valotuksen korjauksella -1 tai -2 EV (valitusta asetuksesta riippuen). Siten kehyksen kuva osoittautuu alivalotelluksi - tämä on välttämätöntä, jotta kohokohtien yksityiskohdista säilyisi mahdollisimman paljon tietoa. Tuloksena olevaa kuvaa käsitellään sitten käyttämällä sävykäyrää, jonka avulla voit tasata kokonaistasapainoa ja säätää mustan tasoa. Kuva muunnetaan sitten 8-bittiseen muotoon ja tallennetaan JPEG-tiedostona.

Dynaamisen alueen pakkaus säilyttää enemmän yksityiskohtia
valoissa ja varjoissa, mutta väistämätön seuraus tällaisesta altistumisesta
on yleisen kontrastin väheneminen. Alimmassa kuvassa
pilvien rakenne on kuitenkin paljon paremmin kehittynyt
alhaisemman kontrastin vuoksi valokuvan tämä versio
näyttää vähemmän luonnolliselta

Samanlainen Dynamic Range Enlargement -toiminto on toteutettu useissa Pentaxin kompakteissa ja järjestelmäkameroissa (Optio S12, K200D jne.). Valmistajan mukaan Dynamic Range Enlargement -toiminnon avulla voit lisätä kuvien valokuvausleveyttä 1 EV:llä menettämättä yksityiskohtia kirkkaissa ja varjoissa.

Samanlainen toiminto nimeltä Highlight tone priority (HTP) on toteutettu useissa Canonin DSLR-malleissa (EOS 40D, EOS 450D jne.). Käyttöoppaan mukaan HTP:n aktivointi parantaa korostuksen yksityiskohtia (erityisesti 0-18 % harmaaalueella).

Johtopäätös

Tehdään yhteenveto. Sisäänrakennetun dynaamisen alueen pakkaus mahdollistaa korkean dynaamisen alueen lähdekuvan muuntamisen 8-bittiseksi ilman vaurioita JPEG-tiedosto. Ilman mahdollisuutta tallentaa kuvia RAW-muodossa, Dynamic Range Compression -tilan ansiosta valokuvaajat voivat hyödyntää täydellisemmin kameransa mahdollisuuksia kuvatessaan suurikontrastisia kohtauksia.

Tietenkin on tärkeää muistaa, että dynaamisen alueen pakkaaminen ei ole ihmelääke, vaan pikemminkin kompromissi. Yksityiskohtien säilyttäminen vaaleissa ja/tai varjoissa lisää kohinatasoa kuvan tummilla alueilla, pienentää sen kontrastia ja karkentaa jonkin verran tasaisia ​​sävysiirtymiä.

Kuten kaikki automaattiset toiminnot, dynaamisen alueen pakkausalgoritmi ei ole täysin universaali ratkaisu, jonka avulla voit parantaa ehdottomasti mitä tahansa valokuvaa. Siksi on järkevää aktivoida se vain tapauksissa, joissa se on todella tarpeen. Esimerkiksi, jotta voidaan kuvata siluetti hyvin suunnitellulla taustalla, dynaamisen alueen pakkaustoiminto on kytkettävä pois päältä - muuten upea kohtaus pilaantuu toivottomasti.

Tämän aiheen tarkastelun päätteeksi on huomattava, että dynaamisen alueen pakkaustoimintojen käyttö ei anna meille mahdollisuutta "vetää ulos" tuloksena olevasta kuvasta yksityiskohtia, joita kameran anturi ei ole tallentanut. Saavuttaaksesi tyydyttäviä tuloksia kuvattaessa suurikontrastisia kohtauksia, saatat joutua käyttämään lisätyökaluja (kuten maisemakuvauksen gradienttisuodattimia) tai erikoistekniikoita (kuten useiden ruutujen kuvaamista valotuksen haarukoinnin avulla ja yhdistämällä ne sitten yhdeksi kuvaksi Tone Mapping -tekniikalla ).

Seuraava artikkeli keskittyy pursketoimintoon.

Jatkuu

Ajatellaanpa kysymystä – miksi meidän pitää nostaa äänenvoimakkuutta? Jotta kuulet hiljaisia ​​ääniä, jotka eivät kuulu olosuhteissamme (esimerkiksi jos et voi kuunnella kovaa, jos huoneessa on ylimääräistä melua jne.). Onko mahdollista vahvistaa hiljaisia ​​ääniä jättäen samalla kovat äänet yksin? Osoittautuu, että se on mahdollista. Tätä tekniikkaa kutsutaan dynaamisen alueen pakkaamiseksi (DRC). Tätä varten sinun on vaihdettava nykyistä äänenvoimakkuutta jatkuvasti - vahvistettava hiljaisia ​​ääniä, kovia - ei. Yksinkertaisin tilavuuden muutoksen laki on lineaarinen, ts. Äänenvoimakkuus muuttuu lain mukaan output_loudness = k * input_loudness, missä k on dynaamisen alueen pakkaussuhde:

Kuva 18. Dynaamisen alueen pakkaus.

Kun k = 1, muutoksia ei tehdä (lähtövoimakkuus on yhtä suuri kuin tuloäänenvoimakkuus). Klossa k< 1 громкость будет увеличиваться, а динамический диапазон - сужаться. Посмотрим на график (k=1/2) - тихий звук, имевший громкость -50дБ станет громче на 25дБ, что значительно громче, но при этом громкость диалогов (-27дБ) повысится всего лишь на 13.5дБ, а громкость самых громких звуков (0дБ) вообще не изменится. При k >1 - äänenvoimakkuus pienenee ja dynaaminen alue kasvaa.

Katsotaanpa tilavuuskaavioita (k = 1/2: DD-pakkaus kaksinkertaistuu):

Kuva 19. Äänenvoimakkuuskäyrät.

Kuten voit nähdä alkuperäisessä, siellä oli sekä erittäin hiljaisia ​​ääniä, 30 dB dialogin tason alapuolella, että erittäin kovia - 30 dB dialogin tason yläpuolella. Että. dynaaminen alue oli 60dB. Pakkauksen jälkeen kovat äänet ovat vain 15 dB korkeampia ja hiljaiset 15 dB alhaisemmat kuin dialogi (dynaaminen alue on nyt 30 dB). Siten voimakkaat äänet muuttuivat huomattavasti hiljaisemmiksi ja hiljaiset äänet huomattavasti voimakkaammiksi. Tässä tapauksessa ei ole ylivuotoa!

Katsotaanpa nyt histogrammeja:

Kuva 20. Esimerkki puristamisesta.

Kuten näet selvästi, vahvistimella +30 dB asti histogrammin muoto säilyy hyvin, mikä tarkoittaa, että kovat äänet pysyvät hyvin ilmaistuina (ne eivät mene maksimiin eivätkä katkea, kuten tapahtuu yksinkertaisessa vahvistuksessa) . Tämä tuottaa hiljaisia ​​ääniä. Histogrammi näyttää tämän huonosti, mutta ero on hyvin havaittavissa korvalla. Tämän menetelmän haittana ovat samat äänenvoimakkuuden hyppyt. Niiden esiintymismekanismi eroaa kuitenkin leikkauksen aikana tapahtuvista äänenvoimakkuuden hyppyistä, ja niiden luonne on erilainen - ne esiintyvät pääasiassa, kun hiljaisia ​​ääniä vahvistetaan erittäin voimakkaasti (eikä silloin, kun kovaäänisiä leikataan, kuten normaalissa vahvistuksessa). Liiallinen puristustaso johtaa äänikuvan tasoittumiseen - kaikki äänet ovat yleensä saman voimakkaita ja ilmaisuttomia.

Hiljaisten äänten liiallinen vahvistus voi aiheuttaa äänityskohinan kuulumista. Siksi suodatin käyttää hieman muokattua algoritmia, jotta melutaso nousee vähemmän:

Kuva 21. Äänenvoimakkuuden lisääminen lisäämättä melua.

Nuo. äänenvoimakkuustasolla -50 dB siirtofunktio taittuu ja kohina vahvistuu vähemmän (keltainen viiva). Jos tällaista käännettä ei ole, melu on paljon kovempaa (harmaa viiva). Tämä yksinkertainen muutos vähentää merkittävästi kohinan määrää jopa erittäin korkeilla pakkaustasoilla (kuvassa pakkaus 1:5). Suodattimen “DRC”-taso määrittää hiljaisten äänien vahvistustason (-50 dB), ts. Kuvassa näkyvä 1/5 pakkaustaso vastaa +40dB tasoa suodatinasetuksissa.

Aikana, jolloin tutkijat vasta alkoivat ratkaista puherajapinnan luomisen ongelmaa tietokoneille, he joutuivat usein valmistamaan omia laitteita, jotka mahdollistaisivat ääniinformaation syöttämisen tietokoneeseen ja myös tulostamisen tietokoneelta. Nykyään tällaisilla laitteilla voi olla vain historiallista mielenkiintoa, koska nykyaikaiset tietokoneet voidaan helposti varustaa äänen syöttö- ja ulostulolaitteilla, kuten äänisovittimilla, mikrofoneilla, kuulokkeilla ja kaiuttimilla.

Emme syvenny näiden laitteiden sisäisen rakenteen yksityiskohtiin, mutta puhumme niiden toiminnasta ja annamme joitain suosituksia äänitietokonelaitteiden valitsemiseksi puheentunnistus- ja synteesijärjestelmien kanssa.

Kuten edellisessä luvussa jo totesimme, ääni ei ole muuta kuin ilman värähtelyä, jonka taajuus on ihmisen havaitsemien taajuuksien alueella. Kuuluvan taajuusalueen tarkat rajat voivat vaihdella henkilöittäin, mutta äänen värähtelyjen uskotaan olevan 16-20 000 Hz.

Mikrofonin tarkoitus on muuntaa äänivärähtelyt sähkövärähtelyiksi, joita voidaan sitten vahvistaa, suodattaa häiriöiden poistamiseksi ja digitoida äänitietojen syöttämiseksi tietokoneeseen.

Yleisimmät mikrofonit jaetaan toimintaperiaatteensa perusteella hiilimikrofoneihin, sähködynaamisiin, kondensaattori- ja elektreettimikrofoneihin. Jotkut näistä mikrofoneista vaativat ulkoinen lähde virta (esimerkiksi hiili ja lauhdutin), toiset pystyvät äänivärähtelyjen vaikutuksesta itsenäisesti tuottamaan vaihtojännitettä (nämä ovat sähködynaamisia ja elektreettimikrofoneja).

Voit myös erottaa mikrofonit käyttötarkoituksen mukaan. On studiomikrofoneja, joita voi pitää kädessä tai kiinnittää telineeseen, on radiomikrofoneja, jotka voidaan kiinnittää vaatteisiin ja niin edelleen.

Mukana on myös erityisesti tietokoneisiin suunniteltuja mikrofoneja. Tällaiset mikrofonit asennetaan yleensä telineeseen, joka on sijoitettu pöydän pinnalle. Tietokonemikrofonit voidaan yhdistää kuulokkeisiin, kuten kuvassa. 2-1.

Riisi. 2-1. Kuulokkeet mikrofonilla

Kuinka voit valita useista mikrofoneista, jotka sopivat parhaiten puheentunnistusjärjestelmiin?

Periaatteessa voit kokeilla millä tahansa mikrofonillasi, kunhan se voidaan liittää tietokoneesi äänisovittimeen. Puheentunnistusjärjestelmien kehittäjät suosittelevat kuitenkin mikrofonin ostamista, joka on käytön aikana jatkuvalla etäisyydellä puhujan suusta.

Jos mikrofonin ja suun välinen etäisyys ei muutu, ei myöskään mikrofonista tulevan sähköisen signaalin keskimääräinen taso muutu liikaa. Tällä on myönteinen vaikutus nykyaikaisten puheentunnistusjärjestelmien suorituskykyyn.

Mikä on ongelma?

Ihminen pystyy tunnistamaan puheen, jonka äänenvoimakkuus vaihtelee hyvin laajalla alueella. Ihmisen aivot pystyvät suodattamaan hiljaisen puheen häiriöistä, kuten kadulla kulkevien autojen melusta, ulkopuolisista keskusteluista ja musiikista.

Mitä tulee nykyaikaisiin puheentunnistusjärjestelmiin, niiden kyvyt tällä alueella jättävät paljon toivomisen varaa. Jos mikrofoni on pöydällä, suun ja mikrofonin välinen etäisyys muuttuu, kun käännät päätäsi tai muutat kehon asentoa. Tämä muuttaa mikrofonin lähtötasoa, mikä puolestaan ​​heikentää puheentunnistuksen luotettavuutta.

Siksi puheentunnistusjärjestelmien kanssa työskennellessäsi saavutetaan parhaat tulokset, jos käytät kuulokkeisiin kiinnitettyä mikrofonia, kuten kuvassa 10 näkyy. 2-1. Käytettäessä tällaista mikrofonia suun ja mikrofonin välinen etäisyys on vakio.

Kiinnitämme huomiosi myös siihen, että kaikki puheentunnistusjärjestelmien kokeet on parasta tehdä yksityisesti hiljaisessa huoneessa. Tässä tapauksessa häiriön vaikutus on minimaalinen. Tietenkin, jos sinun on valittava puheentunnistusjärjestelmä, joka voi toimia voimakkaiden häiriöiden olosuhteissa, testit on suoritettava eri tavalla. Kuitenkin kirjan tekijöiden tiedossa puheentunnistusjärjestelmien kohinansieto on edelleen hyvin, hyvin alhainen.

Mikrofoni muuttaa ääniaallot värähtelyksi meille. sähkövirta. Nämä vaihtelut näkyvät oskilloskoopin näytöllä, mutta älä kiirehdi kauppaan ostamaan tätä kallisarvoista laitetta. Voimme suorittaa kaikki oskillografiset tutkimukset tavallisella tietokoneella, joka on varustettu äänisovittimella, esimerkiksi Sound Blaster -sovittimella. Kerromme myöhemmin, kuinka tämä tehdään.

Kuvassa 2-2 näytimme oskillogrammin äänimerkki, joka johtuu pitkän äänen lausumisesta a. Tämä aaltomuoto saatiin käyttämällä GoldWave-ohjelmaa, josta puhumme myöhemmin tässä kirjan luvussa, sekä käyttämällä Sound Blaster -äänisovitinta ja mikrofonia, joka on samanlainen kuin kuvassa 1. 2-1.

Riisi. 2-2. Äänisignaalin oskilogrammi

GoldWave-ohjelman avulla voit venyttää oskilogrammia aika-akselia pitkin, jolloin näet pienimmätkin yksityiskohdat. Kuvassa 2-3 näytimme venytettyä fragmenttia yllä mainitusta äänen oskillogrammista a.

Riisi. 2-3. Fragmentti äänisignaalin oskillogrammista

Huomaa, että mikrofonista tulevan tulosignaalin voimakkuus muuttuu ajoittain ja saa sekä positiivisia että negatiivisia arvoja.

Jos tulosignaalissa olisi vain yksi taajuus (eli jos ääni oli "puhdas"), mikrofonista vastaanotettu aaltomuoto olisi siniaalto. Kuten olemme jo todenneet, ihmisen puheäänien spektri koostuu joukosta taajuuksia, minkä seurauksena puhesignaalin oskilogrammin muoto on kaukana sinimuotoisesta.

Kutsumme signaalia, jonka suuruus muuttuu jatkuvasti ajan myötä analoginen signaali. Tämä on juuri se signaali, joka tulee mikrofonista. Toisin kuin analoginen, digitaalinen signaali on joukko numeerisia arvoja, jotka muuttuvat diskreetti ajan myötä.

Jotta tietokone voisi käsitellä äänisignaalia, se on muutettava analogisesta digitaaliseen muotoon, eli se on esitettävä numeroarvojen joukkona. Tätä prosessia kutsutaan analogisen signaalin digitalisoimiseksi.

Äänisignaalin (ja minkä tahansa analogisen) digitointi suoritetaan erityisellä laitteella nimeltä analogia-digitaali muunnin ADC (Analog to Digital Converter, ADC). Tämä laite sijaitsee äänisovitinkortilla ja on tavallisen näköinen mikropiiri.

Kuinka analogia-digitaali-muunnin toimii?

Se mittaa ajoittain tulosignaalin tason ja tulostaa mittaustuloksen numeerisen arvon. Tämä prosessi on kuvattu kuvassa. 2-4. Tässä harmaat suorakulmiot osoittavat tulosignaalin arvoja, jotka on mitattu jollain vakioaikavälillä. Joukko tällaisia ​​arvoja on digitoitu esitys analogisesta tulosignaalista.

Riisi. 2-4. Signaalin amplitudin mittaukset ajan funktiona

Kuvassa 2-5 näytimme analogia-digitaalimuuntimen kytkemisen mikrofoniin. Tässä tapauksessa analoginen signaali syötetään tuloon x 1 ja digitaalinen signaali poistetaan lähdöistä u 1 -u n.

Riisi. 2-5. Analogi-digitaali muunnin

Analogi-digitaalimuuntimille on ominaista kaksi tärkeää parametria - muunnostaajuus ja tulosignaalin kvantisointitasojen lukumäärä. Näiden parametrien oikea valinta on ratkaisevan tärkeää analogisen signaalin riittävän digitaalisen esityksen saavuttamiseksi.

Kuinka usein analogisen tulosignaalin amplitudia pitää mitata, jotta tieto analogisen tulosignaalin muutoksista ei katoa digitoinnin seurauksena?

Vaikuttaa siltä, ​​​​että vastaus on yksinkertainen - tulosignaali on mitattava mahdollisimman usein. Todellakin, mitä useammin analogia-digitaalimuunnin tekee tällaisia ​​mittauksia, sitä paremmin se pystyy seuraamaan pienimpiäkin muutoksia analogisen tulosignaalin amplitudissa.

Liian tiheät mittaukset voivat kuitenkin johtaa digitaalisen tiedon virran perusteelliseen lisääntymiseen ja tietokoneresurssien tuhlaukseen signaalin käsittelyssä.

Onneksi oikean muunnostaajuuden (näytteenottotaajuuden) valitseminen on melko yksinkertaista. Tätä varten riittää kääntyä Kotelnikovin lauseeseen, joka on digitaalisen signaalinkäsittelyn asiantuntijoiden tiedossa. Lauseen mukaan muunnostaajuuden on oltava kaksi kertaa muunnetun signaalin spektrin maksimitaajuus. Siksi, jotta voit digitoida menettämättä audiosignaalin laatua, jonka taajuus on alueella 16-20 000 Hz, sinun on valittava muunnostaajuus, joka on vähintään 40 000 Hz.

Huomaa kuitenkin, että ammattiäänilaitteissa muunnostaajuus valitaan useita kertoja korkeammaksi kuin määritetty arvo. Tämä tehdään saavuttaakseen erittäin Korkealaatuinen digitoitua ääntä. Tällä laadulla ei ole merkitystä puheentunnistusjärjestelmissä, joten emme keskitä huomiotasi tähän valintaan.

Mikä muunnostaajuus tarvitaan ihmisen puheen äänen digitalisoimiseen?

Koska ihmispuheen äänet ovat taajuusalueella 300-4000 Hz, pienin vaadittu muunnostaajuus on 8000 Hz. Kuitenkin monet tietokoneohjelmat Puheentunnistus käyttää 44 000 Hz:n standardimuunnostaajuutta perinteisille äänisovittimille. Toisaalta tällainen muunnostaajuus ei johda liialliseen digitaalisen datavirran kasvuun ja toisaalta varmistaa puheen riittävän laadukkaan digitalisoinnin.

Kouluaikoina meille opetettiin, että kaikissa mittauksissa syntyy virheitä, joita ei voida täysin poistaa. Tällaiset virheet johtuvat mittauslaitteiden rajallisesta resoluutiosta sekä siitä, että itse mittausprosessi voi tuoda joitain muutoksia mitattuun arvoon.

Analogi-digitaali-muunnin edustaa analogista tulosignaalia rajoitetun kapasiteetin lukujen virtana. Perinteiset audiosovittimet sisältävät 16-bittisiä ADC-lohkoja, jotka pystyvät esittämään tulosignaalin amplitudin 216 = 65536 eri arvona. Huippuluokan äänilaitteiden ADC-laitteet voivat olla 20-bittisiä, mikä tarjoaa paremman tarkkuuden audiosignaalin amplitudin esittämisessä.

Современные системы и программы распознавания р