Äänen muuntaminen numerovirraksi. Puheen synteesi ja tunnistus. Nykyaikaiset ratkaisut. Tietokoneen äänilaitteet. Äänen muuntaminen numerovirraksi Dynaaminen alue pakattu tai vakio

Sarjan toinen osa on omistettu kuvien dynaamisen alueen optimointitoiminnoille. Siinä kerromme sinulle, miksi tällaisia ​​​​ratkaisuja tarvitaan, harkitsemme erilaisia ​​​​vaihtoehtoja niiden toteuttamiseksi sekä niiden edut ja haitat.

Syleile äärettömyyttä

Ihannetapauksessa kameran pitäisi ottaa kuva ympäröivästä maailmasta sellaisena kuin ihminen sen näkee. Kuitenkin, koska kameran ja ihmissilmän "näön" mekanismit ovat merkittävästi erilaisia, on olemassa useita rajoituksia, jotka eivät salli tämän ehdon täyttymistä.

Yksi filmikameroiden käyttäjien aiemmin ja nyt digikameroiden omistajien kohtaamista ongelmista on kyvyttömyys kaapata riittävästi kohtauksia, joissa on suuria valaistuseroja ilman erikoislaitteita ja/tai erityisiä kuvaustekniikoita. Ihmisen visuaalisen järjestelmän erityispiirteet mahdollistavat suurikontrastisten kohtausten yksityiskohtien havaitsemisen yhtä hyvin sekä kirkkaasti valaistuilla että tummilla alueilla. Valitettavasti kameran anturi ei aina pysty ottamaan kuvaa sellaisena kuin me sen näemme.

Mitä suurempi kirkkauden ero valokuvatussa kohtauksessa, sitä todennäköisemmin yksityiskohtien menetys on valoisassa ja/tai varjossa. Seurauksena on, että sinisen taivaan ja rehevien pilvien sijaan kuva osoittautuu vain valkeaksi täpläksi, ja varjoissa sijaitsevat kohteet muuttuvat epäselviksi tummiksi siluetteiksi tai sulautuvat täysin ympäröivään ympäristöön.

Klassisessa valokuvauksessa käsite valokuvallinen leveysaste(Katso lisätietoja sivupalkista). Teoreettisesti digitaalikameroiden valokuvausleveysaste määräytyy analogia-digitaalimuuntimen (ADC) bittisyvyyden mukaan. Esimerkiksi käytettäessä 8-bittistä ADC:tä, ottaen huomioon kvantisointivirheen, valokuvausleveysasteen teoreettisesti saavutettavissa oleva arvo on 7 EV, 12-bittiselle ADC:lle - 11 EV jne. Todellisissa laitteissa kuvien dynaaminen alue kuitenkin osoittautuu olevan klo sama teoreettinen maksimi erityyppisten melun ja muiden tekijöiden vaikutuksesta.

Suuri ero kirkkaustasoissa on vakava asia
ongelma kuvia otettaessa. Tässä tapauksessa kameran ominaisuudet
osoittautui riittämättömäksi suurimman osan riittävään välittämiseen
kohtauksen vaaleilla alueilla ja sen seurauksena sinisen alueen sijaan
taivas (merkitty viivalla) osoittautuu valkoiseksi "täpläksi"

Suurin kirkkausarvo, jonka valoherkkä anturi voi tallentaa, määräytyy sen solujen kylläisyystason mukaan. Minimiarvo riippuu useista tekijöistä, mukaan lukien matriisin lämpökohinan määrä, varauksensiirtokohina ja ADC-virhe.

On myös syytä huomata, että saman digitaalikameran valokuvausleveysaste voi vaihdella asetuksissa määritetyn herkkyysarvon mukaan. Suurin dynaaminen alue on saavutettavissa asettamalla ns. perusherkkyys (vastaten pienintä mahdollista numeerista arvoa). Kun tämän parametrin arvo kasvaa, dynaaminen alue pienenee lisääntyvän melutason vuoksi.

Antureilla varustettujen digitaalikameroiden nykyaikaisten mallien valokuvaus iso koko ja 14- tai 16-bittiset ADC:t, vaihtelevat välillä 9-11 EV, mikä on huomattavasti korkeampi verrattuna 35 mm:n värinegatiivisten elokuvien vastaaviin ominaisuuksiin (keskimäärin 4-5 EV). Siten jopa suhteellisen edullisilla digitaalikameroilla on riittävä valokuvausleveysaste, joka riittää välittämään tyypillisimmät amatöörikuvauskohtaukset.

On kuitenkin olemassa toisenlainen ongelma. Se liittyy olemassa olevien digitaalisten kuvien tallentamista koskevien standardien asettamiin rajoituksiin. Käyttämällä JPEG-muotoa, jossa on 8 bittiä värikanavaa kohden (josta on nyt tullut de facto standardi digitaalisten kuvien tallentamiseen tietokoneteollisuudessa ja digitaalitekniikassa), on jopa teoriassa mahdotonta tallentaa kuvaa, jonka valokuvausleveysaste on yli 8 EV.

Oletetaan, että kameran ADC mahdollistaa kuvan, jonka bittisyvyys on 12 tai 14 bittiä ja joka sisältää havaittavissa olevia yksityiskohtia sekä valoissa että varjoissa. Jos tämän kuvan valokuvausleveysaste kuitenkin ylittää 8 EV:n, osa 8-bittiseen standardimuotoon muunnetaan ilman lisätoimenpiteitä (eli yksinkertaisesti hylkäämällä "ylimääräiset" bitit). valoherkkä anturi katoaa.

Dynaaminen alue ja valokuvausleveysaste

Yksinkertaisesti sanottuna dynaaminen alue määritellään kuvan suurimman kirkkausarvon suhteeksi sen minimiarvoon. Klassisessa valokuvauksessa käytetään perinteisesti termiä valokuvaus leveysaste, joka tarkoittaa olennaisesti samaa asiaa.

Dynaamisen alueen leveys voidaan ilmaista suhdelukuna (esim. 1000:1, 2500:1 jne.), mutta useimmiten tämä tehdään logaritmisella asteikolla. Tässä tapauksessa lasketaan maksimikirkkauden ja sen vähimmäisarvon suhteen desimaalilogaritmin arvo ja numeron jälkeen iso kirjain D (englanninkielisestä tiheydestä? - tiheys) tai harvemmin? - lyhenne OD (englannin sanasta optical density? - optinen tiheys) asetetaan. Jos esimerkiksi suurimman kirkkausarvon suhde laitteen minimiarvoon on 1000:1, dynaaminen alue on yhtä suuri kuin 3,0 D:

Valokuvauksen leveysasteen mittaamiseen käytetään perinteisesti niin kutsuttuja valotusyksiköitä, lyhennettynä EV (valotusarvot; ammattilaiset kutsuvat niitä usein "pysähdyksiksi" tai "askeiksi"). Näissä yksiköissä valotuksen korjausarvo asetetaan yleensä kameran asetuksissa. Valokuvallisen leveysasteen arvon lisääminen 1 EV:llä vastaa maksimi- ja vähimmäiskirkkaustasojen välisen eron kaksinkertaistamista. Näin ollen EV-asteikko on myös logaritminen, mutta tässä tapauksessa lukuarvot lasketaan perus 2 logaritmilla.Esimerkiksi jos laite pystyy ottamaan kuvia maksimi-minimikirkkaussuhteella 256:1, niin sen valokuvausleveysaste on 8 EV:

Kompressio on järkevä kompromissi

Suurin osa tehokas tapa Voit tallentaa kuvia RAW-muodossa, jotta kameran valoherkän tunnistimen tallentamat kuvatiedot säilyvät kokonaisuudessaan. Kaikilla kameroilla ei kuitenkaan ole tällaista toimintoa, eivätkä kaikki amatöörivalokuvaajat ole valmiita osallistumaan vaivalloiseen valintatyöhön. yksittäisiä asetuksia jokaisesta otetusta valokuvasta.

Jotta kameran sisällä 8-bittiseksi JPEG-muotoon muunnettujen suurikontrastisten kuvien yksityiskohtien menettämisen todennäköisyys pienenee, markkinoille on tuotu useiden valmistajien laitteita (ei vain kompakteja, vaan myös SLR-laitteita). erikoistoiminnot, jonka avulla voit pakata tallennettujen kuvien dynaamisen alueen ilman käyttäjän toimia. Vähentämällä kokonaiskontrastia ja menettäen pienen osan alkuperäisen kuvan tiedoista, tällaiset ratkaisut mahdollistavat laitteen valoherkän tunnistimen 8-bittisessä JPEG-muodossa tallentamien valokohteiden ja varjojen yksityiskohtien säilyttämisen, vaikka dynaaminen alue alkuperäisestä kuvasta osoittautui leveäksi kuin 8 EV.

Yksi tämän alueen kehityksen edelläkävijöistä oli HP-yhtiö. Vuonna 2003 julkaistussa HP Photosmart 945 -digitaalikamerassa oli maailman ensimmäinen HP Adaptive Lightling -tekniikka, joka kompensoi automaattisesti valokuvien tummien alueiden heikon valaistuksen ja säilyttää siten varjojen yksityiskohdat ilman ylivalotuksen riskiä (mikä on erittäin tärkeää kuvattaessa korkeaa valoa). kontrastikohtaukset). HP Adaptive Lightling -algoritmi perustuu periaatteisiin, jotka englantilainen tiedemies Edwin Land on määritellyt ihmisen visuaalisen havainnon RETINEX-teoriassa.

HP Adaptive Lighting -valikko

Kuinka adaptiivinen valaistus toimii? Kun kuvasta on saatu 12-bittinen kuva, siitä erotetaan yksivärinen apukuva, joka on itse asiassa irradianssikartta. Kuvaa käsiteltäessä tätä korttia käytetään maskina, jonka avulla voit säätää melko monimutkaisen digitaalisen suodattimen vaikutuksen astetta kuvaan. Näin ollen kartan tummimpia pisteitä vastaavilla alueilla vaikutus tulevan kuvan kuvaan on minimaalinen ja päinvastoin. Tämä lähestymistapa mahdollistaa varjojen yksityiskohtien paljastamisen kirkastamalla näitä alueita valikoivasti ja vähentämällä vastaavasti tuloksena olevan kuvan kokonaiskontrastia.

On huomattava, että kun Adaptive Lighting on käytössä, otettu kuva käsitellään edellä kuvatulla tavalla ennen kuin valmis kuva kirjoitetaan tiedostoon. Kaikki kuvatut toiminnot suoritetaan automaattisesti, ja käyttäjä voi valita vain yhden kahdesta mukautuvan valaistuksen toimintatilasta (matala tai korkea valotus) kameran valikosta tai poistaa tämän toiminnon käytöstä.

Yleisesti ottaen monet nykyaikaisten digitaalikameroiden erityistoiminnot (mukaan lukien edellisessä artikkelissa käsitellyt kasvojentunnistusjärjestelmät) ovat eräänlainen sivutuote tai muunnostuote tutkimustyöstä, joka tehtiin alun perin sotilasasiakkaille. Mitä tulee kuvan dynaamisen alueen optimointitoimintoihin, yksi tunnetuimmista tällaisten ratkaisujen toimittajista on Apical. Erityisesti sen työntekijöiden luomat algoritmit ovat SAT (Shadow Adjustment Technology) -toiminnon toiminnan taustalla, ja se on toteutettu useissa Olympus-digitaalikameramalleissa. Lyhyesti SAT-toiminnon toimintaa voidaan kuvata seuraavasti: kuvan alkuperäisen kuvan perusteella luodaan tummimpia alueita vastaava maski, jonka jälkeen valotusarvo korjataan automaattisesti näille alueille.

Sony hankki myös lisenssin käyttää Apicalin kehitystä. Monissa Cyber-shot-sarjan kompaktikameramalleissa ja alfa-sarjan DSLR-kameroissa on ns. Dynamic Range Optimizer (DRO) -toiminto.

Valokuvat, jotka on otettu HP Photosmart R927 -laitteen ollessa pois päältä (ylhäällä)
ja aktivoitu Adaptive Lighting -toiminto

Kun DRO on aktivoitu, kuvan korjaus suoritetaan ensimmäisen kuvankäsittelyn aikana (eli ennen valmiin JPEG-tiedoston tallennusta). Perusversiossa DRO:ssa on kaksivaiheinen asetus (voit valita valikosta vakio- tai edistyneen toimintatilan). Kun valitset Vakio-tilan, valotustasot säädetään valokuvan kuva-analyysin perusteella, minkä jälkeen kuvaan sovelletaan sävykäyrää yleisen tasapainon tasoittamiseksi. Edistynyt tila käyttää monimutkaisempaa algoritmia, joka mahdollistaa korjauksen sekä varjoissa että valoisissa kohteissa.

Sonyn kehittäjät työskentelevät jatkuvasti parantaakseen DRO-algoritmia. Esimerkiksi a700 SLR-kamerassa, kun edistynyt DRO-tila on aktivoitu, on mahdollista valita yksi viidestä korjausvaihtoehdosta. Lisäksi yhdestä kuvasta on mahdollista tallentaa kolme versiota kerralla (eräänlainen haarukointi) eri DRO-asetuksella.

Monissa Nikonin digitaalikameramalleissa on D-Lighting-toiminto, joka myös perustuu Apical-algoritmeihin. Totta, toisin kuin yllä kuvatut ratkaisut, D-Lighting on toteutettu suodattimena aiemmin tallennettujen kuvien käsittelyyn käyttämällä sävykäyrää, jonka muoto mahdollistaa varjojen vaaleuden pitäen muut kuvan alueet ennallaan. Mutta koska tässä tapauksessa käsitellään valmiita 8-bittisiä kuvia (eikä alkuperäistä kehyskuvaa, jolla on suurempi bittisyvyys ja vastaavasti laajempi dynaaminen alue), D-Lightingin ominaisuudet ovat hyvin rajalliset. Käyttäjä voi saada saman tuloksen käsittelemällä kuvaa graafisessa editorissa.

Kun verrataan suurennettuja fragmentteja, on selvästi nähtävissä, että alkuperäisen kuvan tummat alueet (vasemmalla)
kun Adaptive Lighting -toiminto otettiin käyttöön, niistä tuli vaaleampia

On myös useita muihin periaatteisiin perustuvia ratkaisuja. Siten monet Panasonicin Lumix-perheen kamerat (erityisesti DMC-FX35, DMC-TZ4, DMC-TZ5, DMC-FS20, DMC-FZ18 jne.) toteuttavat valontunnistustoiminnon (Intelligent Exposure), joka on olennainen osa järjestelmää iA älykäs automaattinen ampumisen ohjaus. Älykäs valotustoiminto perustuu kehyskuvan automaattiseen analysointiin ja kuvan tummien alueiden korjaamiseen, jotta vältetään yksityiskohtien menetys varjoissa, sekä (tarvittaessa) suuren kontrastin kohtausten dynaamisen alueen pakkaaminen.

Joissakin tapauksissa dynaamisen alueen optimointitoiminto ei sisällä vain tiettyjä toimintoja alkuperäisen kuvan käsittelemiseksi, vaan myös kuvausasetusten korjaamista. Esimerkiksi Fujifilmin digitaalikameroiden uudet mallit (erityisesti FinePix S100FS) toteuttavat dynaamisen alueen laajentamistoiminnon (Wide Dynamic Range, WDR), jonka avulla voit kehittäjien mukaan lisätä valokuvausleveyttä yhdellä tai kaksi vaihetta (asetusterminologiassa - 200 ja 400%).

Kun WDR on käytössä, kamera ottaa valokuvia valotuksen korjauksella -1 tai -2 EV (valitusta asetuksesta riippuen). Siten kehyksen kuva osoittautuu alivalotelluksi - tämä on välttämätöntä, jotta kohokohtien yksityiskohdista säilyisi mahdollisimman paljon tietoa. Tuloksena olevaa kuvaa käsitellään sitten käyttämällä sävykäyrää, jonka avulla voit tasata kokonaistasapainoa ja säätää mustan tasoa. Kuva muunnetaan sitten 8-bittiseen muotoon ja tallennetaan JPEG-tiedostona.

Dynaamisen alueen pakkaus säilyttää enemmän yksityiskohtia
valoissa ja varjoissa, mutta väistämätön seuraus tällaisesta altistumisesta
on yleisen kontrastin väheneminen. Alimmassa kuvassa
pilvien rakenne on kuitenkin paljon paremmin kehittynyt
alhaisemman kontrastin vuoksi valokuvan tämä versio
näyttää vähemmän luonnolliselta

Samanlainen Dynamic Range Enlargement -toiminto on toteutettu useissa Pentaxin kompakteissa ja järjestelmäkameroissa (Optio S12, K200D jne.). Valmistajan mukaan Dynamic Range Enlargement -toiminnon avulla voit lisätä kuvien valokuvausleveyttä 1 EV:llä menettämättä yksityiskohtia kirkkaissa ja varjoissa.

Samanlainen toiminto nimeltä Highlight tone priority (HTP) on toteutettu useissa Canonin DSLR-malleissa (EOS 40D, EOS 450D jne.). Käyttöoppaan mukaan HTP:n aktivointi parantaa korostuksen yksityiskohtia (erityisesti 0-18 % harmaaalueella).

Johtopäätös

Tehdään yhteenveto. Sisäänrakennetun dynaamisen alueen pakkaus mahdollistaa korkean dynaamisen alueen lähdekuvan muuntamisen 8-bittiseksi ilman vaurioita JPEG-tiedosto. Ilman mahdollisuutta tallentaa kuvia RAW-muodossa, Dynamic Range Compression -tilan ansiosta valokuvaajat voivat hyödyntää täydellisemmin kameransa mahdollisuuksia kuvatessaan suurikontrastisia kohtauksia.

Tietenkin on tärkeää muistaa, että dynaamisen alueen pakkaaminen ei ole ihmelääke, vaan pikemminkin kompromissi. Yksityiskohtien säilyttäminen vaaleissa ja/tai varjoissa lisää kohinatasoa kuvan tummilla alueilla, pienentää sen kontrastia ja karkentaa jonkin verran tasaisia ​​sävysiirtymiä.

Kuten kaikki automaattiset toiminnot, dynaamisen alueen pakkausalgoritmi ei ole täysin universaali ratkaisu, jonka avulla voit parantaa ehdottomasti mitä tahansa valokuvaa. Siksi on järkevää aktivoida se vain tapauksissa, joissa se on todella tarpeen. Esimerkiksi, jotta voidaan kuvata siluetti hyvin suunnitellulla taustalla, dynaamisen alueen pakkaustoiminto on kytkettävä pois päältä - muuten upea kohtaus pilaantuu toivottomasti.

Tämän aiheen tarkastelun päätteeksi on huomattava, että dynaamisen alueen pakkaustoimintojen käyttö ei anna meille mahdollisuutta "vetää ulos" tuloksena olevasta kuvasta yksityiskohtia, joita kameran anturi ei ole tallentanut. Saavuttaaksesi tyydyttäviä tuloksia kuvattaessa suurikontrastisia kohtauksia, saatat joutua käyttämään lisätyökaluja (kuten maisemakuvauksen gradienttisuodattimia) tai erikoistekniikoita (kuten useiden ruutujen kuvaamista valotuksen haarukoinnin avulla ja yhdistämällä ne sitten yhdeksi kuvaksi Tone Mapping -tekniikalla ).

Seuraava artikkeli keskittyy pursketoimintoon.

Jatkuu

Ajatellaanpa kysymystä – miksi meidän pitää nostaa äänenvoimakkuutta? Jotta kuulet hiljaisia ​​ääniä, jotka eivät kuulu olosuhteissamme (esimerkiksi jos et voi kuunnella kovaa, jos huoneessa on ylimääräistä melua jne.). Onko mahdollista vahvistaa hiljaisia ​​ääniä jättäen samalla kovat äänet yksin? Osoittautuu, että se on mahdollista. Tätä tekniikkaa kutsutaan dynaamisen alueen pakkaamiseksi (DRC). Tätä varten sinun on vaihdettava nykyistä äänenvoimakkuutta jatkuvasti - vahvistettava hiljaisia ​​ääniä, kovia - ei. Yksinkertaisin tilavuuden muutoksen laki on lineaarinen, ts. Äänenvoimakkuus muuttuu lain mukaan output_loudness = k * input_loudness, missä k on dynaamisen alueen pakkaussuhde:

Kuva 18. Dynaamisen alueen pakkaus.

Kun k = 1, muutoksia ei tehdä (lähtövoimakkuus on yhtä suuri kuin tuloäänenvoimakkuus). Klossa k< 1 громкость будет увеличиваться, а динамический диапазон - сужаться. Посмотрим на график (k=1/2) - тихий звук, имевший громкость -50дБ станет громче на 25дБ, что значительно громче, но при этом громкость диалогов (-27дБ) повысится всего лишь на 13.5дБ, а громкость самых громких звуков (0дБ) вообще не изменится. При k >1 - äänenvoimakkuus pienenee ja dynaaminen alue kasvaa.

Katsotaanpa tilavuuskaavioita (k = 1/2: DD-pakkaus kaksinkertaistuu):

Kuva 19. Äänenvoimakkuuskäyrät.

Kuten voit nähdä alkuperäisessä, siellä oli sekä erittäin hiljaisia ​​ääniä, 30 dB dialogin tason alapuolella, että erittäin kovia - 30 dB dialogin tason yläpuolella. Että. dynaaminen alue oli 60dB. Pakkauksen jälkeen kovat äänet ovat vain 15 dB korkeampia ja hiljaiset 15 dB alhaisemmat kuin dialogi (dynaaminen alue on nyt 30 dB). Siten voimakkaat äänet muuttuivat huomattavasti hiljaisemmiksi ja hiljaiset äänet huomattavasti voimakkaammiksi. Tässä tapauksessa ei ole ylivuotoa!