Skaņas pārvēršana skaitļu plūsmā. Runas sintēze un atpazīšana. Mūsdienīgi risinājumi. Datoru audio tehnika. Audio pārveidošana skaitļu straumē Dinamiskais diapazons saspiests vai standarta

Sērijas otrā daļa ir veltīta attēlu dinamiskā diapazona optimizēšanas funkcijām. Tajā mēs pastāstīsim, kāpēc šādi risinājumi ir nepieciešami, apsvērsim dažādas to ieviešanas iespējas, kā arī to priekšrocības un trūkumus.

Aptveriet bezgalību

Ideālā gadījumā kamerai vajadzētu uzņemt apkārtējās pasaules attēlu, kādu cilvēks to uztver. Taču, ņemot vērā to, ka kameras un cilvēka acs “redzes” mehānismi būtiski atšķiras, pastāv virkne ierobežojumu, kas neļauj izpildīt šo nosacījumu.

Viena no problēmām, ar ko iepriekš saskārās filmu kameru lietotāji un ar ko saskaras arī tagad digitālo fotokameru īpašnieki, ir nespēja adekvāti uzņemt ainas ar lielām apgaismojuma atšķirībām, neizmantojot īpašas ierīces un/vai īpašas fotografēšanas metodes. Cilvēka vizuālās sistēmas īpatnības ļauj vienlīdz labi uztvert liela kontrasta ainu detaļas gan spilgti apgaismotās, gan tumšās vietās. Diemžēl kameras sensors ne vienmēr spēj uzņemt attēlu tā, kā mēs to redzam.

Jo lielāka ir fotografētā sižeta spilgtuma atšķirība, jo lielāka ir detaļu zuduma iespējamība izgaismotajās vietās un/vai ēnās. Rezultātā zilu debesu vietā ar sulīgiem mākoņiem attēls izrādās tikai bālgans plankums, un objekti, kas atrodas ēnās, pārvēršas neizteiktos tumšos siluetos vai pilnībā saplūst ar apkārtējo vidi.

Klasiskajā fotogrāfijā jēdziens fotografēšanas platums(Sīkāku informāciju skatiet sānjoslā). Teorētiski digitālo kameru fotografēšanas platumu nosaka analogā-digitālā pārveidotāja (ADC) bitu dziļums. Piemēram, izmantojot 8 bitu ADC, ņemot vērā kvantēšanas kļūdu, teorētiski sasniedzamā fotogrāfiskā platuma vērtība būs 7 EV, 12 bitu ADC - 11 EV utt. Tomēr reālās ierīcēs attēlu dinamiskais diapazons izrādās tāds plkst tāds pats teorētiskais maksimums dažāda veida trokšņu un citu faktoru ietekmes dēļ.

Liela spilgtuma līmeņu atšķirība ir nopietna
problēma fotografējot. Šajā gadījumā kameras iespējas
izrādījās nepietiekami adekvātai pārraidei visvairāk
gaišās ainas zonas, un rezultātā zilā apgabala vietā
debesis (apzīmētas ar insultu) izrādās balts "plāksteris"

Maksimālo spilgtuma vērtību, ko var ierakstīt gaismas jutīgais sensors, nosaka tā šūnu piesātinājuma līmenis. Minimālā vērtība ir atkarīga no vairākiem faktoriem, tostarp matricas termiskā trokšņa daudzuma, lādiņa pārneses trokšņa un ADC kļūdas.

Ir arī vērts atzīmēt, ka vienas un tās pašas digitālās kameras fotografēšanas platums var atšķirties atkarībā no iestatījumos iestatītās jutības vērtības. Maksimālais dinamiskais diapazons ir sasniedzams, iestatot tā saukto pamata jutību (kas atbilst minimālajai iespējamajai skaitliskajai vērtībai). Palielinoties šī parametra vērtībai, pieaugošā trokšņa līmeņa dēļ dinamiskais diapazons samazinās.

Mūsdienu ar sensoriem aprīkoto digitālo kameru modeļu fotografēšanas plašums liels izmērs un 14 vai 16 bitu ADC, svārstās no 9 līdz 11 EV, kas ir ievērojami augstāks salīdzinājumā ar līdzīgiem 35 mm krāsu negatīvu filmu raksturlielumiem (vidēji no 4 līdz 5 EV). Tādējādi pat salīdzinoši lētām digitālajām kamerām ir pietiekams fotografēšanas platums, lai adekvāti atspoguļotu tipiskākās amatieru fotografēšanas ainas.

Tomēr pastāv cita veida problēma. Tas ir saistīts ar ierobežojumiem, ko nosaka esošie digitālo attēlu ierakstīšanas standarti. Izmantojot JPEG formātu ar 8 bitiem katrā krāsu kanālā (kas tagad ir kļuvis par de facto standartu digitālo attēlu ierakstīšanai datorindustrijā un digitālajās tehnoloģijās), pat teorētiski nav iespējams saglabāt attēlu ar fotografēšanas platumu, kas lielāks par 8 EV.

Pieņemsim, ka kameras ADC ļauj iegūt attēlu ar 12 vai 14 bitu dziļumu, kas satur saskatāmas detaļas gan izgaismotajos, gan ēnās. Taču, ja šī attēla fotografēšanas platums pārsniedz 8 EV, tad pārveidošanas procesā uz standarta 8 bitu formātu bez jebkādām papildu darbībām (tas ir, vienkārši atmetot “papildus” bitus), daļa no informācijas, ko ieraksta tiks zaudēts gaismas jutīgais sensors.

Dinamiskais diapazons un fotografēšanas platuma grādiem

Vienkārši sakot, dinamiskais diapazons ir definēts kā attēla maksimālās spilgtuma vērtības attiecība pret tā minimālo vērtību. Klasiskajā fotogrāfijā tradicionāli tiek lietots termins fotogrāfiskais platums, kas būtībā nozīmē vienu un to pašu.

Dinamiskā diapazona platumu var izteikt kā attiecību (piemēram, 1000:1, 2500:1 utt.), bet visbiežāk tas tiek darīts logaritmiskā mērogā. Šajā gadījumā tiek aprēķināta maksimālā spilgtuma un tās minimālās vērtības attiecības decimāllogaritma vērtība, un pēc cipara lielais burts D (no angļu valodas blīvums? - blīvums) vai retāk? - saīsinājums OD. (no angļu valodas optical density? - optical density) tiek likts. Piemēram, ja maksimālās spilgtuma vērtības attiecība pret ierīces minimālo vērtību ir 1000:1, tad dinamiskais diapazons būs vienāds ar 3,0 D:

Fotogrāfijas platuma mērīšanai tradicionāli tiek izmantotas tā sauktās ekspozīcijas vienības, saīsināti EV (ekspozīcijas vērtības; profesionāļi tās bieži sauc par “stopiem” vai “soļiem”). Tieši šajās vienībās parasti tiek iestatīta ekspozīcijas kompensācijas vērtība kameras iestatījumos. Fotogrāfijas platuma vērtības palielināšana par 1 EV ir līdzvērtīga maksimālā un minimālā spilgtuma līmeņu starpības dubultošanai. Tādējādi arī EV skala ir logaritmiska, taču šajā gadījumā skaitlisko vērtību aprēķināšanai tiek izmantots logaritms 2. Piemēram, ja ierīce spēj uzņemt attēlus ar maksimālo un minimālo spilgtuma attiecību 256:1, tad tā fotografēšanas platums būs 8 EV:

Saspiešana ir saprātīgs kompromiss

Lielākā daļa efektīvs veids Lai saglabātu visu attēla informāciju, ko ieraksta kameras gaismas jutīgais sensors, ir iespējams ierakstīt attēlus RAW formātā. Tomēr ne visām kamerām ir šāda funkcija, un ne katrs fotogrāfs amatieris ir gatavs iesaistīties rūpīgā atlases darbā. individuāli iestatījumi par katru uzņemto fotoattēlu.

Lai samazinātu iespējamību, ka tiks zaudētas liela kontrasta attēlu detaļas, kas kamerā pārveidotas 8 bitu JPEG formātā, ir ieviestas daudzu ražotāju ierīces (ne tikai kompaktās, bet arī spoguļkameras). īpašas funkcijas, kas ļauj saspiest saglabāto attēlu dinamisko diapazonu bez lietotāja iejaukšanās. Samazinot kopējo kontrastu un zaudējot nelielu daļu no sākotnējā attēla informācijas, šādi risinājumi ļauj saglabāt detaļas gaišajos un ēnās, ko 8 bitu JPEG formātā uztver ierīces gaismjutīgais sensors, pat ja attēla dinamiskais diapazons tiek saglabāts. sākotnējais attēls izrādījās platāks par 8 EV.

Viens no pionieriem šīs jomas attīstībā bija uzņēmums HP. 2003. gadā izlaistajā HP Photosmart 945 digitālajā kamerā bija pasaulē pirmā HP Adaptive Lightling tehnoloģija, kas automātiski kompensē vāju apgaismojuma līmeni fotoattēlu tumšās zonās un tādējādi saglabā ēnas detaļas bez pārmērīgas ekspozīcijas riska (kas ir ļoti svarīgi, fotografējot ar augstu apgaismojuma līmeni). kontrasta ainas). HP Adaptive Lightling algoritms ir balstīts uz angļu zinātnieka Edvīna Landa izvirzītajiem principiem cilvēka vizuālās uztveres RETINEX teorijā.

HP adaptīvā apgaismojuma izvēlne

Kā darbojas adaptīvais apgaismojums? Pēc attēla 12 bitu attēla iegūšanas no tā tiek iegūts papildu vienkrāsains attēls, kas faktiski ir izstarojuma karte. Apstrādājot attēlu, šī karte tiek izmantota kā maska, kas ļauj regulēt diezgan sarežģīta digitālā filtra ietekmes pakāpi uz attēlu. Tādējādi apgabalos, kas atbilst kartes tumšākajiem punktiem, ietekme uz nākotnes attēla attēlu ir minimāla un otrādi. Šī pieeja ļauj atklāt ēnu detaļas, selektīvi paspilgtinot šīs zonas un attiecīgi samazinot iegūtā attēla kopējo kontrastu.

Jāņem vērā, ka, ja ir iespējots adaptīvais apgaismojums, uzņemtais attēls tiek apstrādāts iepriekš aprakstītajā veidā, pirms gatavā attēla ierakstīšanas failā. Visas aprakstītās darbības tiek veiktas automātiski, un lietotājs kameras izvēlnē var izvēlēties tikai vienu no diviem adaptīvā apgaismojuma darbības režīmiem (zemu vai augstu ekspozīciju) vai atspējot šo funkciju.

Vispārīgi runājot, daudzas specifiskas mūsdienu digitālo kameru funkcijas (ieskaitot iepriekšējā rakstā apskatītās sejas atpazīšanas sistēmas) ir sava veida blakusprodukts vai pārveides produkts pētnieciskajam darbam, kas sākotnēji tika veikts militāriem klientiem. Runājot par attēla dinamiskā diapazona optimizācijas funkcijām, viens no pazīstamākajiem šādu risinājumu nodrošinātājiem ir Apical. Jo īpaši tās darbinieku izveidotie algoritmi ir SAT (Shadow Adjustment Technology) funkcijas pamatā, kas ieviesta vairākos Olympus digitālo kameru modeļos. Īsumā SAT funkcijas darbību var raksturot šādi: pamatojoties uz attēla sākotnējo attēlu, tiek izveidota maska, kas atbilst tumšākajiem apgabaliem, un pēc tam šiem apgabaliem tiek automātiski koriģēta ekspozīcijas vērtība.

Sony arī ieguva licenci Apical izstrādes izmantošanai. Daudzos Cyber-shot sērijas kompaktkameru modeļos un alfa sērijas DSLR kamerās ir tā sauktā dinamiskā diapazona optimizētāja (DRO) funkcija.

Fotoattēli, kas uzņemti ar izslēgtu HP Photosmart R927 (augšā)
un aktivizēta adaptīvā apgaismojuma funkcija

Kad DRO ir aktivizēts, attēla korekcija tiek veikta sākotnējās attēla apstrādes laikā (tas ir, pirms gatavā JPEG faila ierakstīšanas). Pamata versijā DRO ir divpakāpju iestatījums (izvēlnē varat izvēlēties standarta vai papildu darbības režīmu). Atlasot Standarta režīmu, ekspozīcijas līmeņi tiek pielāgoti, pamatojoties uz fotoattēla attēla analīzi, un pēc tam attēlam tiek piemērota toņu līkne, lai izlīdzinātu kopējo līdzsvaru. Uzlabotajā režīmā tiek izmantots sarežģītāks algoritms, kas ļauj veikt korekcijas gan ēnās, gan izgaismotajās vietās.

Sony izstrādātāji pastāvīgi strādā, lai uzlabotu DRO algoritmu. Piemēram, a700 spoguļkamerā, kad ir aktivizēts uzlabotais DRO režīms, ir iespējams izvēlēties vienu no piecām korekcijas iespējām. Turklāt ir iespējams vienlaikus saglabāt trīs viena attēla versijas (sava ​​veida dublēšana) ar dažādiem DRO iestatījumiem.

Daudziem Nikon digitālo kameru modeļiem ir D-Lighting funkcija, kas arī ir balstīta uz Apical algoritmiem. Tiesa, atšķirībā no iepriekš aprakstītajiem risinājumiem, D-Lighting ir realizēts kā filtrs iepriekš saglabāto attēlu apstrādei, izmantojot tonālo līkni, kuras forma ļauj padarīt ēnas gaišākas, vienlaikus saglabājot citas attēla zonas nemainīgas. Bet, tā kā šajā gadījumā tiek apstrādāti gatavie 8 bitu attēli (nevis oriģinālais kadra attēls, kuram ir lielāks bitu dziļums un attiecīgi plašāks dinamiskais diapazons), D-Lighting iespējas ir ļoti ierobežotas. Lietotājs var iegūt tādu pašu rezultātu, apstrādājot attēlu grafiskā redaktorā.

Salīdzinot palielinātos fragmentus, ir skaidri redzams, ka sākotnējā attēla tumšie apgabali (pa kreisi)
kad tika ieslēgta adaptīvā apgaismojuma funkcija, tie kļuva gaišāki

Ir arī vairāki risinājumi, kuru pamatā ir citi principi. Tādējādi daudzas Panasonic Lumix saimes kameras (jo īpaši DMC-FX35, DMC-TZ4, DMC-TZ5, DMC-FS20, DMC-FZ18 utt.) īsteno gaismas atpazīšanas funkciju (Intelligent Exposure), kas ir sistēmas neatņemama sastāvdaļa iA inteliģentā automātiskā fotografēšanas kontrole. Intelligent Exposure funkcija ir balstīta uz automātisku kadra attēla analīzi un attēla tumšo apgabalu korekciju, lai izvairītos no detaļu zuduma ēnās, kā arī (ja nepieciešams) augsta kontrasta ainu dinamiskā diapazona saspiešanu.

Dažos gadījumos dinamiskā diapazona optimizācijas funkcija ietver ne tikai noteiktas darbības oriģinālā attēla attēla apstrādei, bet arī fotografēšanas iestatījumu korekciju. Piemēram, jaunie Fujifilm digitālo kameru modeļi (jo īpaši FinePix S100FS) ievieš funkciju dinamiskā diapazona paplašināšanai (Wide Dynamic Range, WDR), kas, pēc izstrādātāju domām, ļauj palielināt fotografēšanas platumu par vienu vai divi soļi (iestatījumu terminoloģijā - 200 un 400%).

Kad WDR ir aktivizēts, kamera uzņem fotoattēlus ar ekspozīcijas kompensāciju -1 vai -2 EV (atkarībā no atlasītā iestatījuma). Tādējādi kadra attēls izrādās nepietiekami eksponēts - tas ir nepieciešams, lai saglabātu maksimālu informāciju par detaļām izcēlumos. Pēc tam iegūtais attēls tiek apstrādāts, izmantojot toņu līkni, kas ļauj izlīdzināt kopējo līdzsvaru un pielāgot melnās krāsas līmeni. Pēc tam attēls tiek pārveidots 8 bitu formātā un ierakstīts kā JPEG fails.

Dinamiskā diapazona saspiešana saglabā vairāk detaļu
gaismā un ēnā, bet šādas iedarbības neizbēgamas sekas
ir kopējā kontrasta samazināšanās. Apakšējā attēlā
tomēr mākoņu tekstūra ir daudz labāk attīstīta
zemāka kontrasta dēļ šī fotoattēla versija
izskatās mazāk dabiski

Līdzīga funkcija ar nosaukumu Dynamic Range Enlargement ir ieviesta vairākās Pentax kompaktajās un SLR kamerās (Optio S12, K200D utt.). Saskaņā ar ražotāja teikto, dinamiskā diapazona palielināšanas funkcijas izmantošana ļauj palielināt attēlu fotografēšanas platumu par 1 EV, nezaudējot detaļas gaišajos un ēnās.

Līdzīga funkcija ar nosaukumu Highlight tone priority (HTP) ir ieviesta vairākos Canon DSLR modeļos (EOS 40D, EOS 450D utt.). Saskaņā ar lietotāja rokasgrāmatu, aktivizējot HTP, tiek uzlabota izceltā informācija (konkrēti, pelēkā diapazonā no 0 līdz 18%).

Secinājums

Apkoposim. Iebūvētā dinamiskā diapazona saspiešana ļauj konvertēt augsta dinamiskā diapazona avota attēlu uz 8 bitu attēlu ar minimāliem bojājumiem JPEG fails. Bez iespējas saglabāt attēlus RAW formātā, dinamiskā diapazona saspiešanas režīms ļauj fotogrāfiem pilnīgāk izmantot savas kameras potenciālu, uzņemot augsta kontrasta ainas.

Protams, ir svarīgi atcerēties, ka dinamiskā diapazona saspiešana nav brīnumlīdzeklis, bet gan kompromiss. Detaļu saglabāšana izgaismotajās vietās un/vai ēnās ir saistīta ar trokšņu līmeņa paaugstināšanos attēla tumšajos apgabalos, kontrasta samazināšanos un vienmērīgu toņu pāreju rupjību.

Tāpat kā jebkura automātiska funkcija, arī dinamiskā diapazona saspiešanas algoritms nav pilnībā universāls risinājums, kas ļauj uzlabot absolūti jebkuru fotoattēlu. Tāpēc ir jēga to aktivizēt tikai gadījumos, kad tas patiešām ir nepieciešams. Piemēram, lai uzņemtu siluetu ar labi noformētu fonu, ir jāizslēdz dinamiskā diapazona saspiešanas funkcija – pretējā gadījumā iespaidīgā aina tiks bezcerīgi sabojāta.

Noslēdzot šīs tēmas apskatu, jāatzīmē, ka dinamiskā diapazona saspiešanas funkciju izmantošana neļauj iegūtajā attēlā “izvilkt” detaļas, kuras nav tvēris kameras sensors. Lai sasniegtu apmierinošus rezultātus, uzņemot augsta kontrasta ainas, iespējams, būs jāizmanto papildu rīki (piemēram, gradienta filtri ainavu fotografēšanai) vai īpašas metodes (piemēram, vairāku kadru uzņemšana ar ekspozīcijas dublēšanu un pēc tam to sapludināšana vienā attēlā, izmantojot tehnoloģiju Tone Mapping. ).

Nākamajā rakstā galvenā uzmanība tiks pievērsta sērijveida funkcijai.

Turpinājums sekos

Padomāsim par jautājumu – kāpēc mums jāpagriež skaļāk? Lai dzirdētu klusas skaņas, kas mūsu apstākļos nav dzirdamas (piemēram, ja nevarat klausīties skaļi, ja telpā ir svešs troksnis utt.). Vai ir iespējams pastiprināt klusas skaņas, atstājot skaļas mierā? Izrādās, ka tas ir iespējams. Šo paņēmienu sauc par dinamiskā diapazona saspiešanu (DRC). Lai to izdarītu, jums pastāvīgi jāmaina pašreizējais skaļums - jāpastiprina klusas skaņas, skaļas - ne. Vienkāršākais tilpuma izmaiņu likums ir lineārs, t.i. Skaļums mainās atbilstoši likumam output_loudness = k * input_loudness, kur k ir dinamiskā diapazona kompresijas pakāpe:

18. attēls. Dinamiskā diapazona saspiešana.

Ja k = 1, izmaiņas netiek veiktas (izvades apjoms ir vienāds ar ievades skaļumu). Pie k< 1 громкость будет увеличиваться, а динамический диапазон - сужаться. Посмотрим на график (k=1/2) - тихий звук, имевший громкость -50дБ станет громче на 25дБ, что значительно громче, но при этом громкость диалогов (-27дБ) повысится всего лишь на 13.5дБ, а громкость самых громких звуков (0дБ) вообще не изменится. При k >1 - samazināsies skaļums un palielināsies dinamiskais diapazons.

Apskatīsim skaļuma grafikus (k = 1/2: DD saspiešana ir dubultota):

19. attēls. Skaļuma grafiki.

Kā redzat oriģinālā, bija gan ļoti klusas skaņas, 30 dB zem dialoga līmeņa, gan ļoti skaļas - 30 dB virs dialoga līmeņa. Tas. dinamiskais diapazons bija 60 dB. Pēc saspiešanas skaļas skaņas ir tikai par 15 dB augstākas, bet klusās skaņas ir par 15 dB zemākas nekā dialogs (dinamiskais diapazons tagad ir 30 dB). Tādējādi skaļas skaņas kļuva ievērojami klusākas, un klusās skaņas kļuva ievērojami skaļākas. Šajā gadījumā nav pārplūdes!