Konverter lyd til en strøm av tall. Talesyntese og gjenkjenning. Moderne løsninger. Datamaskinlydutstyr. Konvertering av lyd til en strøm av tall Dynamisk rekkevidde komprimert eller standard

Den andre delen av serien er viet funksjoner for å optimalisere det dynamiske spekteret av bilder. I den vil vi fortelle deg hvorfor slike løsninger er nødvendige, vurdere ulike alternativer for implementering, samt deres fordeler og ulemper.

Omfavn det enorme

Ideelt sett bør et kamera fange et bilde av omverdenen slik en person oppfatter den. På grunn av det faktum at mekanismene for "syn" til et kamera og det menneskelige øyet er betydelig forskjellige, er det en rekke begrensninger som ikke tillater at denne betingelsen oppfylles.

Et av problemene som tidligere ble møtt av brukere av filmkameraer og nå står overfor eiere av digitale kameraer, er manglende evne til å fange scener med store forskjeller i belysning på tilstrekkelig måte uten bruk av spesielle enheter og/eller spesielle opptaksteknikker. Det særegne ved det menneskelige visuelle systemet gjør det mulig å oppfatte detaljer i høykontrastscener like godt i både sterkt opplyste og mørke områder. Dessverre klarer ikke kamerasensoren alltid å ta et bilde slik vi ser det.

Jo større forskjell i lysstyrke i den fotograferte scenen, desto større er sannsynligheten for tap av detaljer i høylys og/eller skygger. Som et resultat, i stedet for en blå himmel med frodige skyer, viser bildet seg å være bare en hvitaktig flekk, og objekter som ligger i skyggene blir til utydelige mørke silhuetter eller smelter fullstendig sammen med det omkringliggende miljøet.

I klassisk fotografi er konseptet med fotografisk breddegrad(Se sidefeltet for detaljer). Teoretisk sett er den fotografiske breddegraden til digitale kameraer bestemt av bitdybden til analog-til-digital-omformeren (ADC). For eksempel, når du bruker en 8-bits ADC, med tanke på kvantiseringsfeilen, vil den teoretisk oppnåelige verdien av fotografisk breddegrad være 7 EV, for en 12-bits ADC - 11 EV, etc. I virkelige enheter viser det seg imidlertid at det dynamiske spekteret av bilder er det samme teoretiske maksimum på grunn av påvirkning av ulike typer støy og andre faktorer.

En stor forskjell i lysstyrkenivåer representerer en alvorlig
problem når du tar bilder. I dette tilfellet, egenskapene til kameraet
viste seg å være utilstrekkelig for tilstrekkelig overføring av de fleste
lyse områder av scenen, og som et resultat, i stedet for et område med blått
himmel (merket med et slag) det viser seg å være en hvit "lapp"

Den maksimale lysstyrkeverdien som en lysfølsom sensor kan registrere, bestemmes av metningsnivået til cellene. Minimumsverdien avhenger av flere faktorer, inkludert mengden termisk støy i matrisen, ladeoverføringsstøy og ADC-feil.

Det er også verdt å merke seg at den fotografiske breddegraden til det samme digitalkameraet kan variere avhengig av følsomhetsverdien som er angitt i innstillingene. Det maksimale dynamiske området er oppnåelig ved å stille inn den såkalte grunnfølsomheten (tilsvarer minimum mulig tallverdi). Når verdien av denne parameteren øker, reduseres det dynamiske området på grunn av det økende støynivået.

Den fotografiske bredden av moderne modeller av digitale kameraer utstyrt med sensorer stor størrelse og 14- eller 16-bits ADC-er, varierer fra 9 til 11 EV, som er betydelig høyere sammenlignet med lignende egenskaper til 35 mm fargenegativfilmer (gjennomsnittlig 4 til 5 EV). Dermed har selv relativt rimelige digitalkameraer en fotografisk breddegrad som er tilstrekkelig til å formidle de fleste typiske amatørfotograferingsscener.

Det er imidlertid et problem av en annen type. Det er assosiert med begrensningene som pålegges av eksisterende standarder for opptak av digitale bilder. Ved å bruke JPEG-formatet med 8 bits per fargekanal (som nå har blitt de facto-standarden for opptak av digitale bilder i dataindustrien og digital teknologi), er det til og med teoretisk umulig å lagre et bilde med en fotografisk breddegrad større enn 8 EV.

La oss anta at kameraets ADC lar deg få et bilde med en bitdybde på 12 eller 14 biter, som inneholder merkbare detaljer i både høylys og skygger. Imidlertid, hvis den fotografiske breddegraden til dette bildet overstiger 8 EV, vil en del av informasjonen som registreres av lysfølsom sensor vil gå tapt.

Dynamisk rekkevidde og fotografisk breddegrad

For å si det enkelt, er dynamisk område definert som forholdet mellom den maksimale lysstyrkeverdien til et bilde og minimumsverdien. I klassisk fotografi brukes tradisjonelt begrepet fotografisk breddegrad, som i hovedsak betyr det samme.

Dynamisk områdebredde kan uttrykkes som et forhold (for eksempel 1000:1, 2500:1 osv.), men oftest gjøres dette på en logaritmisk skala. I dette tilfellet beregnes verdien av desimallogaritmen av forholdet mellom maksimal lysstyrke og minimumsverdien, og etter tallet blir hovedbokstaven D (fra engelsk tetthet? - tetthet), eller sjeldnere? - forkortelsen OD beregnet. (fra engelsk optical density? - optical density) er plassert. For eksempel, hvis forholdet mellom maksimal lysstyrkeverdi og minimumsverdi for en enhet er 1000:1, vil det dynamiske området være lik 3,0 D:

For å måle fotografisk breddegrad brukes tradisjonelt såkalte eksponeringsenheter, forkortet EV (eksponeringsverdier; fagfolk kaller dem ofte «stopp» eller «steg»). Det er i disse enhetene vanligvis stilles inn i kamerainnstillingene. Å øke den fotografiske breddegradsverdien med 1 EV tilsvarer en dobling av forskjellen mellom maksimale og laveste lysstyrkenivåer. Dermed er EV-skalaen også logaritmisk, men i dette tilfellet brukes base 2-logaritmen til å beregne de numeriske verdiene. For eksempel, hvis en enhet er i stand til å ta bilder med et maksimum til minimum lysstyrkeforhold på 256:1, så fotografisk breddegrad vil være 8 EV:

Kompresjon er et rimelig kompromiss

Mest effektiv måte For å bevare hele omfanget av bildeinformasjon tatt opp av kameraets lysfølsomme sensor, er det mulig å ta opp bilder i RAW-format. Imidlertid har ikke alle kameraer en slik funksjon, og ikke alle amatørfotografer er klare til å delta i det møysommelige arbeidet med å velge individuelle innstillinger for hvert bilde tatt.

For å redusere sannsynligheten for å miste detaljer i bilder med høy kontrast konvertert inne i kameraet til 8-bits JPEG, har enheter fra mange produsenter (ikke bare kompakte, men også speilreflekskameraer) blitt introdusert spesielle funksjoner, slik at du kan komprimere det dynamiske området til lagrede bilder uten brukerintervensjon. Ved å redusere den generelle kontrasten og miste en liten del av informasjonen i originalbildet, gjør slike løsninger det mulig å bevare detaljer i høylys og skygger fanget av enhetens lysfølsomme sensor i 8-bits JPEG-format, selv om det dynamiske området til originalbildet viste seg å være bredere enn 8 EV.

En av pionerene i utviklingen av dette området var HP-selskapet. HP Photosmart 945 digitalkamera ble utgitt i 2003 og inneholdt verdens første HP Adaptive Lightling-teknologi, som automatisk kompenserer for lave lysnivåer i mørke områder av bilder og dermed bevarer skyggedetaljer uten risiko for overeksponering (noe som er veldig viktig når du fotograferer høye lyskilder). kontrastscener). HP Adaptive Lightling-algoritmen er basert på prinsippene satt av den engelske forskeren Edwin Land i RETINEX-teorien om menneskelig visuell persepsjon.

HP Adaptive Lighting-meny

Hvordan fungerer adaptiv belysning? Etter å ha fått et 12-bits bilde av bildet, trekkes et ekstra monokromt bilde ut fra det, som faktisk er et bestrålingskart. Når du behandler et bilde, brukes dette kortet som en maske, slik at du kan justere graden av påvirkning av et ganske komplekst digitalt filter på bildet. Således, i områder som tilsvarer de mørkeste punktene på kartet, er innvirkningen på bildet av det fremtidige bildet minimal, og omvendt. Denne tilnærmingen gjør det mulig å avsløre skyggedetaljer ved å selektivt gjøre disse områdene lysere og følgelig redusere den totale kontrasten til det resulterende bildet.

Det skal bemerkes at når Adaptive Lighting er aktivert, behandles det fangede bildet på den måten som er beskrevet ovenfor før det ferdige bildet skrives til en fil. Alle de beskrevne operasjonene utføres automatisk, og brukeren kan bare velge én av to Adaptive Lighting-driftsmodi (lav eller høy eksponering) i kameramenyen eller deaktivere denne funksjonen.

Generelt sett er mange spesifikke funksjoner til moderne digitale kameraer (inkludert ansiktsgjenkjenningssystemene omtalt i forrige artikkel) et slags biprodukt eller konverteringsprodukt av forskningsarbeid som opprinnelig ble utført for militærkunder. Når det gjelder bildeoptimaliseringsfunksjoner for dynamisk rekkevidde, er en av de mest kjente leverandørene av slike løsninger Apical. Algoritmene som er laget av de ansatte, ligger spesielt til grunn for driften av SAT-funksjonen (Shadow Adjustment Technology), implementert i en rekke Olympus digitalkameramodeller. Kort fortalt kan virkemåten til SAT-funksjonen beskrives som følger: basert på det originale bildet av bildet opprettes en maske som tilsvarer de mørkeste områdene, og deretter blir eksponeringsverdien automatisk korrigert for disse områdene.

Sony kjøpte også en lisens til å bruke Apicals utviklinger. Mange modeller av kompaktkameraer i Cyber-shot-serien og i DSLR-kameraer i alfa-serien implementerer den såkalte Dynamic Range Optimizer (DRO) funksjonen.

Bilder tatt med HP Photosmart R927 slått av (øverst)
og aktivert Adaptive Lighting-funksjon

Når DRO er aktivert, utføres bildekorreksjon under den første bildebehandlingen (det vil si før opptak av den ferdige JPEG-filen). I grunnversjonen har DRO en to-trinns innstilling (du kan velge en standard eller avansert driftsmodus i menyen). Når du velger Standard-modus, justeres eksponeringsnivåene basert på bildeanalyse av bildet, og deretter påføres en tonekurve på bildet for å jevne ut den totale balansen. Den avanserte modusen bruker en mer kompleks algoritme som tillater korreksjon i både skygger og høylys.

Sony-utviklere jobber kontinuerlig med å forbedre DRO-algoritmen. For eksempel, i speilreflekskameraet a700, når den avanserte DRO-modusen er aktivert, er det mulig å velge ett av fem korrigeringsalternativer. I tillegg er det mulig å lagre tre versjoner av ett bilde samtidig (en slags bracketing) med forskjellige DRO-innstillinger.

Mange Nikon digitalkameramodeller har en D-Lighting-funksjon, som også er basert på Apikale algoritmer. Riktignok, i motsetning til løsningene beskrevet ovenfor, er D-Lighting implementert som et filter for å behandle tidligere lagrede bilder ved hjelp av en tonekurve, hvis form lar deg gjøre skygger lysere, mens andre områder av bildet holdes uendret. Men siden i dette tilfellet blir ferdiglagde 8-bits bilder behandlet (og ikke det originale rammebildet, som har en høyere bitdybde og følgelig et bredere dynamisk område), er mulighetene til D-Lighting svært begrenset. Brukeren kan få samme resultat ved å behandle bildet i en grafisk editor.

Når man sammenligner forstørrede fragmenter, er det tydelig synlig at de mørke områdene på originalbildet (til venstre)
når Adaptive Lighting-funksjonen ble slått på, ble de lettere

Det finnes også en rekke løsninger basert på andre prinsipper. Derfor implementerer mange kameraer i Lumix-familien fra Panasonic (spesielt DMC-FX35, DMC-TZ4, DMC-TZ5, DMC-FS20, DMC-FZ18, etc.) lysgjenkjenningsfunksjonen (Intelligent Exposure), som er en integrert del av systemet iA intelligent automatisk skytekontroll. Intelligent Exposure-funksjonen er basert på automatisk analyse av rammebildet og korrigering av mørke områder i bildet for å unngå tap av detaljer i skyggene, samt (om nødvendig) komprimering av det dynamiske området til scener med høy kontrast.

I noen tilfeller involverer optimeringsfunksjonen for dynamisk område ikke bare visse operasjoner for behandling av det originale bildebildet, men også korrigering av opptaksinnstillinger. For eksempel implementerer nye modeller av Fujifilm digitalkameraer (spesielt FinePix S100FS) en funksjon for å utvide det dynamiske området (Wide Dynamic Range, WDR), som, ifølge utviklerne, lar deg øke den fotografiske breddegraden med en eller to trinn (i innstillingsterminologi - 200 og 400%).

Når WDR er aktivert, tar kameraet bilder med eksponeringskompensasjon på -1 eller -2 EV (avhengig av valgt innstilling). Dermed viser bildet av rammen seg å være undereksponert - dette er nødvendig for å bevare maksimal informasjon om detaljene i høydepunktene. Det resulterende bildet behandles deretter ved hjelp av en tonekurve, som lar deg utjevne den generelle balansen og justere svartnivået. Bildet blir deretter konvertert til 8-bits format og tatt opp som en JPEG-fil.

Dynamisk områdekomprimering bevarer flere detaljer
i lys og skygger, men en uunngåelig konsekvens av slik eksponering
er en reduksjon i total kontrast. På det nederste bildet
teksturen til skyene er imidlertid mye bedre utviklet
på grunn av den lavere kontrasten, denne versjonen av bildet
ser mindre naturlig ut

En lignende funksjon kalt Dynamic Range Enlargement er implementert i en rekke kompakt- og speilreflekskameraer fra Pentax (Optio S12, K200D, etc.). Ifølge produsenten lar bruken av funksjonen Dynamic Range Enlargement deg øke den fotografiske breddegraden til bilder med 1 EV uten å miste detaljer i høylys og skygger.

En lignende funksjon kalt Highlight tone priority (HTP) er implementert i en rekke Canon DSLR-modeller (EOS 40D, EOS 450D, etc.). I henhold til brukermanualen forbedrer aktivering av HTP fremhevingsdetaljer (spesifikt i 0 til 18 % grått område).

Konklusjon

La oss oppsummere. Innebygd komprimering av dynamisk område lar deg konvertere et kildebilde med høyt dynamisk område til 8-bit med minimal skade JPEG-fil. Uten muligheten til å lagre bilder i RAW-format, lar Dynamic Range Compression-modus fotografer utnytte kameraets potensiale fullt ut når de fotograferer scener med høy kontrast.

Selvfølgelig er det viktig å huske at komprimering av dynamisk rekkevidde ikke er en mirakelkur, men snarere et kompromiss. Bevaring av detaljer i høylys og/eller skygger kommer på bekostning av å øke støynivået i de mørke områdene av bildet, redusere kontrasten og noe grovere jevne toneoverganger.

Som en hvilken som helst automatisk funksjon, er ikke komprimeringsalgoritmen for dynamisk område en fullstendig universell løsning som lar deg forbedre absolutt alle bilder. Derfor er det fornuftig å aktivere det bare i tilfeller der det virkelig er nødvendig. For eksempel, for å fotografere en silhuett med en godt designet bakgrunn, må komprimeringsfunksjonen for dynamisk område være slått av - ellers vil den spektakulære scenen bli håpløst ødelagt.

For å avslutte vår vurdering av dette emnet, bør det bemerkes at bruken av komprimeringsfunksjoner for dynamisk område ikke tillater oss å "trekke ut" detaljer i det resulterende bildet som ikke ble tatt av kamerasensoren. For å oppnå tilfredsstillende resultater når du fotograferer scener med høy kontrast, må du bruke tilleggsverktøy (for eksempel gradientfiltre for fotografering av landskap) eller spesielle teknikker (som å ta flere bilder med eksponeringsbracketing og deretter kombinere dem til ett bilde ved hjelp av Tone Mapping-teknologi ).

Den neste artikkelen vil fokusere på burst-funksjonen.

Fortsettelse følger

La oss tenke på spørsmålet - hvorfor må vi skru opp volumet? For å høre rolige lyder som ikke er hørbare under våre forhold (for eksempel hvis du ikke kan lytte høyt, hvis det er uvedkommende støy i rommet osv.). Er det mulig å forsterke stille lyder mens du lar de høye være i fred? Det viser seg at det er mulig. Denne teknikken kalles dynamisk områdekomprimering (DRC). For å gjøre dette, må du endre gjeldende volumet konstant - forsterke stille lyder, høye - ikke. Den enkleste loven for volumendring er lineær, dvs. Volumet endres i henhold til loven output_loudness = k * input_loudness, der k er komprimeringsforholdet for dynamisk område:

Figur 18. Dynamisk rekkeviddekomprimering.

Når k = 1, gjøres ingen endringer (utgangsvolumet er lik inngangsvolumet). På k< 1 громкость будет увеличиваться, а динамический диапазон - сужаться. Посмотрим на график (k=1/2) - тихий звук, имевший громкость -50дБ станет громче на 25дБ, что значительно громче, но при этом громкость диалогов (-27дБ) повысится всего лишь на 13.5дБ, а громкость самых громких звуков (0дБ) вообще не изменится. При k >1 - volumet reduseres og det dynamiske området øker.

La oss se på volumgrafene (k = 1/2: DD-komprimering er doblet):

Figur 19. Loudness-grafer.

Som du kan se i originalen var det både veldig stille lyder, 30 dB under dialognivået, og veldig høye - 30 dB over dialognivået. At. det dynamiske området var 60dB. Etter komprimering er høye lyder bare 15dB høyere, og stille lyder er 15dB lavere enn dialog (dynamisk område er nå 30dB). Dermed ble høye lyder betydelig roligere, og stille lyder ble betydelig høyere. I dette tilfellet er det ingen overløp!

La oss nå se på histogrammene:

Figur 20. Komprimeringseksempel.

Som du tydelig kan se, med forsterkning opp til +30dB, er formen på histogrammet godt bevart, noe som betyr at høye lyder forblir godt uttrykt (de går ikke til det maksimale og blir ikke avskåret, slik som skjer med enkel forsterkning) . Dette produserer rolige lyder. Histogrammet viser dette dårlig, men forskjellen er veldig merkbar på øret. Ulempen med denne metoden er de samme volumhoppene. Mekanismen for deres forekomst er imidlertid forskjellig fra lydstyrkehopp som oppstår under skjæring, og karakteren deres er forskjellig - de vises hovedsakelig når stille lyder er veldig sterkt forsterket (og ikke når høye lyder kuttes, som med vanlig forsterkning). Et for høyt kompresjonsnivå fører til at lydbildet flater ut - alle lyder har en tendens til å være like høye og uuttrykkelige.

Overdreven forsterkning av stille lyder kan føre til at opptaksstøy blir hørbar. Derfor bruker filteret en litt modifisert algoritme slik at støynivået stiger mindre:

Figur 21. Økende volum uten å øke støyen.