Konvertera ljud till en ström av siffror. Talsyntes och igenkänning. Moderna lösningar. Datorljudutrustning. Konvertera ljud till en ström av siffror Dynamiskt intervall komprimerat eller standard

Den andra delen av serien ägnas åt funktioner för att optimera det dynamiska omfånget av bilder. I det kommer vi att berätta varför sådana lösningar behövs, överväga olika alternativ för deras implementering, såväl som deras fördelar och nackdelar.

Omfamna det oerhörda

Helst ska en kamera fånga en bild av den omgivande världen som en person uppfattar den. Men på grund av det faktum att mekanismerna för "syn" för en kamera och det mänskliga ögat är väsentligt olika, finns det ett antal begränsningar som inte tillåter att detta villkor uppfylls.

Ett av de problem som tidigare ställdes inför användare av filmkameror och som nu står inför av ägare av digitalkameror är oförmågan att på ett adekvat sätt fånga scener med stora skillnader i belysning utan användning av speciella enheter och/eller speciella fotograferingstekniker. Det mänskliga visuella systemets egenheter gör det möjligt att uppfatta detaljer i scener med hög kontrast lika bra i både starkt upplysta och mörka områden. Tyvärr kan kamerasensorn inte alltid fånga en bild som vi ser den.

Ju större skillnaden är i ljusstyrka i den fotograferade scenen, desto större är sannolikheten för förlust av detaljer i högdagrar och/eller skuggor. Som ett resultat, istället för en blå himmel med frodiga moln, visar sig bilden bara vara en vitaktig fläck, och föremål som ligger i skuggorna förvandlas till otydliga mörka silhuetter eller smälter helt samman med den omgivande miljön.

Inom klassisk fotografi är begreppet fotografisk breddgrad(Se sidofältet för detaljer). Teoretiskt bestäms den fotografiska latituden för digitalkameror av bitdjupet för analog-till-digital-omvandlaren (ADC). Till exempel, när du använder en 8-bitars ADC, med hänsyn till kvantiseringsfelet, kommer det teoretiskt uppnåbara värdet för fotografisk latitud att vara 7 EV, för en 12-bitars ADC - 11 EV, etc. Men i verkliga enheter visar sig det dynamiska omfånget av bilder vara samma teoretiska maximum på grund av påverkan av olika typer av buller och andra faktorer.

En stor skillnad i ljusstyrka representerar en allvarlig
problem när du fotograferar. I det här fallet kamerans möjligheter
visade sig vara otillräcklig för adekvat överföring av de flesta
ljusa områden av scenen, och som ett resultat, istället för ett område med blått
himmel (markerad med ett streck) det visar sig vara en vit "lapp"

Det maximala ljusstyrkavärdet som en ljuskänslig sensor kan registrera bestäms av mättnadsnivån för dess celler. Minimivärdet beror på flera faktorer, inklusive mängden termiskt brus i matrisen, laddningsöverföringsbrus och ADC-fel.

Det är också värt att notera att den fotografiska latituden för samma digitalkamera kan variera beroende på det känslighetsvärde som ställts in i inställningarna. Det maximala dynamiska området kan uppnås genom att ställa in den så kallade grundkänsligheten (motsvarande minsta möjliga numeriska värde). När värdet på denna parameter ökar, minskar det dynamiska området på grund av den ökande brusnivån.

Den fotografiska bredden av moderna modeller av digitalkameror utrustade med sensorer stor storlek och 14- eller 16-bitars ADC, varierar från 9 till 11 EV, vilket är betydligt högre jämfört med liknande egenskaper hos 35 mm färgnegativfilmer (genomsnitt 4 till 5 EV). Sålunda har även relativt billiga digitalkameror en fotografisk breddgrad som är tillräcklig för att adekvat förmedla de flesta typiska amatörfotograferingsscener.

Det finns dock ett problem av ett annat slag. Det är förknippat med de begränsningar som finns i befintliga standarder för inspelning av digitala bilder. Med JPEG-formatet med 8 bitar per färgkanal (som nu har blivit de facto-standarden för inspelning av digitala bilder inom datorindustrin och digital teknik) är det till och med teoretiskt omöjligt att spara en bild med en fotografisk latitud större än 8 EV.

Låt oss anta att kamerans ADC låter dig få en bild med ett bitdjup på 12 eller 14 bitar, innehållande urskiljbara detaljer i både högdagrar och skuggor. Men om den fotografiska latituden för denna bild överstiger 8 EV, kommer en del av informationen som registreras av ljuskänslig sensor kommer att gå förlorad.

Dynamiskt omfång och fotografisk breddgrad

För att uttrycka det enkelt definieras dynamiskt omfång som förhållandet mellan en bilds maximala ljusstyrka och dess lägsta värde. Inom klassisk fotografi används traditionellt termen fotografisk breddgrad, vilket i huvudsak betyder samma sak.

Dynamisk områdesbredd kan uttryckas som ett förhållande (till exempel 1000:1, 2500:1, etc.), men oftast görs detta på en logaritmisk skala. I det här fallet beräknas värdet på decimallogaritmen för förhållandet mellan maximal ljusstyrka och dess lägsta värde, och efter siffran den stora bokstaven D (från den engelska densiteten? - densitet), eller mindre ofta? - förkortningen OD (från engelskan optical density? - optical density) placeras. Till exempel, om förhållandet mellan det maximala ljusstyrkan och minimivärdet för en enhet är 1000:1, kommer det dynamiska området att vara lika med 3,0 D:

För att mäta fotografisk latitud används traditionellt så kallade exponeringsenheter, förkortade EV (exponeringsvärden; proffs kallar dem ofta för "stopp" eller "steg"). Det är i dessa enheter som exponeringskompensationsvärdet vanligtvis ställs in i kamerainställningarna. Att öka det fotografiska latitudvärdet med 1 EV motsvarar en fördubbling av skillnaden mellan högsta och lägsta ljusstyrka. Således är EV-skalan också logaritmisk, men i det här fallet används logaritmen bas 2 för att beräkna de numeriska värdena. Till exempel, om en enhet kan ta bilder med ett maximalt till minsta ljusstyrkeförhållande på 256:1, då fotografisk latitud kommer att vara 8 EV:

Kompression är en rimlig kompromiss

Mest effektivt sätt För att bevara hela omfattningen av bildinformation som spelats in av kamerans ljuskänsliga sensor är det möjligt att spela in bilder i RAW-format. Men inte alla kameror har en sådan funktion, och inte alla amatörfotografer är redo att engagera sig i det mödosamma arbetet med att välja individuella inställningar för varje foto som tas.

För att minska sannolikheten för att förlora detaljer i bilder med hög kontrast som konverterats inuti kameran till 8-bitars JPEG, har enheter från många tillverkare (inte bara kompakta utan även SLR) introducerats speciella funktioner, så att du kan komprimera det dynamiska omfånget för sparade bilder utan att användaren behöver ingripa. Genom att minska den totala kontrasten och förlora en liten del av informationen i originalbilden, gör sådana lösningar det möjligt att bevara detaljer i högdagrar och skuggor som fångas av enhetens ljuskänsliga sensor i 8-bitars JPEG-format, även om det dynamiska omfånget för originalbilden visade sig vara bredare än 8 EV.

En av pionjärerna i utvecklingen av detta område var HP-företaget. Digitalkameran HP Photosmart 945, som släpptes 2003, innehöll världens första HP Adaptive Lightling-teknik, som automatiskt kompenserar för låga ljusnivåer i mörka områden av foton och på så sätt bevarar skuggdetaljer utan risk för överexponering (vilket är mycket viktigt när du fotograferar hög- kontrastscener). HP Adaptive Lightling-algoritmen är baserad på de principer som den engelske vetenskapsmannen Edwin Land har lagt fram i RETINEX-teorin om mänsklig visuell perception.

HP Adaptive Lighting-meny

Hur fungerar Adaptive Lighting? Efter att ha erhållit en 12-bitars bild av bilden extraheras en extra monokrom bild från den, som egentligen är en irradianskarta. När du bearbetar en bild används detta kort som en mask, så att du kan justera graden av påverkan av ett ganska komplext digitalt filter på bilden. Således, i områden som motsvarar de mörkaste punkterna på kartan, är påverkan på bilden av den framtida bilden minimal, och vice versa. Detta tillvägagångssätt tillåter att skuggdetaljer avslöjas genom att selektivt göra dessa områden ljusare och följaktligen minska den totala kontrasten i den resulterande bilden.

Det bör noteras att när Adaptive Lighting är aktiverat, bearbetas den tagna bilden på det sätt som beskrivs ovan innan den färdiga bilden skrivs till en fil. Alla de beskrivna operationerna utförs automatiskt, och användaren kan bara välja ett av två Adaptive Lighting-driftlägen (låg eller hög exponering) i kameramenyn eller inaktivera denna funktion.

Generellt sett är många specifika funktioner hos moderna digitalkameror (inklusive ansiktsigenkänningssystem som diskuterades i föregående artikel) en slags biprodukt eller omvandlingsprodukt av forskningsarbete som ursprungligen utfördes för militära kunder. När det gäller optimeringsfunktioner för bilddynamikområde är Apical en av de mest välkända leverantörerna av sådana lösningar. Algoritmerna som skapats av dess anställda, i synnerhet, ligger till grund för driften av SAT-funktionen (Shadow Adjustment Technology), implementerad i ett antal Olympus digitalkameramodeller. Kortfattat kan driften av SAT-funktionen beskrivas enligt följande: baserat på originalbilden av bilden skapas en mask som motsvarar de mörkaste områdena, och sedan korrigeras exponeringsvärdet automatiskt för dessa områden.

Sony förvärvade också en licens att använda Apicals utvecklingar. Många modeller av kompaktkameror i Cyber-shot-serien och i DSLR-kameror i alpha-serien implementerar den så kallade Dynamic Range Optimizer (DRO)-funktionen.

Foton tagna med HP Photosmart R927 avstängd (överst)
och aktiverad Adaptive Lighting-funktion

När DRO är aktiverat utförs bildkorrigering under den första bildbehandlingen (det vill säga innan den färdiga JPEG-filen spelas in). I grundversionen har DRO en tvåstegsinställning (du kan välja standard eller avancerat driftläge i menyn). När du väljer Standardläge, justeras exponeringsnivåerna baserat på bildanalys av fotot, och sedan appliceras en tonkurva på bilden för att jämna ut den totala balansen. Det avancerade läget använder en mer komplex algoritm som tillåter korrigering i både skuggor och högdagrar.

Sony-utvecklare arbetar ständigt med att förbättra DRO-algoritmen. Till exempel, i a700 SLR-kamera, när det avancerade DRO-läget är aktiverat, är det möjligt att välja ett av fem korrigeringsalternativ. Dessutom är det möjligt att spara tre versioner av en bild samtidigt (en sorts bracketing) med olika DRO-inställningar.

Många Nikon digitalkameramodeller har en D-Lighting-funktion, som också är baserad på Apikala algoritmer. Det är sant, i motsats till lösningarna som beskrivs ovan, implementeras D-Lighting som ett filter för att bearbeta tidigare sparade bilder med en tonal kurva, vars form gör att du kan göra skuggor ljusare, samtidigt som andra delar av bilden hålls oförändrade. Men eftersom i det här fallet färdiga 8-bitarsbilder bearbetas (och inte den ursprungliga rambilden, som har ett högre bitdjup och följaktligen ett bredare dynamiskt omfång), är D-Lightings möjligheter mycket begränsade. Användaren kan få samma resultat genom att bearbeta bilden i en grafisk editor.

När man jämför förstorade fragment är det tydligt att de mörka områdena i originalbilden (vänster)
när funktionen Adaptive Lighting var påslagen blev de ljusare

Det finns också ett antal lösningar som bygger på andra principer. Således implementerar många kameror i Lumix-familjen från Panasonic (i synnerhet DMC-FX35, DMC-TZ4, DMC-TZ5, DMC-FS20, DMC-FZ18, etc.) ljusigenkänningsfunktionen (Intelligent Exposure), som är en integrerad del av systemet iA intelligent automatisk skjutkontroll. Funktionen Intelligent Exposure är baserad på automatisk analys av rambilden och korrigering av mörka områden i bilden för att undvika förlust av detaljer i skuggorna, samt (om nödvändigt) komprimering av det dynamiska omfånget för scener med hög kontrast.

I vissa fall innefattar optimeringsfunktionen för dynamiskt omfång inte bara vissa operationer för bearbetning av originalbilden, utan även korrigering av fotograferingsinställningar. Till exempel implementerar nya modeller av Fujifilm digitalkameror (särskilt FinePix S100FS) en funktion för att utöka det dynamiska omfånget (Wide Dynamic Range, WDR), vilket, enligt utvecklarna, låter dig öka den fotografiska latituden med en eller två steg (i inställningsterminologi - 200 och 400%).

När WDR är aktiverat tar kameran bilder med exponeringskompensation på -1 eller -2 EV (beroende på vald inställning). Således visar sig bilden av ramen vara underexponerad - detta är nödvändigt för att bevara maximal information om detaljerna i höjdpunkterna. Den resulterande bilden bearbetas sedan med en tonkurva, som gör att du kan utjämna den övergripande balansen och justera svartnivån. Bilden konverteras sedan till 8-bitars format och spelas in som en JPEG-fil.

Dynamisk intervallkompression bevarar fler detaljer
i ljus och skuggor, men en oundviklig konsekvens av sådan exponering
är en minskning av den totala kontrasten. På den nedersta bilden
molnens struktur är dock mycket bättre utvecklad
på grund av den lägre kontrasten, denna version av fotot
ser mindre naturligt ut

En liknande funktion som kallas Dynamic Range Enlargement är implementerad i ett antal kompakt- och SLR-kameror från Pentax (Optio S12, K200D, etc.). Enligt tillverkaren tillåter användningen av funktionen Dynamic Range Enlargement dig att öka den fotografiska latituden för bilder med 1 EV utan att förlora detaljer i högdagrar och skuggor.

En liknande funktion som kallas Highlight tone priority (HTP) är implementerad i ett antal Canon DSLR-modeller (EOS 40D, EOS 450D, etc.). Enligt användarmanualen förbättrar aktivering av HTP markeringsdetaljer (särskilt i 0 till 18 % grått område).

Slutsats

Låt oss sammanfatta. Inbyggd dynamiskt omfångskomprimering låter dig konvertera en källbild med högt dynamiskt omfång till 8-bitars med minimal skada JPEG-fil. Utan alternativet att spara bilder i RAW-format, tillåter Dynamic Range Compression-läget fotografer att mer fullt ut utnyttja kamerans potential när de fotograferar scener med hög kontrast.

Naturligtvis är det viktigt att komma ihåg att komprimering av dynamiskt omfång inte är ett mirakelmedel, utan snarare en kompromiss. Att bevara detaljer i högdagrar och/eller skuggor kommer till priset av att öka brusnivån i de mörka delarna av bilden, minska dess kontrast och något förgrovande mjuka tonala övergångar.

Liksom alla automatiska funktioner är algoritmen för komprimering av dynamiskt omfång inte en helt universell lösning som låter dig förbättra absolut alla bilder. Därför är det vettigt att aktivera det endast i de fall det verkligen är nödvändigt. Till exempel, för att fotografera en siluett med en väldesignad bakgrund, måste funktionen för komprimering av dynamiskt omfång stängas av - annars kommer den spektakulära scenen att förstöras hopplöst.

För att avsluta vår övervägande av detta ämne, bör det noteras att användningen av komprimeringsfunktioner för dynamiskt omfång inte tillåter oss att "dra ut" detaljer i den resulterande bilden som inte fångades av kamerasensorn. För att uppnå tillfredsställande resultat när du fotograferar scener med hög kontrast kan du behöva använda ytterligare verktyg (som gradientfilter för landskapsfotografering) eller speciella tekniker (som att fotografera flera bilder med exponeringsvariation och sedan slå samman dem till en bild med Tone Mapping-tekniken ).

Nästa artikel kommer att fokusera på burst-funktionen.

Fortsättning följer

Låt oss fundera på frågan - varför behöver vi skruva upp volymen? För att höra tysta ljud som inte är hörbara i våra förhållanden (till exempel om du inte kan lyssna högt, om det finns främmande ljud i rummet etc.). Är det möjligt att förstärka tysta ljud samtidigt som de höga ljuden lämnas ifred? Det visar sig att det är möjligt. Denna teknik kallas dynamic range compression (DRC). För att göra detta måste du ändra den aktuella volymen konstant - förstärka tysta ljud, höga - inte. Den enklaste lagen för volymförändring är linjär, dvs. Volymen ändras enligt lagen output_loudness = k * input_loudness, där k är det dynamiska intervallets komprimeringsförhållande:

Figur 18. Dynamisk intervallkompression.

När k = 1 görs inga ändringar (utgångsvolymen är lika med ingångsvolymen). Vid k< 1 громкость будет увеличиваться, а динамический диапазон - сужаться. Посмотрим на график (k=1/2) - тихий звук, имевший громкость -50дБ станет громче на 25дБ, что значительно громче, но при этом громкость диалогов (-27дБ) повысится всего лишь на 13.5дБ, а громкость самых громких звуков (0дБ) вообще не изменится. При k >1 - volymen minskar och det dynamiska omfånget ökar.

Låt oss titta på volymgraferna (k = 1/2: DD-komprimeringen fördubblas):

Figur 19. Loudness-grafer.

Som du kan se i originalet var det både mycket tysta ljud, 30 dB under dialognivån, och mycket höga - 30 dB över dialognivån. Den där. det dynamiska omfånget var 60dB. Efter komprimering är höga ljud bara 15dB högre och tysta ljud är 15dB lägre än dialog (det dynamiska omfånget är nu 30dB). Således blev höga ljud betydligt tystare och tysta ljud blev betydligt högre. I det här fallet finns det inget spill!

Låt oss nu titta på histogrammen:

Figur 20. Kompressionsexempel.

Som du tydligt kan se, med förstärkning upp till +30dB, är formen på histogrammet väl bevarad, vilket gör att höga ljud förblir väl uttryckta (de når inte maximalt och skärs inte av, vilket händer med enkel förstärkning) . Detta ger tysta ljud. Histogrammet visar detta dåligt, men skillnaden är mycket märkbar på gehör. Nackdelen med denna metod är samma volymhopp. Mekanismen för deras förekomst skiljer sig dock från ljudstyrkahopp som uppstår under skärning, och deras karaktär är annorlunda - de uppträder främst när tysta ljud förstärks mycket kraftigt (och inte när höga ljud skärs, som med normal förstärkning). En alltför hög kompressionsnivå leder till att ljudbilden plattas ut - alla ljud tenderar att ha samma ljudstyrka och inte uttrycksfulla.

Överdriven förstärkning av tysta ljud kan göra att inspelningsljud blir hörbart. Därför använder filtret en något modifierad algoritm så att ljudnivån stiger mindre:

Figur 21. Öka volymen utan ökat brus.

De där. vid en volymnivå på -50dB böjs överföringsfunktionen, och bruset kommer att förstärkas mindre (gul linje). I avsaknad av en sådan böjning kommer bruset att vara mycket högre (grå linje). Denna enkla modifiering minskar avsevärt mängden brus även vid mycket höga kompressionsnivåer (1:5-komprimering på bilden). “DRC”-nivån i filtret ställer in förstärkningsnivån för tysta ljud (vid -50dB), dvs. 1/5-kompressionsnivån som visas i figuren motsvarar +40dB-nivån i filterinställningarna.

I en tid då forskare precis började lösa problemet med att skapa ett talgränssnitt för datorer, var de ofta tvungna att tillverka sin egen utrustning som skulle göra det möjligt för ljudinformation att matas in i datorn och även mata ut den från datorn. I dag kan sådana enheter bara vara av historiskt intresse, eftersom moderna datorer enkelt kan utrustas med ljudin- och utgångsenheter, såsom ljudadaptrar, mikrofoner, hörlurar och högtalare.

Vi kommer inte att fördjupa oss i detaljerna i den interna strukturen för dessa enheter, men vi kommer att prata om hur de fungerar och ge några rekommendationer för att välja ljuddatorenheter för att arbeta med taligenkänning och syntessystem.

Som vi redan sa i det föregående kapitlet är ljud inget annat än luftvibrationer, vars frekvens ligger i frekvensintervallet som uppfattas av människor. De exakta gränserna för det hörbara frekvensområdet kan variera från person till person, men ljudvibrationer tros ligga inom intervallet 16-20 000 Hz.

Syftet med en mikrofon är att omvandla ljudvibrationer till elektriska vibrationer, som sedan kan förstärkas, filtreras för att ta bort störningar och digitaliseras för inmatning av ljudinformation till en dator.

Baserat på deras funktionsprincip är de vanligaste mikrofonerna indelade i kol, elektrodynamisk, kondensor och elektret. Vissa av dessa mikrofoner kräver extern källa ström (till exempel kol och kondensor), andra, under påverkan av ljudvibrationer, kan självständigt generera elektrisk växelspänning (dessa är elektrodynamiska och elektretmikrofoner).

Du kan också separera mikrofonerna efter deras syfte. Det finns studiomikrofoner som kan hållas i handen eller monteras på ett stativ, det finns radiomikrofoner som kan klippas fast i kläder och så vidare.

Det finns också mikrofoner som är designade speciellt för datorer. Sådana mikrofoner är vanligtvis monterade på ett stativ placerat på ytan av ett bord. Datormikrofoner kan kombineras med hörlurar, som visas i fig. 2-1.

Ris. 2-1. Hörlurar med mikrofon

Hur kan du välja bland de olika mikrofoner som är bäst lämpade för taligenkänningssystem?

I princip kan du experimentera med vilken mikrofon du har, så länge den kan kopplas till din dators ljudadapter. Utvecklare av taligenkänningssystem rekommenderar dock att man köper en mikrofon som under drift kommer att vara på ett konstant avstånd från talarens mun.

Om avståndet mellan mikrofonen och munnen inte förändras, kommer den genomsnittliga nivån på den elektriska signalen som kommer från mikrofonen inte heller att förändras för mycket. Detta kommer att ha en positiv inverkan på prestandan hos moderna taligenkänningssystem.

Vad är problemet?

En person kan framgångsrikt känna igen tal, vars volym varierar över ett mycket brett spektrum. Den mänskliga hjärnan kan filtrera bort tyst tal från störningar, såsom buller från bilar som passerar på gatan, externa samtal och musik.

När det gäller moderna taligenkänningssystem lämnar deras förmågor inom detta område mycket övrigt att önska. Om mikrofonen är på ett bord kommer avståndet mellan munnen och mikrofonen att ändras när du vrider på huvudet eller ändrar kroppsställning. Detta kommer att ändra mikrofonens utgångsnivå, vilket i sin tur kommer att minska tillförlitligheten för taligenkänning.

Därför, när du arbetar med taligenkänningssystem, kommer de bästa resultaten att uppnås om du använder en mikrofon kopplad till hörlurar, som visas i Fig. 2-1. Vid användning av en sådan mikrofon kommer avståndet mellan munnen och mikrofonen att vara konstant.

Vi uppmärksammar dig också på att alla experiment med taligenkänningssystem bäst utförs i avskildhet i ett tyst rum. I det här fallet kommer påverkan av störningar att vara minimal. Naturligtvis, om du behöver välja ett taligenkänningssystem som kan fungera under förhållanden med stark störning, måste testerna utföras annorlunda. Såvitt bokens författarna vet är dock brusimmuniteten för taligenkänningssystem fortfarande mycket, mycket låg.

Mikrofonen omvandlar ljudvågor till vibrationer för oss. elektrisk ström. Dessa fluktuationer kan ses på oscilloskopskärmen, men skynda inte till butiken för att köpa denna dyra enhet. Vi kan utföra alla oscillografiska studier med en vanlig dator utrustad med en ljudadapter, till exempel en Sound Blaster-adapter. Senare kommer vi att berätta hur du gör detta.

I fig. 2-2 visade vi oscillogrammet ljudsignal, ett resultat av att uttala ett långt ljud a. Denna vågform erhölls med GoldWave-programmet, som vi kommer att prata om senare i det här kapitlet av boken, samt med en Sound Blaster-ljudadapter och en mikrofon som liknar den som visas i Fig. 2-1.

Ris. 2-2. Ljudsignaloscillogram

GoldWave-programmet låter dig sträcka ut oscillogrammet längs tidsaxeln, vilket gör att du kan se de minsta detaljerna. I fig. 2-3 visade vi ett sträckt fragment av ovan nämnda oscillogram av ljud a.

Ris. 2-3. Fragment av ett oscillogram av en ljudsignal

Observera att storleken på insignalen som kommer från mikrofonen ändras med jämna mellanrum och antar både positiva och negativa värden.

Om det bara fanns en frekvens närvarande i insignalen (det vill säga om ljudet var "rent"), skulle vågformen som tas emot från mikrofonen vara en sinusvåg. Men, som vi redan har sagt, består spektrumet av mänskliga talljud av en uppsättning frekvenser, som ett resultat av vilka formen på talsignalens oscillogram är långt ifrån sinusformad.

Vi kommer att kalla en signal vars storlek förändras kontinuerligt över tiden analog signal. Det är precis den signalen som kommer från mikrofonen. Till skillnad från analog, digital signalär en uppsättning numeriska värden som ändras diskret över tiden.

För att en dator ska kunna bearbeta en ljudsignal måste den konverteras från analog till digital form, det vill säga presenteras som en uppsättning numeriska värden. Denna process kallas analog signal digitalisering.

Digitalisering av en ljudsignal (och alla analoga) signaler utförs med hjälp av en speciell enhet som kallas analog-till-digital-omvandlare ADC (Analog to Digital Converter, ADC). Den här enheten är placerad på ljudadapterkortet och är en vanlig mikrokrets.

Hur fungerar en analog-till-digital-omvandlare?

Den mäter regelbundet nivån på insignalen och matar ut ett numeriskt värde på mätresultatet. Denna process illustreras i fig. 2-4. Här indikerar grå rektanglar ingångssignalvärden som mäts med ett konstant tidsintervall. En uppsättning sådana värden är en digitaliserad representation av den analoga insignalen.

Ris. 2-4. Mätningar av signalamplitud kontra tid

I fig. 2-5 visade vi anslutning av en analog-till-digital-omvandlare till en mikrofon. I detta fall tillförs en analog signal till ingång x 1, och en digital signal tas bort från utgångarna u 1 - u n.

Ris. 2-5. Analog-till-digital-omvandlare

Analog-till-digitalomvandlare kännetecknas av två viktiga parametrar - omvandlingsfrekvensen och antalet kvantiseringsnivåer för insignalen. Korrekt val av dessa parametrar är avgörande för att uppnå adekvat digital representation av den analoga signalen.

Hur ofta behöver man mäta amplituden på den ingående analoga signalen så att information om förändringar i den ingående analoga signalen inte går förlorad till följd av digitalisering?

Det verkar som att svaret är enkelt - ingångssignalen måste mätas så ofta som möjligt. Faktum är att ju oftare en analog-till-digital-omvandlare gör sådana mätningar, desto bättre kommer den att kunna spåra de minsta förändringarna i amplituden för den ingående analoga signalen.

Alltför frekventa mätningar kan dock leda till en omotiverad ökning av flödet av digitala data och ett slöseri med datorresurser vid bearbetning av signalen.

Lyckligtvis är det ganska enkelt att välja rätt konverteringsfrekvens (samplingsfrekvens). För att göra detta räcker det med att vända sig till Kotelnikovs teorem, känt för specialister inom området digital signalbehandling. Teoremet säger att omvandlingsfrekvensen måste vara två gånger den maximala frekvensen för spektrumet för den konverterade signalen. Därför, för att digitalisera utan att förlora kvaliteten på en ljudsignal vars frekvens ligger i intervallet 16-20 000 Hz, måste du välja en omvandlingsfrekvens som inte är mindre än 40 000 Hz.

Observera dock att i professionell ljudutrustning väljs konverteringsfrekvensen flera gånger högre än det angivna värdet. Detta görs för att uppnå mycket Hög kvalitet digitaliserat ljud. Denna kvalitet är inte relevant för taligenkänningssystem, så vi kommer inte att fokusera din uppmärksamhet på detta val.

Vilken konverteringsfrekvens behövs för att digitalisera ljudet av mänskligt tal?

Eftersom ljudet av mänskligt tal ligger i frekvensområdet 300-4000 Hz, är den minsta nödvändiga konverteringsfrekvensen 8000 Hz. Däremot många datorprogram Taligenkänning använder en standardkonverteringsfrekvens på 44 000 Hz för konventionella ljudadaptrar. Dels leder en sådan konverteringsfrekvens inte till en alltför stor ökning av det digitala dataflödet, dels säkerställer den taldigitalisering med tillräcklig kvalitet.

Redan i skolan fick vi lära oss att vid eventuella mätningar uppstår fel, som inte helt kan elimineras. Sådana fel uppstår på grund av den begränsade upplösningen hos mätinstrument, samt på grund av att själva mätprocessen kan införa vissa förändringar i det uppmätta värdet.

En analog-till-digital-omvandlare representerar den analoga insignalen som en ström av antal med begränsad kapacitet. Konventionella ljudadaptrar innehåller 16-bitars ADC-block som kan representera amplituden för insignalen som 216 = 65536 olika värden. ADC-enheter i avancerad ljudutrustning kan vara 20-bitars, vilket ger större noggrannhet när det gäller att representera ljudsignalens amplitud.

Moderna taligenkänningssystem och program skapades för vanliga datorer utrustade med vanliga ljudadaptrar. Därför, för att utföra experiment med taligenkänning, behöver du inte köpa en professionell ljudadapter. En adapter som Sound Blaster är mycket lämplig för att digitalisera tal i syfte att ytterligare känna igen det.

Tillsammans med den användbara signalen kommer vanligtvis olika ljud in i mikrofonen - buller från gatan, vindbrus, främmande konversationer etc. Buller har en negativ inverkan på prestanda hos taligenkänningssystem, så det måste hanteras. Vi har redan nämnt ett av sätten - dagens taligenkänningssystem används bäst i ett tyst rum, ensam med datorn.

Det är dock inte alltid möjligt att skapa idealiska förhållanden, så det är nödvändigt att använda speciella metoder för att bli av med störningar. För att minska brusnivån används speciella knep när man designar mikrofoner och specialfilter som tar bort frekvenser från den analoga signalens spektrum som inte bär användbar information. Dessutom används en teknik såsom komprimering av det dynamiska området för insignalnivåer.

Låt oss prata om allt detta i ordning.

Frekvensfilterär en enhet som omvandlar frekvensspektrumet för en analog signal. I det här fallet, under omvandlingsprocessen, släpps (eller absorberas) vibrationer av vissa frekvenser.

Du kan föreställa dig den här enheten som en sorts svart låda med en ingång och en utgång. I förhållande till vår situation kommer en mikrofon att kopplas till ingången på frekvensfiltret och en analog-digital-omvandlare kopplas till utgången.

Det finns olika frekvensfilter:

· lågpassfilter;

högpassfilter;

· sändande bandpassfilter;

· bandstoppfilter.

Lågpassfilter(lågpassfilter) ta bort från ingångssignalens spektrum alla frekvenser vars värden ligger under en viss tröskelfrekvens, beroende på filterinställningen.

Eftersom ljudsignaler ligger i intervallet 16-20 000 Hz kan alla frekvenser mindre än 16 Hz skäras av utan att försämra ljudkvaliteten. För taligenkänning är frekvensområdet 300-4000 Hz viktigt, så frekvenser under 300 Hz kan skäras bort. I det här fallet kommer all störning vars frekvensspektrum ligger under 300 Hz att skäras ut från insignalen, och de kommer inte att störa taligenkänningsprocessen.

Likaså, högpassfilter(högpassfilter) skär ut från spektrumet av insignalen alla frekvenser över en viss tröskelfrekvens.

Människor kan inte höra ljud med en frekvens på 20 000 Hz och högre, så de kan skäras ut ur spektrumet utan märkbar försämring av ljudkvaliteten. När det gäller taligenkänning, här kan du skära ut alla frekvenser över 4000 Hz, vilket kommer att leda till en betydande minskning av nivån av högfrekvent störning.

Bandpassfilter(band-passfilter) kan ses som en kombination av ett lågpass- och högpassfilter. Ett sådant filter fördröjer alla frekvenser under den sk lägre passfrekvens, och även ovan övre passfrekvens.

Således är ett passbandsfilter lämpligt för ett taligenkänningssystem, som fördröjer alla frekvenser utom frekvenser i området 300-4000 Hz.

När det gäller bandstoppfilter låter de dig klippa ut alla frekvenser som ligger inom ett givet område från ingångssignalens spektrum. Ett sådant filter är praktiskt till exempel för att undertrycka störningar som upptar en viss kontinuerlig del av signalspektrat.

I fig. 2-6 visade vi anslutningen av ett passbandpassfilter.

Ris. 2-6. Filtrera ljudsignalen före digitalisering

Det måste sägas att konventionella ljudadaptrar installerade i en dator inkluderar ett bandpassfilter genom vilket den analoga signalen passerar före digitalisering. Passbandet för ett sådant filter motsvarar vanligtvis intervallet för ljudsignaler, nämligen 16-20 000 Hz (i olika ljudadaptrar kan värdena för de övre och nedre frekvenserna variera inom små gränser).

Hur uppnår man en smalare bandbredd på 300-4000 Hz, motsvarande den mest informativa delen av spektrumet av mänskligt tal?

Naturligtvis, om du har en förkärlek för att designa elektronisk utrustning kan du göra ditt eget filter av ett operationsförstärkarchip, motstånd och kondensatorer. Detta är ungefär vad de första skaparna av taligenkänningssystem gjorde.

dock industriella system Taligenkänningssystem måste fungera på vanlig datorhårdvara, så vägen för att skapa ett speciellt bandpassfilter är inte lämplig här.

Istället i moderna system talbehandling använder den sk digitala frekvensfilter, implementerad i programvara. Detta blev möjligt efteråt CPU Datorn har blivit ganska kraftfull.

Ett digitalt frekvensfilter, implementerat i mjukvara, omvandlar en digital insignal till en digital utsignal. Under konverteringsprocessen bearbetar programmet på ett speciellt sätt strömmen av numeriska värden för signalamplituden som kommer från analog-till-digital-omvandlaren. Resultatet av transformationen blir också en ström av tal, men denna ström kommer att motsvara en redan filtrerad signal.

Medan vi pratade om analog-till-digital-omvandlaren, noterade vi en så viktig egenskap som antalet kvantiseringsnivåer. Om en 16-bitars analog-till-digital-omvandlare är installerad i ljudadaptern, kan ljudsignalnivåerna efter digitaliseringen representeras som 216 = 65536 olika värden.

Om det finns få kvantiseringsnivåer, då den sk kvantiseringsbrus. För att minska detta brus bör högkvalitativa ljuddigitaliseringssystem använda analog-till-digitalomvandlare med det maximala antalet tillgängliga kvantiseringsnivåer.

Det finns dock en annan teknik för att minska inverkan av kvantiseringsbrus på kvaliteten på ljudsignalen, som används i digitala ljudinspelningssystem. Vid användning av denna teknik passerar signalen genom en olinjär förstärkare före digitalisering, vilket betonar signaler med låg signalamplitud. En sådan anordning förbättrar svaga signaler starkare än stark.

Detta illustreras av grafen över utsignalens amplitud kontra insignalens amplitud som visas i fig. 2-7.

Ris. 2-7. Icke-linjär förstärkning före digitalisering

I steget att konvertera digitaliserat ljud tillbaka till analogt (vi ska titta på det här steget senare i det här kapitlet), skickas den analoga signalen igen genom en olinjär förstärkare innan den matas ut till högtalarna. Den här gången används en annan förstärkare, som framhäver högamplitudsignaler och har en överföringskarakteristik (beroendet av amplituden för utsignalen på amplituden hos insignalen) omvänd mot den som används under digitaliseringen.

Hur kan allt detta hjälpa skaparna av taligenkänningssystem?

En person känner som känt igen tal som talas med en tyst viskning eller med en ganska hög röst ganska väl. Vi kan säga att det dynamiska omfånget av ljudnivåer för framgångsrikt erkänt tal för en person är ganska brett.

Dagens datorsystem taligenkänning kan tyvärr ännu inte skryta med detta. Men för att utöka det angivna dynamiska området något, innan du digitaliserar, kan du skicka signalen från mikrofonen genom en olinjär förstärkare, vars överföringskarakteristik visas i fig. 2-7. Detta kommer att minska kvantiseringsbrusnivån vid digitalisering av svaga signaler.

Utvecklare av taligenkänningssystem tvingas återigen fokusera främst på kommersiellt producerade ljudadaptrar. De tillhandahåller inte den olinjära signalomvandlingen som beskrivs ovan.

Det är dock möjligt att skapa mjukvaruekvivalenten till en olinjär förstärkare som omvandlar den digitaliserade signalen innan den skickas vidare till taligenkänningsmodulen. Även om en sådan mjukvaruförstärkare inte kommer att kunna reducera kvantiseringsbrus, kan den användas för att betona de signalnivåer som bär mest talinformation. Du kan till exempel minska amplituden för svaga signaler och därmed befria signalen från brus.

Kompression är ett av de mest mytomspunna ämnena inom ljudproduktion. De säger att Beethoven till och med skrämde grannens barn med henne:(

Okej, faktiskt, att använda komprimering är inte svårare än att använda distorsion, det viktigaste är att förstå principen för dess funktion och ha bra kontroll. Detta är vad vi kommer att se tillsammans nu.

Vad är ljudkomprimering

Det första att förstå innan förberedelse är kompression. arbeta med ljudets dynamiska omfång. Och i sin tur är inget annat än skillnaden mellan de högsta och tystaste signalnivåerna:

Så, komprimering är komprimering av det dynamiska området. Ja, Bara dynamiskt områdeskomprimering, eller med andra ord sänka nivån på högljudda delar av signalen och öka volymen på tysta delar. Inte mer.

Man kan rimligen undra varför en sådan hype hänger ihop då? Varför pratar alla om recept för korrekta kompressorinställningar, men ingen delar dem? Varför, trots ett stort antal coola plugins, använder många studior fortfarande dyra, sällsynta modeller av kompressorer? Varför använder vissa producenter kompressorer vid extrema inställningar, medan andra inte använder dem alls? Och vilken av dem har rätt i slutändan?

Problem lösta genom komprimering

Svaren på sådana frågor ligger i planet att förstå kompressionens roll i arbetet med ljud. Och det tillåter:

  1. Betona attacken ljud, vilket gör det mer uttalat;
  2. Att ”sätta in” enskilda delar av instrument i mixen, lägga kraft och "vikt" till dem;
  3. Gör grupper av instrument eller en hel mix mer sammanhängande, en sådan enda monolit;
  4. Lös konflikter mellan verktyg använder sidokedja ;
  5. Rätta till sångarens eller musikernas misstag, utjämna deras dynamik;
  6. Med en viss inställning fungera som en konstnärlig effekt.

Som du kan se är detta inte mindre betydelsefull kreativ process än att till exempel komma med melodier eller skapa intressanta klangfärger. Dessutom kan något av ovanstående problem lösas med hjälp av fyra huvudparametrar.

Grundläggande parametrar för kompressorn

Trots det stora antalet mjukvaru- och hårdvarumodeller av kompressorer uppstår all "magi" med komprimering när korrekt inställning huvudparametrar: Tröskel, Ratio, Attack och Release. Låt oss titta på dem mer i detalj:

Tröskel eller svarströskel, dB

Denna parameter låter dig ställa in värdet från vilket kompressorn ska arbeta (det vill säga komprimera ljudsignalen). Så, om vi ställer in tröskeln till -12dB, kommer kompressorn bara att fungera i de delar av det dynamiska området som överskrider detta värde. Om allt vårt ljud är tystare än -12db kommer kompressorn helt enkelt att passera igenom det utan att påverka det på något sätt.

Förhållande eller kompressionsförhållande

Förhållandeparametern bestämmer hur mycket en signal som överskrider tröskeln kommer att komprimeras. Lite matematik för att komplettera bilden: låt oss säga att vi ställer in en kompressor med tröskel -12dB, förhållande 2:1 och tillämpas trumslinga, där kicktrummens volym är -4dB. Vad blir resultatet av kompressordriften i detta fall?

В нашем случае уровень бочки превышает threshold на 8dB. Эта разница в соответствии с ratio будет с