Prevod zvuku na prúd čísel. Syntéza a rozpoznávanie reči. Moderné riešenia. Zvukové vybavenie počítača. Konverzia zvuku na číselný tok Dynamický rozsah komprimovaný alebo štandardný

Druhá časť cyklu je venovaná funkciám optimalizácie dynamického rozsahu snímok. V ňom vysvetlíme, prečo sú takéto riešenia potrebné, zvážime rôzne možnosti ich implementácie, ako aj ich výhody a nevýhody.

Prijmite nesmiernosť

Ideálne je, ak kamera zachytáva obraz okolitého sveta tak, ako ho vníma človek. Avšak vzhľadom na to, že mechanizmy „videnia“ kamery a ľudského oka sú výrazne odlišné, existuje množstvo obmedzení, ktoré túto podmienku nedovoľujú splniť.

Jedným z problémov, ktorým predtým čelili používatelia filmových fotoaparátov a ktorým teraz čelia majitelia digitálnych fotoaparátov, je neschopnosť adekvátne zachytiť scény s veľkými rozdielmi vo svetle bez použitia špeciálnych zariadení a/alebo špeciálnych techník snímania. Vlastnosti ľudského zrakového aparátu umožňujú rovnako dobre vnímať detaily vysoko kontrastných scén v jasne osvetlených aj tmavých oblastiach. Bohužiaľ, snímač fotoaparátu nie vždy dokáže zachytiť obraz tak, ako ho vidíme.

Čím väčší je rozdiel v jasoch na fotografovanej scéne, tým vyššia je pravdepodobnosť straty detailov vo svetlách a/alebo tieňoch. Výsledkom je, že namiesto modrej oblohy so sviežimi mrakmi na obrázku sa získa iba belavá škvrna a objekty umiestnené v tieni sa zmenia na nevýrazné tmavé siluety alebo sa dokonca zlúčia s okolím.

Klasická fotografia používa tento pojem fotografická šírka(podrobnosti nájdete na bočnom paneli). Teoreticky je fotografická šírka digitálnych fotoaparátov určená bitovou hĺbkou analógovo-digitálneho prevodníka (ADC). Napríklad pri použití 8-bitového ADC, berúc do úvahy kvantizačnú chybu, bude teoreticky dosiahnuteľná hodnota fotografickej šírky 7 EV, pre 12-bitový ADC - 11 EV atď. V skutočných zariadeniach je však dynamický rozsah obrázkov pri rovnaké teoretické maximum vplyvom rôznych druhov hluku a iných faktorov.

Veľký rozdiel v úrovniach jasu je vážny
problém s fotografovaním. V tomto prípade možnosti fotoaparátu
nestačilo primerane sprostredkovať maximum
svetlé oblasti scény a v dôsledku toho namiesto modrej oblasti
obloha (označená ťahom) sa ukázala ako biela „náplasť“

Maximálna hodnota jasu, ktorú dokáže fotosenzitívny senzor zistiť, je určená úrovňou nasýtenia jeho buniek. Minimálna hodnota závisí od niekoľkých faktorov, vrátane množstva tepelného šumu matice, šumu prenosu náboja a chyby ADC.

Za zmienku tiež stojí, že fotografická šírka toho istého digitálneho fotoaparátu sa môže líšiť v závislosti od hodnoty citlivosti nastavenej v nastaveniach. Maximálny dynamický rozsah je dosiahnuteľný nastavením takzvanej základnej citlivosti (zodpovedajúcej minimálnej možnej číselnej hodnote). S rastúcou hodnotou tohto parametra sa dynamický rozsah znižuje v dôsledku zvýšenej hladiny hluku.

Fotografická šírka moderných modelov digitálnych fotoaparátov vybavených senzormi veľká veľkosť a 14-bitové alebo 16-bitové ADC je 9 až 11 EV, čo je výrazne viac ako pri 35 mm formáte farebného negatívneho filmu (v priemere 4 až 5 EV). Teda aj relatívne lacné digitálne fotoaparáty majú dostatočnú fotografickú šírku na adekvátne zachytenie väčšiny typických amatérskych fotografických scén.

Je tu však problém iného druhu. Súvisí to s obmedzeniami uloženými existujúcimi normami pre záznam digitálnych obrázkov. Použitím formátu JPEG s 8 bitmi na farebný kanál (ktorý sa v súčasnosti stal de facto štandardom pre záznam digitálnych obrázkov v počítačovom priemysle a digitálnej technológii) je dokonca teoreticky nemožné uložiť obrázok s fotografickou šírkou väčšou ako 8 EV. .

Predpokladajme, že ADC fotoaparátu vám umožňuje získať obrázok s bitovou hĺbkou 12 alebo 14 bitov, ktorý obsahuje rozlíšiteľné detaily vo svetlách aj v tieňoch. Ak však fotografická šírka tohto obrázka presiahne 8 EV, potom v procese prevodu na štandardný 8-bitový formát bez akýchkoľvek ďalších krokov (t. j. jednoducho vyradením bitov „navyše“) sa časť informácií zaznamenaných fotosenzitívny senzor sa stratí.

Dynamický rozsah a fotografická šírka

Zjednodušene povedané, dynamický rozsah je definovaný ako pomer maximálnej hodnoty jasu obrazu k jeho minimálnej hodnote. V klasickej fotografii sa tradične používa pojem fotografická šírka, čo v skutočnosti znamená to isté.

Šírka dynamického rozsahu môže byť vyjadrená ako pomer (napríklad 1000:1, 2500:1 atď.), ale najčastejšie sa používa logaritmická mierka. V tomto prípade sa vypočíta hodnota dekadického logaritmu pomeru maximálneho jasu k jeho minimálnej hodnote a za číslom nasleduje veľké písmeno D (z anglického hustota? - hustota), menej často? - skratka OD (z anglického optická hustota? - optická hustota). Napríklad, ak je pomer maximálnej hodnoty jasu k minimálnej hodnote akéhokoľvek zariadenia 1000:1, dynamický rozsah bude 3,0 D:

Na meranie fotografickej šírky sa tradične používajú takzvané expozičné jednotky označované skratkou EV (z anglického expozičné hodnoty; profesionáli ich často označujú ako „nohy“ alebo „kroky“). Práve v týchto jednotkách sa zvyčajne v nastaveniach fotoaparátu nastavuje hodnota kompenzácie expozície. Zvýšenie hodnoty fotografickej zemepisnej šírky o 1 EV sa rovná zdvojnásobeniu rozdielu medzi maximálnou a minimálnou úrovňou jasu. Stupnica EV je teda tiež logaritmická stupnica, ale v tomto prípade sa na výpočet číselných hodnôt používa logaritmus so základom 2. Fotografická šírka bude 8 EV:

Kompresia je rozumný kompromis

Väčšina efektívnym spôsobom Ak chcete zachovať úplné informácie o snímke zachytené fotocitlivým snímačom fotoaparátu, musíte zaznamenať snímky vo formáte RAW. Táto funkcia však nie je dostupná vo všetkých fotoaparátoch a nie každý amatérsky fotograf je pripravený venovať sa starostlivej práci pri výbere. individuálne nastavenia za každý zhotovený obrázok.

Aby sa znížila možnosť straty detailov vo vysoko kontrastných snímkach konvertovaných vo vnútri fotoaparátu do 8-bitového JPEG, boli predstavené zariadenia mnohých výrobcov (nielen kompaktné, ale aj zrkadlovky). špeciálne funkcie, čo umožňuje bez zásahu používateľa komprimovať dynamický rozsah uložených obrázkov. Znížením celkového kontrastu a stratou malej časti informácií pôvodného obrázka takéto riešenia umožňujú zachovať v 8-bitovom JPEG detaily vo svetlách a tieňoch zaznamenaných svetlocitlivým snímačom zariadenia, aj keď dynamický rozsah pôvodnej snímky sa ukázal byť širší ako 8 EV.

Jedným z priekopníkov vo vývoji tohto smeru bola spoločnosť HP. Digitálny fotoaparát HP Photosmart 945 bol uvedený na trh v roku 2003 a ako prvý na svete implementoval technológiu HP Adaptive Lightling, ktorá automaticky kompenzuje nedostatok svetla v tmavých oblastiach obrázkov a zachováva tak detaily tieňov bez rizika preexponovania (čo je veľmi dôležité pri snímaní scén s vysokým kontrastom). Algoritmus HP Adaptive Lightling je založený na princípoch, ktoré stanovil anglický vedec Edwin Land v teórii ľudského zrakového vnímania RETINEX.

Ponuka funkcií adaptívneho osvetlenia HP

Ako funguje adaptívne osvetlenie? Po získaní 12-bitového obrázku sa z neho extrahuje pomocný monochromatický obrázok, ktorý je vlastne svetelnou mapou. Pri spracovaní obrázka sa táto mapa používa ako maska, ktorá umožňuje nastaviť mieru vplyvu pomerne zložitého digitálneho filtra na obrázok. V oblastiach zodpovedajúcich najtmavším bodom mapy je teda vplyv na obraz budúceho obrazu minimálny a naopak. Tento prístup umožňuje zobraziť detaily v tieňoch selektívnym zosvetlením týchto oblastí a zodpovedajúcim znížením celkového kontrastu výsledného obrazu.

Je potrebné poznamenať, že keď je aktivovaná funkcia Adaptívne osvetlenie, nasnímaný obrázok sa spracuje vyššie opísaným spôsobom predtým, ako sa finálny obrázok zapíše do súboru. Všetky popísané operácie sa vykonávajú automaticky a používateľ si môže v menu fotoaparátu vybrať iba jeden z dvoch režimov adaptívneho osvetlenia (nízka alebo vysoká úroveň expozície) alebo túto funkciu vypnúť.

Vo všeobecnosti možno povedať, že mnohé zo špecifických funkcií moderných digitálnych fotoaparátov (vrátane systémov rozpoznávania tváre diskutovaných v predchádzajúcom článku) sú určitými druhmi vedľajších produktov alebo produktov konverzie výskumných projektov, ktoré boli pôvodne realizované pre vojenských zákazníkov. Čo sa týka funkcií optimalizácie dynamického rozsahu obrazu, jedným z najznámejších poskytovateľov takýchto riešení je Apical. Základom fungovania funkcie SAT (Shadow Adjustment Technology - technológia korekcie tieňov) implementovanej v mnohých digitálnych fotoaparátoch Olympus sú najmä algoritmy vytvorené jej zamestnancami. Fungovanie funkcie SAT možno v stručnosti opísať nasledovne: na základe pôvodného obrázku sa vytvorí maska ​​zodpovedajúca najtmavším oblastiam a následne sa pre tieto oblasti automaticky upraví úroveň expozície.

Spoločnosť Sony tiež získala licenciu na právo používať vývoj spoločnosti Apical. Mnoho modelov kompaktných fotoaparátov radu Cyber-shot a v zrkadlovkách radu alpha má funkciu takzvanej optimalizácie dynamického rozsahu (Dynamic Range Optimizer, DRO).

Fotografie nasnímané s vypnutým zariadením HP Photosmart R927 (hore)
a aktivované adaptívne osvetlenie

Oprava obrazu, keď je aktivovaná funkcia DRO, sa vykonáva v procese primárneho spracovania obrazu (to znamená pred záznamom hotového súboru formát JPEG). DRO má v základnej verzii dvojstupňové nastavenie (v menu si môžete zvoliť štandardný alebo rozšírený režim jeho prevádzky). Keď je vybratý režim Standard, na základe analýzy snímky sa expozícia upraví na hodnotu expozície a potom sa na snímku aplikuje tónová krivka, aby sa vyrovnalo celkové vyváženie. Pokročilý režim používa zložitejší algoritmus, ktorý vám umožňuje vykonávať korekcie v tieňoch aj vo svetlách.

Vývojári Sony neustále pracujú na zlepšovaní algoritmu DRO. Napríklad v zrkadlovke a700 je pri aktivácii pokročilého režimu DRO možné zvoliť jednu z piatich možností korekcie. Navyše je možné uložiť tri varianty jednej snímky naraz (akýsi bracketing) s rôznym nastavením DRO.

Mnoho digitálnych fotoaparátov Nikon má funkciu D-Lighting, ktorá je tiež založená na Apical algoritmoch. Je pravda, že na rozdiel od vyššie popísaných riešení je D-Lighting implementovaný ako filter na spracovanie predtým uložených obrázkov pomocou tónovej krivky, ktorej tvar umožňuje zosvetliť tiene, pričom zvyšok obrázka zostane nezmenený. Ale keďže sa v tomto prípade spracúvajú hotové 8-bitové snímky (a nie pôvodný obraz snímky, ktorý má vyššiu bitovú hĺbku a teda aj širší dynamický rozsah), sú možnosti D-Lightingu veľmi obmedzené. Používateľ môže získať rovnaký výsledok spracovaním obrázka v grafickom editore.

Pri porovnaní zväčšených fragmentov je jasne vidieť, že tmavé oblasti pôvodného obrázka (vľavo)
keď je zapnutá funkcia adaptívneho osvetlenia, budú svetlejšie

Existuje aj množstvo riešení založených na iných princípoch. V mnohých fotoaparátoch rodiny Panasonic Lumix (najmä DMC-FX35, DMC-TZ4, DMC-TZ5, DMC-FS20, DMC-FZ18 atď.) je teda implementovaná funkcia rozpoznávania osvetlenia (inteligentná expozícia), čo je integrálna súčasť systému.inteligentné automatické riadenie streľby iA. Funkcia inteligentnej expozície je založená na automatickej analýze snímky snímky a korekcii tmavých oblastí snímky, aby sa predišlo strate detailov v tieňoch, ako aj (v prípade potreby) kompresii dynamického rozsahu scén s vysokým kontrastom.

V niektorých prípadoch prevádzka funkcie optimalizácie dynamického rozsahu poskytuje nielen určité operácie na spracovanie pôvodnej snímky, ale aj korekciu nastavení snímania. Napríklad v nových modeloch digitálnych fotoaparátov Fujifilm (najmä vo FinePix S100FS) je implementovaná funkcia rozšírenia dynamického rozsahu (Wide Dynamic Range, WDR), čo vám podľa vývojárov umožňuje zvýšiť fotografickú šírku o jeden alebo dva kroky (v zmysle nastavení - 200 a 400%).

Keď je aktivovaná funkcia WDR, fotoaparát zhotovuje snímky s kompenzáciou expozície -1 alebo -2 EV (v závislosti od zvoleného nastavenia). Obraz rámu je teda podexponovaný - je to potrebné, aby sa zachovalo maximum informácií o detailoch vo svetlách. Následne je výsledný obraz spracovaný pomocou tónovej krivky, ktorá umožňuje vyrovnať celkové vyváženie a upraviť úroveň čiernej. Obrázok sa potom skonvertuje do 8-bitového formátu a zaznamená sa ako súbor JPEG.

Kompresia dynamického rozsahu umožňuje zachovať viac detailov
vo svetlách a tieňoch, ale nevyhnutným dôsledkom takéhoto nárazu
je zníženie celkového kontrastu. Na spodnom obrázku
textúra oblakov je však oveľa lepšie spracovaná
z dôvodu nižšieho kontrastu tento variant obrazu
vyzerá menej prirodzene

Podobná funkcia s názvom Dynamic Range Enlargement je implementovaná v rade kompaktov a zrkadloviek Pentax (Optio S12, K200D atď.). Využitie funkcie Dynamic Range Enlargement podľa výrobcu umožňuje zväčšiť fotografickú šírku záberov o 1 EV bez straty detailov vo svetlách a tieňoch.

Podobná funkcia s názvom Highlight tone priority (HTP) je implementovaná v niekoľkých modeloch zrkadloviek Canon (EOS 40D, EOS 450D atď.). Podľa informácií v používateľskej príručke umožňuje aktivácia HTP lepšie detaily v zvýrazneniach (konkrétnejšie v rozsahu úrovní od 0 do 18 % sivej).

Záver

Poďme si to zhrnúť. Zabudovaná funkcia kompresie dynamického rozsahu umožňuje previesť pôvodný obrázok s veľkým dynamickým rozsahom do 8-bitového súboru JPEG s minimálnym poškodením. Pri absencii ukladania snímok RAW umožňuje režim kompresie dynamického rozsahu fotografovi využiť plný potenciál jeho fotoaparátu pri snímaní scén s vysokým kontrastom.

Samozrejme, majte na pamäti, že kompresia dynamického rozsahu nie je zázračný liek, ale skôr kompromis. Zachovanie detailov vo svetlách a/alebo tieňoch prichádza za cenu zvýšeného šumu v tmavých oblastiach obrazu, zníženého kontrastu a určitého zhrubnutia plynulých prechodov tónov.

Ako každá automatická funkcia, ani algoritmus kompresie dynamického rozsahu nie je úplne univerzálnym riešením, ktoré vám umožní vylepšiť absolútne akýkoľvek obrázok. Preto má zmysel aktivovať ho iba v prípadoch, keď je to skutočne potrebné. Ak chcete napríklad nasnímať siluetu s dobre vyvinutým pozadím, musíte vypnúť funkciu kompresie dynamického rozsahu – inak sa veľkolepý dej beznádejne pokazí.

Na záver úvahy o tejto téme treba poznamenať, že použitie funkcií kompresie dynamického rozsahu neumožňuje „vytiahnuť“ z výsledného obrazu detaily, ktoré nezachytil snímač fotoaparátu. Na dosiahnutie uspokojivého výsledku pri snímaní scén s vysokým kontrastom je potrebné použiť prídavné zariadenia (napríklad prechodové filtre na fotografovanie krajiny) alebo špeciálne techniky (napríklad zhotovenie niekoľkých expozične stupňovaných záberov a ich následné spojenie do jednej snímky pomocou mapovania tónov). technológia).

Nasledujúci článok sa zameria na funkciu sériového snímania.

Pokračovanie nabudúce

Zamyslime sa nad otázkou – prečo potrebujeme zvyšovať hlasitosť? Aby ste počuli tiché zvuky, ktoré nie sú v našich podmienkach počuteľné (napríklad, ak nemôžete nahlas počúvať, ak sú v miestnosti cudzie zvuky atď.). Je možné zosilniť tiché zvuky, ale nie hlasné? Ukazuje sa, že môžete. Táto technika sa nazýva kompresia dynamického rozsahu (DRC). Aby ste to dosiahli, musíte neustále meniť aktuálnu hlasitosť - tiché zvuky sú zosilnené, hlasné nie. Najjednoduchší zákon zmeny objemu je lineárny, t.j. hlasitosť sa mení podľa zákona output_loudness = k * input_loudness, kde k je kompresný faktor dynamického rozsahu:

Obrázok 18. Kompresia dynamického rozsahu.

Pre k = 1 sa nevykoná žiadna zmena (výstupný objem sa rovná vstupnému objemu). Vidlička< 1 громкость будет увеличиваться, а динамический диапазон - сужаться. Посмотрим на график (k=1/2) - тихий звук, имевший громкость -50дБ станет громче на 25дБ, что значительно громче, но при этом громкость диалогов (-27дБ) повысится всего лишь на 13.5дБ, а громкость самых громких звуков (0дБ) вообще не изменится. При k >1 - hlasitosť sa zníži a dynamický rozsah sa zvýši.

Pozrime sa na grafy hlasitosti (k = 1/2: kompresia DD na polovicu):

Obrázok 19. Grafy hlasitosti.

Ako môžete vidieť v origináli, boli tam ako veľmi tiché zvuky, 30dB pod úrovňou dialógov, tak aj veľmi hlasné zvuky - 30dB nad úrovňou dialógov. To. dynamický rozsah bol 60 dB. Po kompresii sú hlasné zvuky len o 15 dB vyššie a jemné zvuky sú o 15 dB nižšie ako dialógy (dynamický rozsah je teraz 30 dB). Hlasité zvuky sa tak stávajú oveľa tichšími a tiché zvuky sú oveľa hlasnejšie. V tomto prípade nedochádza k pretečeniu!

Teraz prejdime k histogramom:

Obrázok 20. Príklad kompresie.

Ako môžete jasne vidieť, pri zisku +30dB je tvar histogramu dobre zachovaný, čo znamená, že hlasité zvuky zostávajú dobre definované (nejdú na maximum a nie sú orezané, ako sa to stáva pri jednoduchom zisku). To vytvára tiché zvuky. Histogram to ukazuje zle, ale rozdiel je sluchom veľmi viditeľný. Nevýhodou metódy sú rovnaké objemové skoky. Mechanizmus ich výskytu sa však líši od skokov hlasitosti, ktoré sa vyskytujú pri strihaní, a ich charakter je iný – objavujú sa hlavne pri veľmi silnom zosilnení tichých zvukov (a nie pri odrezaní hlasitých zvukov, ako pri bežnom zosilňovaní). Nadmerná úroveň kompresie vedie k splošteniu zvukového obrazu - všetky zvuky majú tendenciu k rovnakej hlasitosti a nevýraznosti.

Silne zosilňujúce tiché zvuky môžu spôsobiť, že bude počuť šum pri nahrávaní. Preto je vo filtri aplikovaný mierne upravený algoritmus, takže hladina šumu stúpa menej:

Obrázok 21. Zvýšenie hlasitosti bez zvýšenia hluku.

Tie. pri úrovni hlasitosti -50dB dôjde k inflexii prenosovej funkcie a hluk bude menej zosilnený (žltá čiara). Pri absencii takejto inflexie bude hluk oveľa hlasnejší (sivá čiara). Takáto jednoduchá úprava výrazne znižuje množstvo šumu aj pri veľmi vysokých úrovniach kompresie (na obrázku kompresia 1:5). Úroveň „DRC“ vo filtri nastavuje úroveň zosilnenia pre tichšie zvuky (pri -50 dB), takže Úroveň kompresie 1/5 uvedená na obrázku zodpovedá úrovni +40dB v nastaveniach filtra.

V čase, keď výskumníci len začínali riešiť problém vytvorenia rečového rozhrania pre počítače, museli si často vyrobiť vlastné zariadenie, ktoré umožňuje zadávať zvukové informácie do počítača, ako aj výstup z počítača. Dnes môžu byť takéto zariadenia len historicky zaujímavé, pretože moderné počítače môžu byť jednoducho vybavené zvukovými vstupnými a výstupnými zariadeniami, ako sú zvukové adaptéry, mikrofóny, slúchadlá a reproduktory.

Nebudeme zachádzať do podrobností o vnútornej štruktúre týchto zariadení, ale budeme hovoriť o tom, ako fungujú, a poskytneme niekoľko odporúčaní pre výber zvukových počítačových zariadení na prácu so systémami rozpoznávania a syntézy reči.

Ako sme si povedali v predchádzajúcej kapitole, zvuk nie je nič iné ako vibrácie vzduchu, ktorých frekvencia leží vo frekvenčnom rozsahu vnímanom človekom. Presné hranice rozsahu počuteľných frekvencií sa môžu líšiť od osoby k osobe, ale predpokladá sa, že zvukové vibrácie ležia v rozsahu 16-20 000 Hz.

Úlohou mikrofónu je premieňať zvukové vibrácie na elektrické vibrácie, ktoré je možné následne zosilniť, filtrovať na odstránenie rušenia a digitalizovať na zadávanie zvukových informácií do počítača.

Podľa princípu činnosti sa najbežnejšie mikrofóny delia na uhlíkové, elektrodynamické, kondenzátorové a elektretové. Niektoré z týchto mikrofónov vyžadujú externý zdroj prúd (napríklad uhlie a kondenzátor), iné sú pod vplyvom zvukových vibrácií schopné samostatne vytvárať striedavé elektrické napätie (ide o elektrodynamické a elektretové mikrofóny).

Môžete tiež oddeliť mikrofóny podľa účelu. Existujú štúdiové mikrofóny, ktoré sa dajú držať v ruke alebo namontovať na stojan, existujú rádiové mikrofóny, ktoré sa dajú pripnúť na odev atď.

Existujú aj mikrofóny navrhnuté špeciálne pre počítače. Tieto mikrofóny sú zvyčajne namontované na stojane umiestnenom na povrchu stola. Počítačové mikrofóny je možné kombinovať so slúchadlami, ako je znázornené na obr. 2-1.

Ryža. 2-1. Slúchadlá s mikrofónom

Ako si z celej škály mikrofónov vybrať ten, ktorý sa najlepšie hodí pre systémy rozpoznávania reči?

V zásade môžete experimentovať s akýmkoľvek mikrofónom, ktorý máte, pokiaľ ho možno pripojiť k zvukovému adaptéru vášho počítača. Vývojári systémov rozpoznávania reči však odporúčajú zakúpiť si mikrofón, ktorý bude počas prevádzky v konštantnej vzdialenosti od úst hovoriaceho.

Ak sa vzdialenosť medzi mikrofónom a ústami nezmení, potom sa príliš nezmení ani priemerná úroveň elektrického signálu prichádzajúceho z mikrofónu. To bude mať pozitívny vplyv na kvalitu moderných systémov rozpoznávania reči.

Aký je tu problém?

Človek je schopný úspešne rozpoznať reč, ktorej hlasitosť sa mení vo veľmi širokom rozsahu. Ľudský mozog je schopný odfiltrovať tichú reč od hluku, ako je hluk áut jazdiacich po ulici, cudzie rozhovory a hudba.

Čo sa týka moderných systémov rozpoznávania reči, ich schopnosti v tejto oblasti nie sú veľmi žiadúce. Ak je mikrofón na stole, potom keď otočíte hlavu alebo zmeníte polohu tela, vzdialenosť medzi vašimi ústami a mikrofónom sa zmení. Tým sa zmení výstupná úroveň mikrofónu, čo zase zníži spoľahlivosť rozpoznávania reči.

Preto pri práci so systémami rozpoznávania reči najlepšie výsledky dosiahnete, ak použijete mikrofón pripojený k slúchadlám, ako je znázornené na obr. 2-1. Pri použití takéhoto mikrofónu bude vzdialenosť medzi ústami a mikrofónom konštantná.

Upozorňujeme tiež na skutočnosť, že všetky experimenty so systémami rozpoznávania reči sa najlepšie vykonávajú v ústraní v tichej miestnosti. V tomto prípade bude vplyv rušenia minimálny. Samozrejme, ak potrebujete vybrať systém rozpoznávania reči, ktorý dokáže pracovať v podmienkach silného rušenia, potom je potrebné testy vykonať inak. Ako však autori knihy vedia, odolnosť systémov rozpoznávania reči voči šumu je stále veľmi, veľmi nízka.

Mikrofón pre nás vykonáva premenu zvukových vibrácií na vibrácie. elektrický prúd. Tieto výkyvy je možné vidieť na obrazovke osciloskopu, ale neponáhľajte sa do obchodu, aby ste si kúpili toto drahé zariadenie. Všetky oscilografické štúdie môžeme vykonávať pomocou bežného počítača vybaveného zvukovým adaptérom, napríklad adaptérom Sound Blaster. Neskôr vám povieme, ako na to.

Na obr. 2-2 sme ukázali priebeh zvukový signál, vyplývajúce z výslovnosti dlhej hlásky a. Tento priebeh bol získaný pomocou programu GoldWave, o ktorom budeme diskutovať neskôr v tejto kapitole knihy, ako aj pomocou zvukového adaptéra Sound Blaster a mikrofónu podobného tomu, ktorý je znázornený na obr. 2-1.

Ryža. 2-2. Oscilogram zvukového signálu

Program GoldWave umožňuje natiahnuť priebeh pozdĺž časovej osi, čo vám umožní vidieť tie najmenšie detaily. Na obr. 2-3 sme ukázali natiahnutý fragment oscilogramu zvuku a uvedeného vyššie.

Ryža. 2-3. Fragment oscilogramu zvukového signálu

Všimnite si, že veľkosť vstupného signálu z mikrofónu sa periodicky mení a nadobúda kladné aj záporné hodnoty.

Ak by bola vo vstupnom signáli prítomná len jedna frekvencia (teda ak by bol zvuk „čistý“), priebeh prijímaný z mikrofónu by bol sínusový. Ako sme však už povedali, spektrum zvukov ľudskej reči pozostáva zo súboru frekvencií, v dôsledku čoho má tvar oscilogramu rečového signálu ďaleko od sínusového tvaru.

Signál, ktorého veľkosť sa plynule mení s časom, budeme volať analógový signál. Toto je signál prichádzajúci z mikrofónu. Na rozdiel od analógových, digitálny signál je súbor číselných hodnôt, ktoré sa v priebehu času diskrétne menia.

Aby počítač mohol spracovať zvukový signál, musí byť prevedený z analógovej do digitálnej formy, to znamená, že je prezentovaný ako súbor číselných hodnôt. Tento proces sa nazýva analógová digitalizácia.

Digitalizácia zvukového (a akéhokoľvek analógového) signálu sa vykonáva pomocou špeciálneho zariadenia tzv analógovo-digitálny prevodník ADC (Analógovo-digitálny prevodník, ADC). Toto zariadenie sa nachádza na doske zvukového adaptéra a je to obyčajne vyzerajúci mikroobvod.

Ako funguje analógovo-digitálny prevodník?

Periodicky meria úroveň vstupného signálu a na výstup vydáva číselnú hodnotu výsledku merania. Tento proces je znázornený na obr. 2-4. Sivé obdĺžniky tu označujú hodnoty vstupného signálu merané s určitým konštantným časovým intervalom. Množina takýchto hodnôt je digitalizovaná reprezentácia vstupného analógového signálu.

Ryža. 2-4. Merania závislosti amplitúdy signálu od času

Na obr. Na obrázku 2-5 sme ukázali pripojenie analógovo-digitálneho prevodníka k mikrofónu. V tomto prípade sa analógový signál privedie na vstup x 1 a digitálny signál sa odstráni z výstupov u 1 -u n.

Ryža. 2-5. Analógovo-digitálny prevodník

Analógovo-digitálne prevodníky sa vyznačujú dvoma dôležitými parametrami - frekvenciou prevodu a počtom úrovní kvantizácie vstupného signálu. Správny výber týchto parametrov je rozhodujúci pre dosiahnutie adekvátnej digitalizácie analógového signálu.

Ako často potrebujete merať hodnotu amplitúdy vstupného analógového signálu, aby sa v dôsledku digitalizácie nestratili informácie o zmenách vstupného analógového signálu?

Zdá sa, že odpoveď je jednoduchá - vstupný signál by sa mal merať čo najčastejšie. V skutočnosti, čím častejšie analógovo-digitálny prevodník vykonáva takéto merania, tým lepšie bude sledovať najmenšie zmeny v amplitúde analógového vstupného signálu.

Príliš časté merania však môžu viesť k neodôvodnenému zvýšeniu toku digitálnych dát a plytvaniu počítačovými zdrojmi pri spracovaní signálov.

Našťastie je výber správneho konverzného pomeru (vzorkovacieho pomeru) dosť jednoduchý. Na to stačí odkázať na Kotelnikovovu vetu, ktorá je známa odborníkom v oblasti digitálneho spracovania signálov. Veta hovorí, že konverzná frekvencia musí byť dvojnásobkom maximálnej frekvencie spektra konvertovaného signálu. Preto, aby ste mohli digitalizovať bez straty kvality zvukového signálu, ktorého frekvencia leží v rozsahu 16-20 000 Hz, musíte zvoliť konverznú frekvenciu, ktorá nie je menšia ako 40 000 Hz.

Všimnite si však, že v profesionálnom audio zariadení je frekvencia prevodu zvolená niekoľkonásobne vyššia, než je špecifikovaná hodnota. Toto sa robí s cieľom dosiahnuť veľmi Vysoká kvalita digitalizovaný zvuk. Pre systémy rozpoznávania reči táto kvalita nie je relevantná, preto na túto voľbu nebudeme upozorňovať.

A aká konverzná frekvencia je potrebná na digitalizáciu zvuku ľudskej reči?

Keďže zvuky ľudskej reči ležia vo frekvenčnom rozsahu 300-4000 Hz, minimálna požadovaná konverzná frekvencia je 8000 Hz. Avšak mnohí počítačové programy rozpoznávanie reči používa štandardný konverzný pomer 44 000 Hz pre bežné zvukové adaptéry. Na jednej strane takýto konverzný pomer nevedie k nadmernému nárastu toku digitálnych dát a na druhej strane zabezpečuje dostatočne kvalitnú digitalizáciu reči.

Ešte v škole nás učili, že pri akomkoľvek meraní vznikajú chyby, ktoré sa nedajú úplne odstrániť. Takéto chyby vznikajú v dôsledku obmedzeného rozlíšenia meracích prístrojov a tiež v dôsledku skutočnosti, že samotný proces merania môže spôsobiť určité zmeny nameranej hodnoty.

Analógovo-digitálny prevodník predstavuje vstupný analógový signál ako prúd čísel s obmedzenou kapacitou. Bežné audio adaptéry obsahujú 16-bitové ADC bloky schopné reprezentovať amplitúdu vstupného signálu ako 216 = 65536 rôznych hodnôt. Zariadenia ADC v špičkových audio zariadeniach môžu byť 20-bitové, čo poskytuje väčšiu presnosť pri reprezentácii amplitúdy zvukového signálu.

Moderné systémy a programy na rozpoznávanie reči boli vytvorené pre bežné počítače vybavené bežnými zvukovými adaptérmi. Preto na vykonávanie experimentov s rozpoznávaním reči nemusíte kupovať profesionálny zvukový adaptér. Adaptér ako Sound Blaster je celkom vhodný na digitalizáciu reči pre ďalšie rozpoznávanie.

Spolu s užitočným signálom sa do mikrofónu zvyčajne dostávajú rôzne zvuky - hluk z ulice, hluk vetra, cudzie rozhovory atď. Hluk má negatívny vplyv na kvalitu systémov rozpoznávania reči, preto sa s ním treba vysporiadať. Jedným zo spôsobov, ktorý sme už spomenuli, je, že dnešné systémy rozpoznávania reči sa najlepšie používajú v tichej miestnosti, kde zostávajú osamote s počítačom.

Nie vždy sa však dajú vytvoriť ideálne podmienky, takže na odstránenie rušenia musíte použiť špeciálne metódy. Na zníženie úrovne šumu sa pri navrhovaní mikrofónov a špeciálnych filtrov používajú špeciálne triky, ktoré odstraňujú frekvencie zo spektra analógového signálu, ktoré nenesú užitočné informácie. Okrem toho sa používa taká technika, ako je kompresia dynamického rozsahu úrovní vstupného signálu.

Povedzme si o tom všetkom v poriadku.

frekvenčný filter Zariadenie, ktoré konvertuje frekvenčné spektrum analógového signálu, sa nazýva. V tomto prípade v procese transformácie dochádza k selekcii (alebo absorpcii) kmitov určitých frekvencií.

Toto zariadenie si môžete predstaviť ako akúsi čiernu skrinku s jedným vstupom a jedným výstupom. V súvislosti s našou situáciou bude na vstup frekvenčného filtra pripojený mikrofón a na výstup analógovo-digitálny prevodník.

Frekvenčné filtre sú rôzne:

dolnopriepustné filtre;

Vysokopriepustné filtre

Priepustné pásmové filtre

blokovacie pásmové filtre.

Nízkopriepustné filtre(dolnopriepustný filter) odstráni zo spektra vstupného signálu všetky frekvencie, ktorých hodnoty sú pod určitou prahovou frekvenciou v závislosti od nastavenia filtra.

Keďže zvukové signály ležia v rozsahu 16-20 000 Hz, všetky frekvencie pod 16 Hz môžu byť odrezané bez zníženia kvality zvuku. Pre rozpoznávanie reči je dôležitý frekvenčný rozsah 300-4000 Hz, takže frekvencie pod 300 Hz je možné vystrihnúť. V tomto prípade budú všetky šumy, ktorých frekvenčné spektrum leží pod 300 Hz, vyrezané zo vstupného signálu a nebudú rušiť proces rozpoznávania reči.

podobne, hornopriepustné filtre(hornopriepustný filter) vystrihne zo spektra vstupného signálu všetky frekvencie nad určitou prahovou frekvenciou.

Ľudia nemôžu počuť zvuky s frekvenciou 20 000 Hz alebo vyššou, takže môžu byť vyrezané zo spektra bez viditeľného zhoršenia kvality zvuku. Čo sa týka rozpoznávania reči, všetky frekvencie nad 4000 Hz je možné vystrihnúť, čo povedie k výraznému zníženiu úrovne vysokofrekvenčného rušenia.

Pásmový filter(pásmový filter) možno chápať ako kombináciu dolnopriepustného a hornopriepustného filtra. Takýto filter zastaví všetky frekvencie pod tzv nižšia priepustná frekvencia, ako aj vyššie frekvencia horného priechodu.

Pre systém rozpoznávania reči je teda vhodný priepustný pásmový filter, ktorý oneskoruje všetky frekvencie, okrem frekvencií v rozsahu 300-4000 Hz.

Čo sa týka pásmových zádržných filtrov (pásmových zádržných filtrov), tie umožňujú vystrihnúť zo spektra vstupného signálu všetky frekvencie, ktoré ležia v danom rozsahu. Takýto filter je vhodný napríklad na potlačenie šumu, ktorý zaberá určitú súvislú časť spektra signálu.

Na obr. 2-6 sme si ukázali zapojenie priechodného filtra.

Ryža. 2-6. Filtrovanie zvukového signálu pred digitalizáciou

Musím povedať, že bežné zvukové adaptéry nainštalované v počítači majú pásmový filter, cez ktorý prechádza analógový signál pred digitalizáciou. Šírka pásma takéhoto filtra zvyčajne zodpovedá rozsahu zvukových signálov, konkrétne 16-20 000 Hz (v rôznych zvukových adaptéroch sa hodnoty hornej a dolnej frekvencie môžu mierne líšiť).

Ako však dosiahnuť užšiu šírku pásma 300-4000 Hz, zodpovedajúcu najinformatívnejšej časti spektra ľudskej reči?

Samozrejme, ak máte záľubu v navrhovaní elektronických zariadení, môžete si vyrobiť vlastný filter z čipu operačného zosilňovača, rezistorov a kondenzátorov. Presne to urobili prví tvorcovia systémov rozpoznávania reči.

Avšak priemyselné systémy rozpoznávanie reči musí fungovať na štandardnom hardvéri počítača, takže spôsob vytvorenia špeciálneho pásmového filtra tu nie je vhodný.

Namiesto toho v moderné systémy spracovanie reči využíva tzv digitálne frekvenčné filtre implementované v softvéri. To sa stalo možným po CPU počítač sa stal dostatočne výkonným.

Digitálny frekvenčný filter implementovaný v softvéri prevádza vstupný digitálny signál na výstupný digitálny signál. Počas procesu prevodu program spracováva špeciálnym spôsobom prúd číselných hodnôt amplitúdy signálu z analógovo-digitálneho prevodníka. Výsledkom prevodu bude tiež prúd čísel, ale tento prúd bude zodpovedať už filtrovanému signálu.

Keď už hovoríme o analógovo-digitálnom prevodníku, zaznamenali sme takú dôležitú charakteristiku, ako je počet úrovní kvantizácie. Ak je v audio adaptéri nainštalovaný 16-bitový analógovo-digitálny prevodník, potom po digitalizácii môžu byť úrovne audio signálu reprezentované ako 216 = 65536 rôznych hodnôt.

Ak je málo kvantizačných úrovní, tak tzv kvantizačný šum. Na zníženie tohto šumu by vysokokvalitné systémy na digitalizáciu zvuku mali používať analógovo-digitálne prevodníky s maximálnym počtom dostupných úrovní kvantizácie.

Existuje však ďalší trik na zníženie vplyvu kvantizačného šumu na kvalitu zvukového signálu, ktorý sa používa v systémoch digitálneho záznamu zvuku. Pomocou tejto techniky prechádza signál pred digitalizáciou cez nelineárny zosilňovač, ktorý zvýrazní signály s malou amplitúdou signálu. Toto zariadenie zosilňuje slabé signály silnejší ako silný.

Toto je znázornené grafom amplitúdy výstupného signálu versus amplitúda vstupného signálu znázorneného na obr. 2-7.

Ryža. 2-7. Nelineárne zosilnenie pred digitalizáciou

V kroku konverzie digitalizovaného zvuku späť na analógový (o ktorom budeme diskutovať neskôr v tejto kapitole) sa analógový signál opäť prenesie cez nelineárny zosilňovač a potom sa dostane na výstup do reproduktorov. Tentokrát je použitý iný zosilňovač, ktorý zvýrazňuje signály s veľkou amplitúdou a má prenosovú charakteristiku (závislosť amplitúdy výstupného signálu od amplitúdy vstupného signálu), ktorá je opačná ako pri digitalizácii.

Ako to všetko môže pomôcť tvorcom systémov rozpoznávania reči?

Človek, ako viete, je celkom dobrý v rozpoznávaní reči vyslovenej tichým šepotom alebo dosť hlasným hlasom. Dá sa povedať, že dynamický rozsah úrovní hlasitosti úspešne rozpoznanej reči pre človeka je dosť široký.

Dnešný počítačové systémy Rozpoznávanie reči sa tým, žiaľ, ešte nemôže pochváliť. Aby sa však zadaný dynamický rozsah pred digitalizáciou mierne rozšíril, je možné preniesť signál z mikrofónu cez nelineárny zosilňovač, ktorého prenosová charakteristika je na obr. 2-7. Tým sa zníži úroveň kvantizačného šumu pri digitalizácii slabých signálov.

Vývojári systémov rozpoznávania reči sú opäť nútení zamerať sa predovšetkým na komerčne dostupné zvukové adaptéry. Neposkytujú vyššie opísanú nelineárnu konverziu signálu.

Je však možné vytvoriť softvérový ekvivalent nelineárneho zosilňovača, ktorý konvertuje digitalizovaný signál pred jeho odovzdaním do modulu rozpoznávania reči. A hoci takýto softvérový zosilňovač nebude schopný znížiť kvantizačný šum, dá sa použiť na zdôraznenie tých úrovní signálu, ktoré nesú najviac rečových informácií. Môžete napríklad znížiť amplitúdu slabých signálov, čím sa signál zbaví šumu.

Kompresia je jednou z najbájnejších tém v produkcii zvuku. Hovorí sa, že Beethoven dokonca vystrašil deti jej suseda :(

Dobre, v skutočnosti použitie kompresie nie je o nič ťažšie ako použitie skreslenia, hlavnou vecou je pochopiť, ako to funguje a dobré ovládanie. Čo sme teraz spolu a uistite sa.

Čo je kompresia zvuku

Prvá vec, ktorú treba pochopiť pred prípravou, je, že kompresia je pracovať s dynamickým rozsahom zvuku. A na druhej strane nie je nič iné ako rozdiel medzi najhlasnejšou a najtichšou úrovňou signálu:

Takže tu to je kompresia je kompresia dynamického rozsahu. Áno, Len kompresia dynamického rozsahu, alebo inými slovami znížte hlasitosť hlasných častí signálu a zvýšte hlasitosť tichých. Nikdy viac.

Môžete sa celkom rozumne pýtať, čo je dôvodom takéhoto humbuku? Prečo všetci hovoria o receptoch na správne vyladenie kompresora, no nikto ich nezdieľa? Prečo, napriek obrovské množstvo skvelých pluginov, používajú mnohé štúdiá stále drahé vzácne modely kompresorov? Prečo niektorí výrobcovia používajú kompresory pri extrémnych nastaveniach, zatiaľ čo iní ich nepoužívajú vôbec? A ktorý z nich má nakoniec pravdu?

Problémy, ktoré rieši kompresia

Odpovede na takéto otázky ležia v rovine pochopenia úlohy kompresie pri práci so zvukom. A umožňuje:

  1. Zdôraznite útok zvuk, urobte to výraznejším;
  2. "Usaďte" jednotlivé časti nástrojov do mixu, pridávajúc im silu a „váhu“;
  3. Urobte skupiny nástrojov alebo celý mix súdržnejšími, taký jediný monolit;
  4. Riešenie konfliktov medzi nástrojmi pomocou bočného reťazca ;
  5. Opravte nedostatky speváka alebo hudobníkov vyrovnávanie ich dynamiky;
  6. S určitým nastavením pôsobiť ako umelecký efekt.

Ako vidíte, nejde o menej významný tvorivý proces ako napríklad vymýšľanie melódií alebo hranie zaujímavých timbrov. V tomto prípade je možné ktorúkoľvek z vyššie uvedených úloh vyriešiť pomocou 4 hlavných parametrov.

Hlavné parametre kompresora

Napriek obrovskému množstvu softvérových a hardvérových modelov kompresorov sa všetky „kúzla“ kompresie vyskytujú pri správnom nastavení hlavných parametrov: Threshold, Ratio, Attack a Release. Pozrime sa na ne podrobnejšie:

Prah alebo prah, dB

Tento parameter umožňuje nastaviť hodnotu, pri ktorej bude kompresor pracovať (t.j. komprimovať audio signál). Ak teda nastavíme prahovú hodnotu na -12dB, kompresor sa spustí len v tých miestach dynamického rozsahu, ktoré túto hodnotu presahujú. Ak je všetok náš zvuk tichší ako -12db, kompresor ho jednoducho prejde sám bez toho, aby to nejako ovplyvnil.

Pomer alebo pomer strán

Parameter ratio určuje, do akej miery bude signál komprimovaný, ak prekročí prahovú hodnotu. Trochu matematiky na dokončenie obrazu: povedzme, že sme nastavili kompresor s prahovou hodnotou -12 dB, pomer 2:1 a aplikovali naň bubnová slučka, kde hlasitosť kopáku je -4dB. Aký bude v tomto prípade výsledok činnosti kompresora?

V našom prípade úroveň kopnutia presahuje prah o 8 dB. Tento rozdiel bude komprimovaný na 4dB (8dB / 2) podľa pomeru. Spolu s nespracovanou časťou signálu to povedie k tomu, že po spracovaní kompresorom bude hlasitosť kopáku -8db (prah -12dB + 4dB komprimovaný signál).

Útok, slečna

Toto je čas, po ktorom bude kompresor reagovať na prekročenie prahovej hodnoty. To znamená, ak je čas útoku vyšší ako 0 ms − kompresor začne stláčať prekročenie prahového signálu nie je okamžité, ale po stanovenom čase.

Uvoľnenie alebo zotavenie, ms

Opak útoku - hodnota tohto parametra umožňuje určiť, za ako dlho sa úroveň signálu vráti pod prahovú hodnotu kompresor prestane stláčať.

Predtým, ako sa pohneme ďalej, dôrazne odporúčam vziať dobre známu vzorku, pripojiť akýkoľvek kompresor k jeho kanálu a experimentovať s vyššie uvedenými parametrami po dobu 5-10 minút, aby sa materiál bezpečne zafixoval.

Všetky ostatné parametre sú voliteľné. Môžu sa líšiť medzi rôznymi modelmi kompresorov, čo je čiastočne dôvod, prečo výrobcovia používajú rôzne modely na akýkoľvek špecifický účel (napríklad jeden kompresor pre vokály, druhý pre skupinu bicích, tretí pre hlavný kanál). Nebudem sa podrobne zaoberať týmito parametrami, ale len uvediem všeobecné informácie aby ste pochopili o čo ide:

  • Koleno alebo zalomenie (tvrdé/mäkké koleno). Tento parameter určuje, ako rýchlo sa bude kompresný pomer (pomer) aplikovať: tvrdý na krivke alebo hladký. Podotýkam, že v režime Soft Knee kompresor nepracuje v priamom smere, ale plynulo sa spúšťa (pokiaľ je to vhodné, keď hovoríme o milisekundách), aby sprísnil zvuk už pred hodnotou prahu. Na spracovanie skupín kanálov a celkového mixu sa častejšie používa soft knee (keďže pôsobí nebadane) a hard knee sa používa na zdôraznenie útoku a iných vlastností jednotlivých nástrojov;
  • Režim odozvy: Peak/RMS. Režim Peak je opodstatnený, keď potrebujete výrazne obmedziť výbuchy amplitúdy, ako aj pri signáloch s komplexným tvarom, ktorých dynamika a čitateľnosť musia byť plne vyjadrené. RMS režim je veľmi šetrný k zvuku, umožňuje vám ho zhustiť a zároveň zachovať atak;
  • Forethought (Lookahead). Toto je čas, počas ktorého bude kompresor vedieť, čo môže očakávať. Druh predbežnej analýzy prichádzajúcich signálov;
  • Make-up alebo Gain. Parameter, ktorý umožňuje kompenzovať pokles hlasitosti v dôsledku kompresie.

Najprv a najviac hlavná rada , ktorý odstraňuje všetky ďalšie otázky o kompresii: ak a) rozumiete princípu kompresie, b) pevne viete, ako ten či onen parameter ovplyvňuje zvuk, a c) stihli ste vyskúšať niekoľko rôzne modelynepotrebujes ziadne rady.

Myslím to úplne vážne. Ak ste si pozorne prečítali tento záznam, vyskúšali ste svoj bežný kompresor DAW a jeden alebo dva pluginy, ale stále som nepochopil, v ktorých prípadoch je potrebné nastaviť veľké hodnoty útoku, aký pomer použiť a v ktorom z režimov spracovať pôvodný signál - potom budete ďalej hľadať na internete hotové recepty, bezmyšlienkovite ich používať kdekoľvek.

Recepty na jemné ladenie kompresora je to niečo ako recepty na doladenie reverbu alebo refrénu - bez akéhokoľvek významu a nemá to nič spoločné s kreativitou. Preto vytrvalo opakujem jediný pravdivý recept: vyzbrojte sa týmto článkom, dobré monitorové slúchadlá, plug-in pre vizuálnu kontrolu priebehu a strávte večer v spoločnosti niekoľkých kompresorov.

Konajte!




Hore