Дыбысты сандар ағынына түрлендіру. Сөйлеуді синтездеу және тану. Қазіргі заманғы шешімдер. Компьютерлік аудиотехника. Дыбысты сандар ағынына түрлендіру Динамикалық диапазон қысылған немесе стандартты

Серияның екінші бөлігі кескіндердің динамикалық диапазонын оңтайландыру функцияларына арналған. Онда біз сізге мұндай шешімдердің не үшін қажет екенін айтамыз, оларды жүзеге асырудың әртүрлі нұсқаларын, сондай-ақ олардың артықшылықтары мен кемшіліктерін қарастырамыз.

Шексіздікті қабылдаңыз

Ең дұрысы, камера қоршаған әлемнің бейнесін адам қалай қабылдайды, солай түсіруі керек. Дегенмен, камера мен адам көзінің «көру» механизмдері айтарлықтай ерекшеленетіндіктен, бұл шартты орындауға мүмкіндік бермейтін бірқатар шектеулер бар.

Бұрын кинокамераларды пайдаланушылар кездескен және қазір цифрлық камералардың иелері тап болып отырған мәселелердің бірі - арнайы құрылғыларды және/немесе арнайы түсіру әдістерін қолданбай, жарықтандырудағы үлкен айырмашылықтары бар көріністерді барабар түсіру мүмкін еместігі. Адамның көру жүйесінің ерекшеліктері жоғары контрастты көріністердің бөлшектерін жарқын жарықтандырылған және қараңғы жерлерде бірдей жақсы қабылдауға мүмкіндік береді. Өкінішке орай, камера сенсоры әрқашан біз көргендей суретті түсіре алмайды.

Суретке түсірілген көріністегі жарықтық айырмашылығы неғұрлым көп болса, соғұрлым бөлектелген және/немесе көлеңкелердегі бөлшектердің жоғалу ықтималдығы жоғары болады. Нәтижесінде, бұлттары бар көгілдір аспанның орнына сурет тек ақшыл дақ болып шығады, ал көлеңкеде орналасқан заттар анық емес күңгірт сұлбаларға айналады немесе қоршаған ортамен толығымен біріктіріледі.

Классикалық фотографияда ұғым фотографиялық ендік(Мәліметтер алу үшін бүйірлік тақтаны қараңыз). Теориялық тұрғыдан сандық камералардың фотографиялық ендігі аналогты-цифрлық түрлендіргіштің (ADC) разрядтық тереңдігімен анықталады. Мысалы, 8-разрядты ADC пайдаланған кезде кванттау қатесін ескере отырып, фотографиялық ендіктің теориялық қол жеткізілетін мәні 7 ЭВ болады, 12-биттік ADC үшін - 11 ЭВ және т.б. Дегенмен, нақты құрылғыларда кескіндердің динамикалық диапазоны болып шығады сағшудың әртүрлі түрлерінің және басқа факторлардың әсерінен бірдей теориялық максимум.

Жарықтық деңгейлеріндегі үлкен айырмашылық маңызды болып табылады
суретке түсіру кезіндегі мәселе. Бұл жағдайда камераның мүмкіндіктері
көпшілігінің барабар берілуі үшін жеткіліксіз болып шықты
сахнаның жарық аймақтары, нәтижесінде көк түстің орнына
аспан (инсультпен белгіленген) ақ «патч» болып шығады

Жарық сезгіш сенсор жаза алатын максималды жарықтық мәні оның ұяшықтарының қанықтылық деңгейімен анықталады. Ең төменгі мән матрицаның жылулық шуының мөлшерін, зарядты тасымалдау шуын және ADC қатесін қоса алғанда, бірнеше факторларға байланысты.

Сондай-ақ, бір сандық камераның фотографиялық ендігі параметрлерде орнатылған сезімталдық мәніне байланысты өзгеруі мүмкін екенін атап өткен жөн. Максималды динамикалық диапазонға негізгі сезімталдық деп аталатын параметрді орнату арқылы қол жеткізуге болады (ең төменгі ықтимал сандық мәнге сәйкес). Бұл параметрдің мәні өскен сайын шу деңгейінің жоғарылауына байланысты динамикалық диапазон азаяды.

Сенсорлармен жабдықталған сандық камералардың заманауи үлгілерінің фотографиялық кеңдігі үлкен өлшемжәне 14- немесе 16-биттік ADC, 9-дан 11 EV-ге дейін ауытқиды, бұл 35 мм түсті теріс қабықшалардың ұқсас сипаттамаларымен салыстырғанда айтарлықтай жоғары (орта есеппен 4-5 EV). Осылайша, тіпті салыстырмалы түрде арзан цифрлық фотоаппараттардың да көптеген әдеттегі әуесқой түсірілім көріністерін барабар жеткізу үшін жеткілікті фотографиялық ендік бар.

Дегенмен, мәселенің басқа түрі бар. Ол сандық кескіндерді жазу үшін қолданыстағы стандарттармен белгіленген шектеулермен байланысты. Түс арнасына 8 бит болатын JPEG пішімін пайдалану (бұл қазір компьютерлік индустрияда және цифрлық технологияда сандық кескіндерді жазудың іс жүзінде стандартына айналды) 8 EV-тен жоғары фотографиялық ендікпен кескінді сақтау тіпті теориялық тұрғыдан мүмкін емес.

Камераның ADC биттік тереңдігі 12 немесе 14 бит кескінді алуға мүмкіндік береді деп есептейік, ол бөлектеулерде де, көлеңкеде де көрінетін бөлшектерді қамтиды. Алайда, егер бұл кескіннің фотографиялық ендігі 8 EV-тен асатын болса, онда стандартты 8-биттік пішімге түрлендіру процесінде ешқандай қосымша әрекеттерсіз (яғни, жай ғана «қосымша» биттерді тастау арқылы) жазылған ақпараттың бір бөлігі фотосезімтал сенсор жоғалады.

Динамикалық диапазонжәне фотографиялық ендік

Қарапайым тілмен айтқанда, динамикалық диапазон кескіннің максималды жарықтық мәні мен оның ең төменгі мәніне қатынасы ретінде анықталады. Классикалық фотографияда дәстүрлі түрде фотографиялық ендік термині қолданылады, ол мәні бірдей нәрсені білдіреді.

Динамикалық диапазон енін қатынас ретінде көрсетуге болады (мысалы, 1000:1, 2500:1 және т.б.), бірақ көбінесе бұл логарифмдік масштабта орындалады. Бұл жағдайда максималды жарықтылықтың оның ең төменгі мәніне қатынасының ондық логарифмінің мәні есептеледі, ал саннан кейін бас әрпі D (ағылшын тығыздығынан? - тығыздық), немесе жиі емес пе? - OD аббревиатурасы. (ағылшын тілінен оптикалық тығыздық? - оптикалық тығыздық) орналастырылған. Мысалы, ең жоғары жарықтық мәнінің құрылғының ең төменгі мәніне қатынасы 1000:1 болса, динамикалық диапазон 3,0 D тең болады:

Фотографиялық ендіктерді өлшеу үшін дәстүрлі түрде қысқартылған EV деп аталатын экспозиция бірліктері қолданылады (экспозиция мәндері; кәсіпқойлар оларды көбінесе «тоқтату» немесе «қадам» деп атайды). Дәл осы блоктарда экспозиция өтемінің мәні әдетте камера параметрлерінде орнатылады. Фотографиялық ендік мәнін 1 ЭВ арттыру максималды және ең төменгі жарықтық деңгейлері арасындағы айырмашылықты екі еселеуге тең. Осылайша, EV шкаласы да логарифмдік болып табылады, бірақ бұл жағдайда сандық мәндерді есептеу үшін базалық 2 логарифм қолданылады.Мысалы, егер құрылғы 256:1 жарықтық қатынасының максималды және ең төменгі қатынасы бар кескіндерді түсіруге қабілетті болса, онда оның фотографиялық ендік 8 EV болады:

Қысу - ақылға қонымды ымыраға келу

Көпшілігі тиімді жолыКамераның жарық сезгіш сенсоры жазып алған кескін ақпаратының толық көлемін сақтау үшін RAW пішімінде кескіндерді жазуға болады. Дегенмен, барлық камераларда мұндай функция жоқ, және әрбір әуесқой фотограф таңдаудың қиын жұмысымен айналысуға дайын емес. жеке параметрлерәрбір түсірілген фотосурет үшін.

Камера ішінде 8 биттік JPEG форматына түрлендірілетін жоғары контрастты кескіндердің бөлшектерін жоғалту ықтималдығын азайту үшін көптеген өндірушілердің құрылғылары (тек ықшам ғана емес, сонымен қатар SLR) енгізілді. арнайы функциялар, пайдаланушының араласуынсыз сақталған кескіндердің динамикалық ауқымын қысуға мүмкіндік береді. Жалпы контрастты азайту және бастапқы кескіндегі ақпараттың кішкене бөлігін жоғалту арқылы мұндай шешімдер құрылғының фотосезімтал сенсоры 8-биттік JPEG пішімінде түсірілген бөлектеу және көлеңкелердегі мәліметтерді, тіпті динамикалық диапазонның динамикалық диапазоны болса да сақтауға мүмкіндік береді. бастапқы кескін 8 EV-тен кеңірек болып шықты.

Осы саланы дамытуда алғашқылардың бірі HP компаниясы болды. 2003 жылы шығарылған HP Photosmart 945 сандық камерасы фотосуреттердің күңгірт аймақтарындағы төмен жарық деңгейлерін автоматты түрде өтейтін және осылайша шамадан тыс экспозиция қаупінсіз көлеңке бөлшектерін сақтайтын (бұл жоғары фотосуреттерді түсіру кезінде өте маңызды) әлемдегі алғашқы HP Adaptive Lightling технологиясына ие болды. контраст көріністері). HP адаптивті жарықтандыру алгоритмі адамның көрнекі қабылдауының RETINEX теориясында ағылшын ғалымы Эдвин Лэнд белгілеген принциптерге негізделген.

HP адаптивті жарықтандыру мәзірі

Бейімделетін жарықтандыру қалай жұмыс істейді? Кескіннің 12 разрядты кескінін алғаннан кейін одан көмекші монохромды кескін алынады, ол шын мәнінде сәулелену картасы болып табылады. Кескінді өңдеу кезінде бұл карта кескінге өте күрделі сандық сүзгінің әсер ету дәрежесін реттеуге мүмкіндік беретін маска ретінде пайдаланылады. Осылайша, картаның ең қараңғы нүктелеріне сәйкес келетін аймақтарда болашақ кескіннің кескініне әсері аз болады және керісінше. Бұл тәсіл осы аумақтарды таңдамалы түрде жарықтандыру және сәйкесінше алынған кескіннің жалпы контрастын азайту арқылы көлеңке бөлшектерін ашуға мүмкіндік береді.

Адаптивті жарықтандыру қосулы кезде, аяқталған кескін файлға жазылмас бұрын түсірілген сурет жоғарыда сипатталған тәсілмен өңделетінін ескеру қажет. Барлық сипатталған әрекеттер автоматты түрде орындалады және пайдаланушы камера мәзірінде екі Adaptive Lighting жұмыс режимінің (төмен немесе жоғары экспозиция) біреуін ғана таңдай алады немесе бұл функцияны өшіре алады.

Жалпы айтқанда, қазіргі заманғы сандық камералардың көптеген нақты функциялары (соның ішінде алдыңғы мақалада талқыланған бет-әлпетті тану жүйелері) бастапқыда әскери тапсырыс берушілер үшін жүргізілген зерттеу жұмыстарының жанама өнімі немесе конверсиялық өнімі болып табылады. Кескінді динамикалық диапазонды оңтайландыру функцияларына келетін болсақ, мұндай шешімдердің ең танымал провайдерлерінің бірі - Apical. Оның қызметкерлері жасаған алгоритмдер, атап айтқанда, Olympus сандық камерасының бірқатар үлгілерінде жүзеге асырылған SAT (Көлеңкелерді реттеу технологиясы) функциясының жұмысының негізінде жатыр. Қысқаша, SAT функциясының жұмысын келесідей сипаттауға болады: кескіннің бастапқы кескіні негізінде ең қараңғы аймақтарға сәйкес маска жасалады, содан кейін осы аймақтар үшін экспозиция мәні автоматты түрде түзетіледі.

Sony сонымен қатар Apical әзірлемелерін пайдалануға лицензия алды. Cyber-shot сериясындағы және альфа сериясындағы DSLR камераларындағы ықшам камералардың көптеген үлгілері Dynamic Range Optimizer (DRO) деп аталатын функцияны жүзеге асырады.

Өшірілген HP Photosmart R927 көмегімен түсірілген фотосуреттер (жоғарғы)
және белсендірілген Бейімделетін жарықтандыру функциясы

DRO іске қосылғанда, кескінді түзету бастапқы кескінді өңдеу кезінде (яғни дайын JPEG файлын жазу алдында) орындалады. Негізгі нұсқада DRO екі сатылы параметрге ие (мәзірде стандартты немесе кеңейтілген жұмыс режимін таңдауға болады). Стандартты режимді таңдаған кезде, экспозиция деңгейлері фотосуреттің кескін талдауы негізінде реттеледі, содан кейін жалпы балансты теңестіру үшін кескінге тон қисығы қолданылады. Жетілдірілген режим көлеңкеде де, бөлектеуде де түзетуге мүмкіндік беретін күрделірек алгоритмді пайдаланады.

Sony әзірлеушілері DRO алгоритмін жақсарту үшін үнемі жұмыс істейді. Мысалы, a700 SLR камерасында кеңейтілген DRO режимі іске қосылғанда, бес түзету опциясының бірін таңдауға болады. Сонымен қатар, әртүрлі DRO параметрлерімен бір суреттің үш нұсқасын бірден сақтауға болады (жақша түрі).

Көптеген Nikon сандық камера үлгілерінде D-Lighting функциясы бар, ол да Apical алгоритмдеріне негізделген. Рас, жоғарыда сипатталған шешімдерден айырмашылығы, D-Lighting бұрын сақталған кескіндерді тональды қисық арқылы өңдеуге арналған сүзгі ретінде жүзеге асырылады, оның пішіні кескіннің басқа аймақтарын өзгеріссіз сақтай отырып, көлеңкелерді жеңілдетуге мүмкіндік береді. Бірақ бұл жағдайда дайын 8-биттік кескіндер өңделетіндіктен (және жоғары бит тереңдігі және сәйкесінше кеңірек динамикалық диапазоны бар бастапқы кадр кескіні емес), D-Lighting мүмкіндіктері өте шектеулі. Қолданушы кескінді графикалық редакторда өңдеу арқылы бірдей нәтиже ала алады.

Үлкейтілген фрагменттерді салыстыру кезінде бастапқы кескіннің күңгірт аймақтары (сол жақта) анық көрінеді.
Бейімделетін жарықтандыру функциясы қосылғанда, олар жеңілірек болды

Сондай-ақ басқа принциптерге негізделген бірқатар шешімдер бар. Осылайша, Panasonic компаниясының Lumix отбасының көптеген камералары (атап айтқанда, DMC-FX35, DMC-TZ4, DMC-TZ5, DMC-FS20, DMC-FZ18 және т.б.) жарықты тану функциясын (Intelligent Exposure) жүзеге асырады. iA интеллектуалды автоматты атуды басқару жүйесінің ажырамас бөлігі. Intelligent Exposure функциясы кадрлық кескінді автоматты талдауға және көлеңкелердегі бөлшектердің жоғалуын болдырмау үшін кескіннің күңгірт аймақтарын түзетуге, сондай-ақ (қажет болған жағдайда) жоғары контрастты көріністердің динамикалық диапазонын қысуға негізделген.

Кейбір жағдайларда динамикалық диапазонды оңтайландыру функциясы бастапқы кескін кескінін өңдеуге арналған белгілі бір операцияларды ғана емес, сонымен қатар түсіру параметрлерін түзетуді де қамтиды. Мысалы, Fujifilm сандық камераларының жаңа үлгілері (атап айтқанда, FinePix S100FS) динамикалық диапазонды (Wide Dynamic Range, WDR) кеңейту функциясын жүзеге асырады, бұл әзірлеушілердің пікірінше, фотографиялық ендікті бір немесе ұлғайтуға мүмкіндік береді. екі қадам (параметрлер терминологиясында - 200 және 400%).

WDR іске қосылғанда, камера -1 немесе -2 EV (таңдалған параметрге байланысты) экспозиция өтемімен фотосуреттерді түсіреді. Осылайша, кадрдың кескіні жеткіліксіз болып шығады - бұл ерекшеліктердегі бөлшектер туралы максималды ақпаратты сақтау үшін қажет. Содан кейін алынған кескін жалпы балансты теңестіруге және қара деңгейді реттеуге мүмкіндік беретін тондық қисық арқылы өңделеді. Содан кейін кескін 8 биттік пішімге түрлендіріліп, JPEG файлы ретінде жазылады.

Динамикалық ауқымды қысу егжей-тегжейлі ақпаратты сақтайды
жарық пен көлеңкеде, бірақ мұндай әсердің сөзсіз салдары
жалпы контрасттың төмендеуі болып табылады. Төменгі суретте
бұлттардың құрылымы әлдеқайда жақсы дамыған
төменгі контрастқа байланысты фотосуреттің бұл нұсқасы
азырақ табиғи көрінеді

Динамикалық диапазонды ұлғайту деп аталатын ұқсас функция Pentax фирмасының (Optio S12, K200D және т. Өндірушінің айтуы бойынша, Динамикалық диапазонды ұлғайту функциясын пайдалану жарықтар мен көлеңкелердегі егжей-тегжейлерді жоғалтпай кескіндердің фотографиялық ендігін 1 ЭВ арттыруға мүмкіндік береді.

Бірқатар Canon DSLR модельдерінде (EOS 40D, EOS 450D және т. Пайдаланушы нұсқаулығына сәйкес, HTP белсендіру бөлектеу мәліметтерін жақсартады (әсіресе, 0-ден 18% сұр диапазонда).

Қорытынды

Жинақтау. Кірістірілген динамикалық диапазонды сығу мүмкіндігі жоғары динамикалық диапазондағы бастапқы кескінді ең аз зақыммен 8-битке түрлендіруге мүмкіндік береді. JPEG файлы. Суреттерді RAW пішімінде сақтау опциясынсыз, Динамикалық диапазонды қысу режимі фотографтарға контрастты жоғары көріністерді түсіру кезінде камераның мүмкіндіктерін толық пайдалануға мүмкіндік береді.

Әрине, динамикалық диапазонды қысу ғажайып емдеу емес, ымыраға келу екенін есте ұстаған жөн. Бөлек нүктелердегі және/немесе көлеңкелердегі егжей-тегжейлерді сақтау кескіннің күңгірт аймақтарындағы шу деңгейін жоғарылату, оның контрастын азайту және біркелкі тональдық ауысуларды біршама дөрекілеу құнына әкеледі.

Кез келген автоматты функция сияқты, динамикалық диапазонды қысу алгоритмі кез келген фотосуретті жақсартуға мүмкіндік беретін толық әмбебап шешім емес. Сондықтан оны шынымен қажет болған жағдайда ғана белсендіру мағынасы бар. Мысалы, жақсы жобаланған фоны бар силуэтті түсіру үшін динамикалық диапазонды қысу функциясын өшіру керек - әйтпесе керемет көрініс үмітсіз бұзылады.

Осы тақырыпты қарастыруды аяқтай отырып, динамикалық диапазонды қысу функцияларын пайдалану нәтижесінде алынған кескіндегі камера сенсоры түсірмеген мәліметтерді «шығаруға» мүмкіндік бермейтінін атап өткен жөн. Жоғары контрастты көріністерді түсірген кезде қанағаттанарлық нәтижелерге қол жеткізу үшін сізге қосымша құралдарды (мысалы, пейзаждық фотосуретке арналған градиент сүзгілері) немесе арнайы әдістерді (мысалы, экспозициялық жақшамен бірнеше кадрларды түсіру, содан кейін Tone Mapping технологиясы арқылы оларды бір суретке біріктіру) пайдалану қажет болуы мүмкін. ).

Келесі мақалада жарылыс функциясына назар аударылады.

Жалғасы бар

Сұрақты ойлап көрейік - неге дыбысты көтеру керек? Біздің жағдайда естілмейтін тыныш дыбыстарды есту үшін (мысалы, егер сіз қатты тыңдай алмасаңыз, бөлмеде бөгде шу болса және т.б.). Қатты дыбыстарды жалғыз қалдырып, тыныш дыбыстарды күшейтуге бола ма? Бұл мүмкін болып шықты. Бұл әдіс динамикалық диапазонды қысу (DRC) деп аталады. Мұны істеу үшін ағымдағы дыбыс деңгейін үнемі өзгерту керек - тыныш дыбыстарды күшейтіңіз, қатты дыбыстарды - жоқ. Көлемді өзгертудің қарапайым заңы сызықтық, яғни. Дыбыс шығыс_қаттылығы = k * кіріс_қатылығы заңына сәйкес өзгереді, мұндағы k - динамикалық ауқымды қысу коэффициенті:

Сурет 18. Динамикалық диапазонды қысу.

k = 1 болғанда, ешқандай өзгерістер енгізілмейді (шығыс көлемі кіріс көлеміне тең). k< 1 громкость будет увеличиваться, а динамический диапазон - сужаться. Посмотрим на график (k=1/2) - тихий звук, имевший громкость -50дБ станет громче на 25дБ, что значительно громче, но при этом громкость диалогов (-27дБ) повысится всего лишь на 13.5дБ, а громкость самых громких звуков (0дБ) вообще не изменится. При k >1 - дыбыс деңгейі төмендейді және динамикалық диапазон артады.

Көлемдік графиктерді қарастырайық (k = 1/2: DD қысу екі еселенеді):

Сурет 19. Дыбыс қаттылығының графиктері.

Түпнұсқада көріп отырғаныңыздай, диалог деңгейінен 30 дБ төмен өте тыныш дыбыстар да, диалог деңгейінен 30 дБ жоғары өте қатты дыбыстар да болды. Бұл. динамикалық диапазон 60дБ болды. Қысылғаннан кейін қатты дыбыстар тек 15дБ жоғары, ал тыныш дыбыстар диалогқа қарағанда 15дБ төмен (динамикалық диапазон қазір 30дБ). Осылайша, қатты дыбыстар айтарлықтай тынышталды, ал тыныш дыбыстар айтарлықтай күшейді. Бұл жағдайда толып кету болмайды!

Енді гистограммаларды қарастырайық:

Сурет 20. Қысу мысалы.

Көріп отырғаныңыздай, +30дБ-ге дейін күшейту кезінде гистограмманың пішіні жақсы сақталады, бұл қатты дыбыстардың жақсы көрінетінін білдіреді (олар максимумға дейін бармайды және қарапайым күшейту кезіндегідей үзілмейді) . Бұл тыныш дыбыстарды шығарады. Гистограмма мұны нашар көрсетеді, бірақ айырмашылық құлақ арқылы өте байқалады. Бұл әдістің кемшілігі - дыбыстың бірдей секіруі. Дегенмен, олардың пайда болу механизмі кесу кезінде пайда болатын қаттылық секірулерінен ерекшеленеді және олардың сипаты әртүрлі - олар негізінен тыныш дыбыстар өте күшті күшейтілген кезде пайда болады (және қалыпты күшейту кезіндегідей қатты дыбыстар кесілгенде емес). Шамадан тыс қысу деңгейі дыбыстық суреттің тегістелуіне әкеледі - барлық дыбыстар бірдей қаттылық пен түсініксіздікке бейім.

Тыныш дыбыстарды шамадан тыс күшейту жазу шуының естілетін болуына әкелуі мүмкін. Сондықтан сүзгі шу деңгейі аз көтерілуі үшін сәл өзгертілген алгоритмді пайдаланады:

Сурет 21. Шуды арттырмай дыбыс деңгейін арттыру.

Анау. -50дБ дыбыс деңгейінде тасымалдау функциясы өзгереді және шу азырақ күшейеді (сары сызық). Мұндай иілу болмаған жағдайда, шу әлдеқайда күшті болады (сұр сызық). Бұл қарапайым модификация өте жоғары сығымдау деңгейлерінде де шуды айтарлықтай азайтады (суреттегі 1:5 қысу). Сүзгідегі «DRC» деңгейі тыныш дыбыстар үшін күшейту деңгейін орнатады (-50дБ), яғни. Суретте көрсетілген 1/5 қысу деңгейі сүзгі параметрлеріндегі +40дБ деңгейіне сәйкес келеді.

Зерттеушілер компьютерлер үшін сөйлеу интерфейсін құру мәселесін енді ғана шеше бастаған кезде, олар көбінесе аудио ақпаратты компьютерге енгізуге және оны компьютерден шығаруға мүмкіндік беретін өз жабдықтарын жасауға мәжбүр болды. Бүгінгі күні мұндай құрылғылар тек тарихи қызығушылық тудыруы мүмкін, өйткені қазіргі заманғы компьютерлер дыбыс адаптерлері, микрофондар, құлақаспаптар және динамиктер сияқты дыбысты енгізу және шығару құрылғыларымен оңай жабдықталуы мүмкін.

Біз бұл құрылғылардың ішкі құрылымының егжей-тегжейлерін қарастырмаймыз, бірақ біз олардың қалай жұмыс істейтіні туралы сөйлесеміз және сөйлеуді тану және синтездеу жүйелерімен жұмыс істеу үшін аудио компьютерлік құрылғыларды таңдау бойынша кейбір ұсыныстар береміз.

Алдыңғы тарауда айтқанымыздай, дыбыс ауа тербелісінен басқа ештеңе емес, оның жиілігі адамдар қабылдайтын жиіліктер ауқымында жатыр. Естілетін жиілік диапазонының нақты шекаралары адамнан адамға әр түрлі болуы мүмкін, бірақ дыбыс тербелістері 16-20 000 Гц диапазонында жатыр деп есептеледі.

Микрофонның мақсаты дыбыс тербелістерін электрлік тербелістерге түрлендіру болып табылады, содан кейін оларды күшейтуге, кедергілерді жою үшін сүзуге және аудио ақпаратты компьютерге енгізу үшін цифрлауға болады.

Жұмыс принципі бойынша ең көп таралған микрофондар көміртекті, электродинамикалық, конденсаторлық және электреттік болып бөлінеді. Осы микрофондардың кейбіреулері қажет сыртқы көзток (мысалы, көміртегі және конденсатор), басқалары дыбыс тербелістерінің әсерінен айнымалы электр кернеуін дербес генерациялауға қабілетті (бұл электродинамикалық және электреттік микрофондар).

Сондай-ақ микрофондарды мақсатына қарай бөлуге болады. Қолыңызда ұстауға немесе стендке орнатуға болатын студиялық микрофондар, киімге қиюға болатын радиомикрофондар және т.б.

Сондай-ақ компьютерлер үшін арнайы жасалған микрофондар бар. Мұндай микрофондар әдетте үстелдің бетіне орналастырылған тірекке орнатылады. Компьютерлік микрофондарды құлаққаптармен біріктіруге болады, суретте көрсетілген. 2-1.

Күріш. 2-1. Микрофоны бар құлаққаптар

Сөйлеуді тану жүйелеріне ең қолайлы микрофондардың алуан түрінен қалай таңдауға болады?

Негізінде, сізде бар кез келген микрофонмен тәжірибе жасай аласыз, тек ол компьютердің аудио адаптеріне қосылуы мүмкін. Дегенмен, сөйлеуді тану жүйелерін әзірлеушілер жұмыс кезінде динамиктің аузынан тұрақты қашықтықта болатын микрофонды сатып алуды ұсынады.

Егер микрофон мен ауыз қуысының ара қашықтығы өзгермесе, микрофоннан келетін электр сигналының орташа деңгейі де тым көп өзгермейді. Бұл қазіргі заманғы сөйлеуді тану жүйелерінің жұмысына оң әсер етеді.

Мәселе неде?

Адам сөйлеуді сәтті тани алады, оның көлемі өте кең ауқымда өзгереді. Адам миы тыныш сөйлеуді көшеде өтіп бара жатқан көліктердің шуы, сырттағы әңгімелер мен музыка сияқты кедергілерден сүзуге қабілетті.

Қазіргі заманғы сөйлеуді тану жүйелеріне келетін болсақ, олардың осы саладағы қабілеттері көп нәрсені қалаусыз қалдырады. Егер микрофон үстелде болса, онда сіз басыңызды бұрған кезде немесе дене қалпын өзгерткен кезде ауыз бен микрофон арасындағы қашықтық өзгереді. Бұл микрофонның шығыс деңгейін өзгертеді, бұл өз кезегінде сөзді тану сенімділігін төмендетеді.

Сондықтан, сөйлеуді тану жүйелерімен жұмыс істегенде, суретте көрсетілгендей құлаққаптарға бекітілген микрофонды пайдалансаңыз, ең жақсы нәтижелерге қол жеткізіледі. 2-1. Мұндай микрофонды пайдаланған кезде ауыз қуысы мен микрофон арасындағы қашықтық тұрақты болады.

Сондай-ақ, сөйлеуді тану жүйелерімен барлық эксперименттер тыныш бөлмеде құпиялылық жағдайында жақсы орындалатынына назар аударамыз. Бұл жағдайда кедергінің әсері аз болады. Әрине, күшті кедергі жағдайында жұмыс істей алатын сөйлеуді тану жүйесін таңдау қажет болса, сынақтарды басқаша жүргізу керек. Дегенмен, кітап авторларының білуінше, сөйлеуді тану жүйелерінің шуға қарсы иммунитеті әлі де өте төмен.

Микрофон біз үшін дыбыс толқындарын тербеліске айналдырады. электр тоғы. Бұл тербелістерді осциллограф экранында көруге болады, бірақ бұл қымбат құрылғыны сатып алу үшін дүкенге асықпаңыз. Біз барлық осциллографиялық зерттеулерді дыбыстық адаптермен жабдықталған кәдімгі компьютерді пайдалана аламыз, мысалы, Sound Blaster адаптері. Мұны қалай жасау керектігін кейінірек айтамыз.

Суретте. 2-2 осциллограмманы көрсеттік дыбыстық сигнал, ұзын а дыбысының айтылуынан туындайтын. Бұл толқын пішіні GoldWave бағдарламасының көмегімен алынды, ол туралы кітаптың осы тарауында кейінірек айтатын боламыз, сонымен қатар Sound Blaster аудио адаптері мен суретте көрсетілгенге ұқсас микрофонды пайдалану арқылы алынды. 2-1.

Күріш. 2-2. Дыбыстық сигнал осциллограммасы

GoldWave бағдарламасы осциллограмманы уақыт осі бойымен созуға мүмкіндік береді, бұл ең кішкентай бөлшектерді көруге мүмкіндік береді. Суретте. 2-3 а дыбысының жоғарыда аталған осциллограммасының созылған үзіндісін көрсеттік.

Күріш. 2-3. Дыбыстық сигналдың осциллограммасының фрагменті

Микрофоннан келетін кіріс сигналының шамасы мерзімді түрде өзгеретінін және оң және теріс мәндерді қабылдайтынын ескеріңіз.

Егер кіріс сигналында бір ғана жиілік болса (яғни дыбыс «таза» болса), микрофоннан алынған толқын пішіні синус толқыны болар еді. Дегенмен, жоғарыда айтқанымыздай, адамның сөйлеу дыбыстарының спектрі жиіліктер жиынтығынан тұрады, соның нәтижесінде сөйлеу сигналының осциллограммасының пішіні синусоидалықтан алыс.

Уақыт өте келе шамасы үздіксіз өзгеретін сигналды шақырамыз аналогтық сигнал. Дәл осы сигнал микрофоннан келеді. Аналогтан айырмашылығы, сандық сигналуақыт өте дискретті түрде өзгеретін сандық мәндердің жиынтығы.

Компьютердің дыбыстық сигналды өңдеуі үшін оны аналогтық формадан цифрлық түрге түрлендіру, яғни сандық мәндер жиыны ретінде ұсыну қажет. Бұл процесс аналогтық сигналды цифрландыру деп аталады.

Дыбыстық (және кез келген аналогты) сигналды цифрлау арнайы құрылғының көмегімен жүзеге асырылады аналогты-сандық түрлендіргіш ADC (Аналогты сандық түрлендіргіш, ADC). Бұл құрылғы дыбыс адаптерінің тақтасында орналасқан және әдеттегідей көрінетін микросұлба болып табылады.

Аналогты-сандық түрлендіргіш қалай жұмыс істейді?

Ол кіріс сигналының деңгейін мерзімді түрде өлшейді және өлшеу нәтижесінің сандық мәнін шығарады. Бұл процесс суретте көрсетілген. 2-4. Мұнда сұр төртбұрыштар белгілі бір тұрақты уақыт интервалында өлшенген кіріс сигналының мәндерін көрсетеді. Мұндай мәндердің жиынтығы кіріс аналогтық сигналының цифрланған көрінісі болып табылады.

Күріш. 2-4. Сигнал амплитудасының уақытқа қатысты өлшемдері

Суретте. 2-5 аналогты-сандық түрлендіргішті микрофонға қосуды көрсеттік. Бұл жағдайда x 1 кірісіне аналогтық сигнал беріледі, ал u 1 -u n шығыстарынан сандық сигнал жойылады.

Күріш. 2-5. Аналогты-сандық түрлендіргіш

Аналогты-цифрлық түрлендіргіштер екі маңызды параметрмен сипатталады - түрлендіру жиілігі және кіріс сигналының кванттау деңгейлерінің саны. Бұл параметрлерді дұрыс таңдау аналогтық сигналдың барабар сандық көрінісіне қол жеткізу үшін өте маңызды.

Цифрландыру нәтижесінде кіріс аналогтық сигналындағы өзгерістер туралы ақпарат жоғалып кетпеуі үшін кіріс аналогтық сигналының амплитудасын қаншалықты жиі өлшеу керек?

Жауап қарапайым болып көрінеді - кіріс сигналын мүмкіндігінше жиі өлшеу керек. Шынында да, аналогты-цифрлық түрлендіргіш мұндай өлшемдерді неғұрлым жиі орындаса, кіріс аналогтық сигналының амплитудасындағы шамалы өзгерістерді соғұрлым жақсы бақылай алады.

Дегенмен, шамадан тыс жиі өлшеулер цифрлық деректер ағынының негізсіз ұлғаюына және сигналды өңдеу кезінде компьютер ресурстарының ысырап болуына әкелуі мүмкін.

Бақытымызға орай, дұрыс түрлендіру жиілігін (іріктеу жиілігін) таңдау өте қарапайым. Ол үшін цифрлық сигналды өңдеу саласындағы мамандарға белгілі Котельников теоремасына жүгіну жеткілікті. Теорема түрлендіру жиілігі түрлендірілетін сигнал спектрінің максималды жиілігінен екі есе көп болуы керек екенін айтады. Сондықтан жиілігі 16-20 000 Гц диапазонында болатын дыбыстық сигналдың сапасын жоғалтпай цифрландыру үшін 40 000 Гц-тен кем емес түрлендіру жиілігін таңдау керек.

Дегенмен, кәсіби аудио жабдықта түрлендіру жиілігі көрсетілген мәннен бірнеше есе жоғары таңдалатынын ескеріңіз. Бұл өте қол жеткізу үшін жасалады Жоғары сапацифрланған дыбыс. Бұл сапа сөзді тану жүйелеріне қатысты емес, сондықтан біз сіздің назарыңызды осы таңдауға аудармаймыз.

Адамның сөйлеу дыбысын цифрландыру үшін қандай түрлендіру жиілігі қажет?

Адамның сөйлеу дыбыстары 300-4000 Гц жиілік диапазонында болғандықтан, ең аз қажетті түрлендіру жиілігі 8000 Гц. Дегенмен, көп компьютерлік бағдарламаларСөйлеуді тану кәдімгі аудио адаптерлері үшін 44 000 Гц стандартты түрлендіру жиілігін пайдаланады. Бір жағынан, мұндай түрлендіру жиілігі цифрлық деректер ағынының шамадан тыс артуына әкелмейді, ал екінші жағынан, сөйлеуді жеткілікті сапада цифрлауды қамтамасыз етеді.

Мектепте кез келген өлшеу кезінде қателер пайда болады, оны толығымен жою мүмкін емес деп үйрететін. Мұндай қателер өлшеу құралдарының шектеулі рұқсатымен, сонымен қатар өлшеу процесінің өзі өлшенетін шамаға кейбір өзгерістер енгізе алатындықтан туындайды.

Аналогты-цифрлық түрлендіргіш кіріс аналогтық сигналды шектеулі сыйымдылықтағы сандар ағыны ретінде көрсетеді. Кәдімгі аудио адаптерлерде кіріс сигналының амплитудасын 216 = 65536 әртүрлі мәндер ретінде көрсетуге қабілетті 16 биттік ADC блоктары бар. Жоғары сапалы дыбыстық жабдықтағы ADC құрылғылары 20 биттік болуы мүмкін, бұл дыбыс сигналының амплитудасын көрсетуде үлкен дәлдікті қамтамасыз етеді.

Кәдімгі дыбыс адаптерлерімен жабдықталған қарапайым компьютерлер үшін қазіргі заманғы сөйлеуді тану жүйелері мен бағдарламалары жасалды. Сондықтан сөйлеуді тану эксперименттерін жүргізу үшін кәсіби аудио адаптерді сатып алудың қажеті жоқ. Sound Blaster сияқты адаптер сөйлеуді одан әрі тану мақсатында цифрландыруға өте қолайлы.

Пайдалы сигналмен қатар микрофонға әдетте әртүрлі шулар кіреді - көшедегі шу, жел шуы, бөгде сөйлесулер және т.б. Шу сөйлеуді тану жүйелерінің жұмысына теріс әсер етеді, сондықтан онымен күресу керек. Біз жоғарыда бір жолды атап өттік - бүгінгі сөйлеуді тану жүйелері компьютермен жалғыз тыныш бөлмеде жақсы қолданылады.

Дегенмен, идеалды жағдайларды жасау әрқашан мүмкін емес, сондықтан кедергіден құтылу үшін арнайы әдістерді қолдану қажет. Шу деңгейін төмендету үшін микрофондарды және пайдалы ақпаратты тасымалдамайтын аналогтық сигнал спектрінен жиіліктерді алып тастайтын арнайы сүзгілерді жобалау кезінде арнайы трюктар қолданылады. Сонымен қатар, кіріс сигнал деңгейлерінің динамикалық диапазонын қысу сияқты әдіс қолданылады.

Осының барлығын ретімен айтып көрейік.

Жиілік сүзгісіаналогтық сигналдың жиілік спектрін түрлендіретін құрылғы. Бұл жағдайда түрлендіру процесі кезінде белгілі бір жиіліктердің дірілдері шығарылады (немесе жұтылады).

Сіз бұл құрылғыны бір кіріс және бір шығысы бар қара жәшік түрі ретінде елестете аласыз. Біздің жағдайымызға қатысты жиілік сүзгісінің кірісіне микрофон, ал шығысқа аналогты-цифрлық түрлендіргіш қосылады.

Әртүрлі жиілік сүзгілері бар:

· төмен өту сүзгілері;

жоғары өту сүзгілері;

· жолақты өткізу сүзгілерін жіберу;

· жолақты тоқтату сүзгілері.

Төмен өткізгіш сүзгілер(төмен жиілікті сүзгі) кіріс сигналының спектрінен сүзгі параметріне байланысты мәндері белгілі бір шекті жиіліктен төмен барлық жиіліктерді алып тастаңыз.

Дыбыстық сигналдар 16-20 000 Гц диапазонында болғандықтан, 16 Гц-тен аз барлық жиіліктерді дыбыс сапасын төмендетпей өшіруге болады. Сөйлеуді тану үшін 300-4000 Гц жиілік диапазоны маңызды, сондықтан 300 Гц-тен төмен жиіліктерді өшіруге болады. Бұл жағдайда жиілік спектрі 300 Гц-тен төмен болатын барлық кедергілер кіріс сигналынан жойылады және олар сөйлеуді тану процесіне кедергі жасамайды.

Сияқты, жоғары өту сүзгілері(жоғары өткізу сүзгісі) кіріс сигналының спектрінен белгілі бір шекті жиіліктен жоғары барлық жиіліктерді кесіп тастайды.

Адамдар 20 000 Гц және одан жоғары жиіліктегі дыбыстарды ести алмайды, сондықтан дыбыс сапасының айтарлықтай нашарлауынсыз оларды спектрден алып тастауға болады. Сөйлеуді тануға келетін болсақ, мұнда сіз 4000 Гц-тен жоғары барлық жиіліктерді кесіп тастай аласыз, бұл жоғары жиілікті кедергі деңгейінің айтарлықтай төмендеуіне әкеледі.

Жолақты өткізу сүзгісі(жолақты -өткізу сүзгісін) төмен және жоғары жиілікті сүзгінің қосындысы ретінде қарастыруға болады. Мұндай сүзгі аталған жиіліктен төмен барлық жиіліктерді кешіктіреді төменгі өту жиілігі, және де жоғарыда жоғарғы өту жиілігі.

Осылайша, 300-4000 Гц диапазонындағы жиіліктерді қоспағанда, барлық жиіліктерді кешіктіретін сөзді тану жүйесі үшін өткізу жолағы сүзгісі ыңғайлы.

Жолақты тоқтату сүзгілеріне келетін болсақ, олар кіріс сигналының спектрінен берілген диапазонда жатқан барлық жиіліктерді кесіп тастауға мүмкіндік береді. Мұндай сүзгі, мысалы, сигнал спектрінің белгілі бір үздіксіз бөлігін алып жатқан кедергілерді басу үшін ыңғайлы.

Суретте. 2-6 біз өткізу жолағы сүзгісінің қосылуын көрсеттік.

Күріш. 2-6. Цифрлау алдында дыбыстық сигналды сүзу

Айта кету керек, компьютерде орнатылған кәдімгі дыбыс адаптерлері цифрландыру алдында аналогтық сигнал өтетін жолақты өткізу сүзгісін қамтиды. Мұндай сүзгінің өткізу жолағы әдетте дыбыс сигналдарының диапазонына сәйкес келеді, атап айтқанда 16-20 000 Гц (әртүрлі аудио адаптерлерде жоғарғы және төменгі жиіліктердің мәндері шағын шектерде өзгеруі мүмкін).

Адам сөйлеу спектрінің ең ақпаратты бөлігіне сәйкес келетін 300-4000 Гц тар жолақ еніне қалай қол жеткізуге болады?

Әрине, егер сізде электронды жабдықты жобалауға бейім болсаңыз, операциялық күшейткіш чиптен, резисторлардан және конденсаторлардан өзіңіздің сүзгіңізді жасай аласыз. Сөйлеуді тану жүйелерінің алғашқы жасаушылары осылай жасады.

Дегенмен өнеркәсіптік жүйелерСөйлеуді тану жүйелері стандартты компьютерлік жабдықта жұмыс істеуі керек, сондықтан арнайы жолақ сүзгісін жасау маршруты бұл жерде қолайлы емес.

Оның орнына, в заманауи жүйелерсөйлеуді өңдеу деп аталатындарды пайдаланады сандық жиілік сүзгілері, бағдарламалық қамтамасыз етуде жүзеге асырылады. Бұл кейін мүмкін болды Орталық Есептеуіш БөлімКомпьютер айтарлықтай қуатты болды.

Бағдарламалық құралда енгізілген сандық жиілік сүзгісі кіріс цифрлық сигналды шығыс цифрлық сигналға түрлендіреді. Түрлендіру процесі кезінде бағдарлама аналогты-цифрлық түрлендіргіштен келетін сигнал амплитудасының сандық мәндерінің ағынын ерекше түрде өңдейді. Трансформацияның нәтижесі де сандар ағыны болады, бірақ бұл ағын сүзгіден өткен сигналға сәйкес болады.

Аналогты-цифрлық түрлендіргіш туралы айта отырып, біз кванттау деңгейлерінің саны сияқты маңызды сипаттаманы атап өттік. Дыбыс адаптеріне 16-биттік аналогты-цифрлық түрлендіргіш орнатылған болса, цифрландырудан кейін дыбыстық сигнал деңгейлерін 216 = 65536 түрлі мәндер ретінде көрсетуге болады.

Егер кванттау деңгейлері аз болса, онда деп аталады кванттау шуы. Бұл шуды азайту үшін жоғары сапалы дыбысты цифрландыру жүйелері қол жетімді кванттау деңгейлерінің ең көп саны бар аналогты-цифрлық түрлендіргіштерді пайдалануы керек.

Дегенмен, дыбыстық сигналдың сапасына кванттау шуының әсерін азайтудың басқа әдістемесі бар, ол цифрлық дыбыс жазу жүйелерінде қолданылады. Бұл әдістемені пайдаланған кезде, цифрландыру алдында сигнал сызықты емес күшейткіш арқылы сигнал амплитудасы төмен сигналдарға баса назар аударылады. Мұндай құрылғы күшейтеді әлсіз сигналдаркүштіден күшті.

Бұл шығыс сигнал амплитудасының кіріс сигналының амплитудасымен салыстырғандағы графигі суретте көрсетілген. 2-7.

Күріш. 2-7. Цифрландыру алдында сызықты емес күшейту

Цифрланған дыбысты аналогқа қайта түрлендіру қадамында (бұл қадамды осы тарауда кейінірек қарастырамыз) аналогтық сигнал динамиктерге шығар алдында қайтадан сызықты емес күшейткіш арқылы өтеді. Бұл жолы жоғары амплитудалық сигналдарды ерекшелендіретін және цифрландыру кезінде қолданылатынға кері (шығыс сигналының амплитудасының кіріс сигналының амплитудасына тәуелділігі) беріліс сипаттамасы бар басқа күшейткіш қолданылады.

Мұның бәрі сөйлеуді тану жүйесін жасаушыларға қалай көмектесе алады?

Белгілі болғандай, адам тыныш сыбырмен немесе өте қатты дауыспен айтылған сөзді жақсы таниды. Адам үшін сәтті танылған сөйлеудің дыбыс деңгейінің динамикалық диапазоны өте кең деп айта аламыз.

Бүгінгі компьютерлік жүйелерСөйлеуді тану, өкінішке орай, мұнымен әлі мақтана алмайды. Дегенмен, көрсетілген динамикалық диапазонды сәл кеңейту үшін цифрландырудан бұрын микрофоннан сигналды беру сипаттамасы суретте көрсетілген сызықты емес күшейткіш арқылы беруге болады. 2-7. Бұл әлсіз сигналдарды цифрлау кезінде кванттау шуының деңгейін төмендетеді.

Сөйлеуді тану жүйелерін жасаушылар, ең алдымен, коммерциялық өндірілген дыбыс адаптерлеріне назар аударуға мәжбүр. Олар жоғарыда сипатталған сызықты емес сигналды түрлендіруді қамтамасыз етпейді.

Дегенмен, цифрланған сигналды сөйлеуді тану модуліне бермес бұрын түрлендіретін сызықты емес күшейткіштің бағдарламалық эквивалентін жасауға болады. Мұндай бағдарламалық күшейткіш кванттау шуды азайта алмаса да, оны ең көп сөйлеу ақпаратын тасымалдайтын сигнал деңгейлерін ерекшелеу үшін пайдалануға болады. Мысалы, сіз әлсіз сигналдардың амплитудасын азайта аласыз, осылайша шу сигналын жоя аласыз.

Сығымдау - дыбыс шығарудағы ең мифтік тақырыптардың бірі. Бетховен онымен көршінің балаларын да қорқытты дейді:(

Жарайды, шын мәнінде, қысуды пайдалану бұрмалауды пайдаланудан қиын емес, ең бастысы оның жұмыс принципін түсіну және жақсы бақылау. Бұл енді біз бірге көретін боламыз.

Аудио қысу дегеніміз не

Дайындау алдында түсіну керек бірінші нәрсе - қысу. дыбыстың динамикалық диапазонымен жұмыс істеу. Және, өз кезегінде, ең шулы және ең тыныш сигнал деңгейлерінің арасындағы айырмашылықтан басқа ештеңе емес:

Солай, қысу – динамикалық диапазонды қысу. Иә, Жайдинамикалық диапазонды қысу немесе басқаша айтқанда сигналдың қатты бөліктерінің деңгейін төмендету және тыныш бөліктердің дыбыс деңгейін арттыру. Артық керек емес.

Сіз мұндай хайп неге байланысты деп ойлайтын шығарсыз? Неліктен барлығы компрессорды дұрыс орнатуға арналған рецепттер туралы айтады, бірақ оларды ешкім бөліспейді? Неге, қарамастан керемет плагиндердің үлкен саны, көптеген студиялар әлі де компрессорлардың қымбат, сирек үлгілерін пайдаланады ма? Неліктен кейбір өндірушілер компрессорларды экстремалды параметрлерде пайдаланады, ал басқалары оларды мүлдем пайдаланбайды? Және олардың қайсысы ең соңында дұрыс?

Қысу арқылы шешілетін мәселелер

Мұндай сұрақтарға жауаптар дыбыспен жұмыс істеудегі қысудың рөлін түсіну жазықтығында жатыр. Және ол мүмкіндік береді:

  1. Шабуылға баса назар аударыңыздыбыс, оны айқынырақ ету;
  2. Құралдардың жеке бөліктерін қоспаға «орнату»., оларға қуат пен «салмақ» қосу;