تبدیل صدا به جریانی از اعداد. سنتز و تشخیص گفتار. راه حل های مدرن تجهیزات صوتی کامپیوتر. تبدیل صدا به جریانی از اعداد محدوده پویا فشرده یا استاندارد

بخش دوم این مجموعه به عملکردهایی برای بهینه سازی محدوده دینامیکی تصاویر اختصاص دارد. در آن به شما خواهیم گفت که چرا چنین راه حل هایی مورد نیاز است، گزینه های مختلفی را برای اجرای آنها و همچنین مزایا و معایب آنها در نظر بگیرید.

بی نهایت را در آغوش بگیرید

در حالت ایده آل، یک دوربین باید تصویری از دنیای اطراف را همانطور که شخص آن را درک می کند، ثبت کند. با این حال، با توجه به این واقعیت که مکانیسم های "بینایی" دوربین و چشم انسان به طور قابل توجهی متفاوت است، تعدادی محدودیت وجود دارد که اجازه نمی دهد این شرایط برآورده شود.

یکی از مشکلاتی که قبلاً کاربران دوربین های فیلمبرداری با آن مواجه بودند و اکنون صاحبان دوربین های دیجیتال با آن مواجه هستند، ناتوانی در ثبت مناسب صحنه هایی با تفاوت های زیاد در نور بدون استفاده از دستگاه های خاص و/یا تکنیک های خاص عکسبرداری است. ویژگی‌های سیستم بینایی انسان این امکان را فراهم می‌کند که جزئیات صحنه‌های با کنتراست بالا را به خوبی در مناطق روشن و تاریک درک کنید. متأسفانه، سنسور دوربین همیشه قادر به گرفتن تصویر به شکلی که ما می بینیم نیست.

هرچه تفاوت روشنایی در صحنه عکاسی شده بیشتر باشد، احتمال از دست دادن جزئیات در هایلایت ها و/یا سایه ها بیشتر می شود. در نتیجه، به جای یک آسمان آبی با ابرهای سرسبز، تصویر فقط یک نقطه سفید رنگ است و اشیاء واقع در سایه ها به شبح های تیره نامشخص تبدیل می شوند یا کاملاً با محیط اطراف ادغام می شوند.

در عکاسی کلاسیک، مفهوم عرض جغرافیایی عکاسی(برای جزئیات بیشتر به نوار کناری مراجعه کنید). از نظر تئوری، عرض جغرافیایی عکاسی دوربین های دیجیتال با عمق بیت مبدل آنالوگ به دیجیتال (ADC) تعیین می شود. به عنوان مثال، هنگام استفاده از یک ADC 8 بیتی، با در نظر گرفتن خطای کوانتیزاسیون، مقدار تئوری قابل دستیابی عرض جغرافیایی عکاسی 7 EV خواهد بود، برای یک ADC 12 بیتی - 11 EV و غیره. با این حال، در دستگاه های واقعی، محدوده دینامیکی تصاویر مشخص می شود درهمان حداکثر نظری به دلیل تأثیر انواع مختلف نویز و عوامل دیگر.

تفاوت زیاد در سطوح روشنایی نشان دهنده یک امر جدی است
مشکل هنگام عکس گرفتن در این صورت قابلیت های دوربین
معلوم شد که برای انتقال کافی ناکافی است
مناطق روشن صحنه، و در نتیجه، به جای یک منطقه آبی
آسمان (مشخص شده با سکته مغزی) به نظر می رسد که یک "لکه" سفید است

حداکثر مقدار روشنایی که یک سنسور حساس به نور می تواند ثبت کند، با سطح اشباع سلول های آن تعیین می شود. حداقل مقدار به عوامل مختلفی از جمله میزان نویز حرارتی ماتریس، نویز انتقال شارژ و خطای ADC بستگی دارد.

همچنین شایان ذکر است که عرض جغرافیایی عکاسی همان دوربین دیجیتال بسته به مقدار حساسیت تنظیم شده در تنظیمات می تواند متفاوت باشد. حداکثر دامنه دینامیکی با تنظیم به اصطلاح حساسیت پایه (مطابق با حداقل مقدار عددی ممکن) قابل دستیابی است. با افزایش مقدار این پارامتر، محدوده دینامیکی به دلیل افزایش سطح نویز کاهش می یابد.

وسعت عکاسی مدل های مدرن دوربین های دیجیتال مجهز به سنسور سایز بزرگو ADC های 14 یا 16 بیتی، از 9 تا 11 EV متغیر است، که در مقایسه با ویژگی های مشابه فیلم های نگاتیو رنگی 35 میلی متری (متوسط ​​4 تا 5 EV) به طور قابل توجهی بالاتر است. بنابراین، حتی دوربین‌های دیجیتال نسبتا ارزان نیز دارای عرض جغرافیایی عکاسی کافی برای انتقال مناسب اکثر صحنه‌های معمولی عکسبرداری آماتور هستند.

با این حال، یک مشکل از نوع دیگری وجود دارد. این با محدودیت های اعمال شده توسط استانداردهای موجود برای ضبط تصاویر دیجیتال همراه است. با استفاده از فرمت JPEG با 8 بیت در هر کانال رنگی (که اکنون به استاندارد واقعی برای ضبط تصاویر دیجیتال در صنعت کامپیوتر و فناوری دیجیتال تبدیل شده است)، حتی از نظر تئوری ذخیره تصویری با عرض جغرافیایی عکاسی بیشتر از 8 EV غیرممکن است.

بیایید فرض کنیم که ADC دوربین به شما امکان می دهد تصویری با عمق کمی 12 یا 14 بیت به دست آورید که حاوی جزئیات قابل تشخیص در نقاط برجسته و سایه است. با این حال، اگر عرض جغرافیایی عکاسی این تصویر از 8 EV بیشتر شود، در فرآیند تبدیل به فرمت استاندارد 8 بیتی بدون هیچ گونه اقدام اضافی (یعنی صرفاً با دور انداختن بیت‌های اضافی)، بخشی از اطلاعات ثبت شده توسط حسگر حساس به نور از بین خواهد رفت.

محدوده دینامیکیو عرض جغرافیایی عکاسی

به بیان ساده، محدوده پویا به عنوان نسبت حداکثر مقدار روشنایی یک تصویر به مقدار حداقل آن تعریف می شود. در عکاسی کلاسیک، اصطلاح عرض جغرافیایی عکاسی به طور سنتی استفاده می شود که در اصل به همان معنی است.

عرض دامنه دینامیکی را می توان به عنوان یک نسبت بیان کرد (به عنوان مثال، 1000:1، 2500:1، و غیره)، اما اغلب این کار در مقیاس لگاریتمی انجام می شود. در این حالت، مقدار لگاریتم اعشاری نسبت حداکثر روشنایی به مقدار حداقل آن محاسبه می شود و بعد از عدد، حرف بزرگ D (از چگالی انگلیسی؟ - چگالی)، یا کمتر؟ - مخفف OD محاسبه می شود. (از چگالی نوری انگلیسی؟ - چگالی نوری) قرار داده شده است. به عنوان مثال، اگر نسبت مقدار حداکثر روشنایی به حداقل مقدار یک دستگاه 1000:1 باشد، محدوده دینامیکی برابر با 3.0 D خواهد بود:

برای اندازه‌گیری عرض جغرافیایی عکاسی، به‌اصطلاح واحدهای نوردهی به‌طور سنتی استفاده می‌شود که به اختصار EV نامیده می‌شوند (مقادیر نوردهی؛ متخصصان اغلب آنها را «توقف» یا «گام» می‌نامند. در این واحدها است که مقدار جبران نوردهی معمولاً در تنظیمات دوربین تنظیم می شود. افزایش عرض جغرافیایی عکاسی به میزان 1 EV معادل دو برابر کردن اختلاف بین حداکثر و حداقل سطح روشنایی است. بنابراین، مقیاس EV نیز لگاریتمی است، اما در این مورد از لگاریتم پایه 2 برای محاسبه مقادیر عددی استفاده می شود، به عنوان مثال، اگر دستگاهی قادر به گرفتن تصاویر با نسبت روشنایی حداکثر به حداقل 256:1 باشد، آنگاه عرض جغرافیایی عکاسی 8 EV خواهد بود:

فشرده سازی یک مصالحه معقول است

اکثر راه موثربرای حفظ کامل اطلاعات تصویر ثبت شده توسط حسگر حساس به نور دوربین، امکان ضبط تصاویر با فرمت RAW وجود دارد. با این حال، همه دوربین ها چنین عملکردی ندارند و هر عکاس آماتوری آماده نیست که در کار پر زحمت انتخاب شرکت کند. تنظیمات فردیبرای هر عکس گرفته شده

برای کاهش احتمال از دست دادن جزئیات تصاویر با کنتراست بالا تبدیل شده در داخل دوربین به JPEG 8 بیتی، دستگاه هایی از بسیاری از سازندگان (نه تنها کامپکت، بلکه SLR) معرفی شده اند. توابع ویژه، به شما امکان می دهد محدوده دینامیکی تصاویر ذخیره شده را بدون دخالت کاربر فشرده کنید. با کاهش کنتراست کلی و از دست دادن بخش کوچکی از اطلاعات در تصویر اصلی، چنین راه حل هایی امکان حفظ جزئیات در نقاط برجسته و سایه های ثبت شده توسط سنسور حساس به نور دستگاه در فرمت 8 بیتی JPEG را حتی در محدوده دینامیکی فراهم می کند. تصویر اصلی عریض تر از 8 EV بود.

یکی از پیشگامان توسعه این حوزه، شرکت HP بود. دوربین دیجیتال HP Photosmart 945 که در سال 2003 عرضه شد، دارای اولین فناوری HP Adaptive Lightling در جهان بود که به طور خودکار سطوح نور کم را در مناطق تاریک عکس ها جبران می کند و بنابراین جزئیات سایه را بدون خطر نوردهی بیش از حد (که در عکاسی با نور زیاد بسیار مهم است) حفظ می کند. صحنه های کنتراست). الگوریتم نور تطبیقی ​​HP بر اساس اصولی است که توسط دانشمند انگلیسی ادوین لند در نظریه رتینکس ادراک بصری انسان تعیین شده است.

منوی HP Adaptive Lighting

نور تطبیقی ​​چگونه کار می کند؟ پس از به دست آوردن یک تصویر 12 بیتی از تصویر، یک تصویر تک رنگ کمکی از آن استخراج می شود که در واقع یک نقشه تابشی است. هنگام پردازش یک تصویر، این کارت به عنوان یک ماسک استفاده می شود و به شما امکان می دهد درجه نفوذ یک فیلتر دیجیتال نسبتا پیچیده را بر روی تصویر تنظیم کنید. بنابراین، در مناطق مربوط به تاریک ترین نقاط نقشه، تاثیر بر تصویر تصویر آینده حداقل است و بالعکس. این رویکرد اجازه می دهد تا جزئیات سایه با روشن کردن انتخابی این مناطق و بر این اساس، کاهش کنتراست کلی تصویر حاصل آشکار شود.

لازم به ذکر است که وقتی Adaptive Lighting فعال است، تصویر گرفته شده به روشی که در بالا توضیح داده شد پردازش می شود، قبل از اینکه تصویر تمام شده در یک فایل نوشته شود. تمام عملیات توصیف شده به طور خودکار انجام می شود و کاربر فقط می تواند یکی از دو حالت عملکرد نور تطبیقی ​​(نور کم یا زیاد) را در منوی دوربین انتخاب کند یا این عملکرد را غیرفعال کند.

به طور کلی، بسیاری از عملکردهای خاص دوربین های دیجیتال مدرن (از جمله سیستم های تشخیص چهره که در مقاله قبلی مورد بحث قرار گرفت) نوعی محصول جانبی یا محصول تبدیلی کار تحقیقاتی است که در ابتدا برای مشتریان نظامی انجام می شد. وقتی صحبت از توابع بهینه‌سازی محدوده پویا تصویر می‌شود، یکی از شناخته‌شده‌ترین ارائه‌دهندگان چنین راه‌حل‌هایی Apical است. الگوریتم های ایجاد شده توسط کارکنان آن، به ویژه، زیربنای عملکرد SAT (فناوری تنظیم سایه) است که در تعدادی از مدل های دوربین دیجیتال Olympus پیاده سازی شده است. به طور خلاصه، عملکرد تابع SAT را می توان به شرح زیر توصیف کرد: بر اساس تصویر اصلی تصویر، یک ماسک مربوط به تاریک ترین مناطق ایجاد می شود و سپس مقدار نوردهی به طور خودکار برای این مناطق تصحیح می شود.

سونی همچنین مجوز استفاده از پیشرفت های اپیکال را به دست آورد. بسیاری از مدل‌های دوربین‌های کامپکت در سری Cyber-shot و در دوربین‌های DSLR در سری آلفا، عملکرد بهینه‌ساز محدوده دینامیکی (DRO) را اجرا می‌کنند.

عکس‌های گرفته شده با خاموش بودن HP Photosmart R927 (بالا)
و عملکرد Adaptive Lighting را فعال کرد

هنگامی که DRO فعال می شود، تصحیح تصویر در طول پردازش اولیه تصویر (یعنی قبل از ضبط فایل JPEG تمام شده) انجام می شود. در نسخه اصلی، DRO دارای تنظیمات دو مرحله ای است (شما می توانید یک حالت استاندارد یا پیشرفته عملکرد را در منو انتخاب کنید). هنگامی که حالت استاندارد را انتخاب می کنید، سطوح نوردهی بر اساس تجزیه و تحلیل تصویر عکس تنظیم می شود و سپس یک منحنی تن روی تصویر اعمال می شود تا تعادل کلی را یکنواخت کند. حالت پیشرفته از الگوریتم پیچیده تری استفاده می کند که امکان تصحیح در سایه ها و هایلایت ها را فراهم می کند.

توسعه دهندگان سونی به طور مداوم در حال تلاش برای بهبود الگوریتم DRO هستند. به عنوان مثال، در دوربین SLR a700، زمانی که حالت پیشرفته DRO فعال می شود، امکان انتخاب یکی از پنج گزینه اصلاح وجود دارد. علاوه بر این، امکان ذخیره سه نسخه از یک تصویر به طور همزمان (نوعی براکتینگ) با تنظیمات مختلف DRO وجود دارد.

بسیاری از مدل‌های دوربین دیجیتال نیکون دارای عملکرد D-Lighting هستند که همچنین بر اساس الگوریتم‌های آپیکال است. درست است، برخلاف راه حل هایی که در بالا توضیح داده شد، D-Lighting به عنوان فیلتری برای پردازش تصاویر ذخیره شده قبلی با استفاده از یک منحنی تونال اجرا می شود، شکلی که به شما امکان می دهد سایه ها را سبک تر کنید، در حالی که مناطق دیگر تصویر را بدون تغییر نگه دارید. اما از آنجایی که در این مورد تصاویر 8 بیتی آماده پردازش می شوند (و نه تصویر فریم اصلی که عمق بیت بالاتر و بر این اساس دامنه دینامیکی وسیع تری دارد)، قابلیت های D-Lighting بسیار محدود است. کاربر می تواند با پردازش تصویر در یک ویرایشگر گرافیکی به همان نتیجه برسد.

هنگام مقایسه قطعات بزرگ شده، به وضوح قابل مشاهده است که مناطق تاریک تصویر اصلی (سمت چپ)
وقتی عملکرد Adaptive Lighting روشن شد، آنها سبک تر شدند

همچنین تعدادی راه حل بر اساس اصول دیگر وجود دارد. بنابراین، بسیاری از دوربین‌های خانواده Lumix از پاناسونیک (به ویژه DMC-FX35، DMC-TZ4، DMC-TZ5، DMC-FS20، DMC-FZ18، و غیره) عملکرد تشخیص نور (نوردهی هوشمند) را اجرا می‌کنند. بخش جدایی ناپذیر سیستم iA کنترل تیراندازی خودکار هوشمند. عملکرد نوردهی هوشمند مبتنی بر تجزیه و تحلیل خودکار تصویر قاب و تصحیح نواحی تاریک تصویر برای جلوگیری از از دست دادن جزئیات در سایه‌ها و همچنین (در صورت لزوم) فشرده‌سازی محدوده دینامیکی صحنه‌های با کنتراست بالا است.

در برخی موارد، عملکرد بهینه‌سازی محدوده پویا نه تنها شامل عملیات خاصی برای پردازش تصویر اصلی، بلکه اصلاح تنظیمات تصویربرداری نیز می‌شود. به عنوان مثال، مدل های جدید دوربین های دیجیتال فوجی فیلم (به ویژه FinePix S100FS) عملکردی را برای گسترش دامنه دینامیکی (Wide Dynamic Range، WDR) اجرا می کنند که به گفته توسعه دهندگان، به شما امکان می دهد عرض جغرافیایی عکاسی را یک یا یک افزایش دهید. دو مرحله (در اصطلاحات تنظیمات - 200 و 400٪).

هنگامی که WDR فعال می شود، دوربین با جبران نوردهی -1 یا -2 EV (بسته به تنظیم انتخاب شده) عکس می گیرد. بنابراین، تصویر قاب کم نور می شود - این برای حفظ حداکثر اطلاعات در مورد جزئیات در هایلایت ضروری است. سپس تصویر حاصل با استفاده از یک منحنی تن پردازش می‌شود، که به شما امکان می‌دهد تعادل کلی را یکسان کرده و سطح سیاهی را تنظیم کنید. سپس تصویر به فرمت 8 بیتی تبدیل شده و به صورت فایل JPEG ضبط می شود.

فشرده سازی دامنه دینامیکی جزئیات بیشتری را حفظ می کند
در نور و سایه، اما نتیجه اجتناب ناپذیر چنین قرار گرفتن در معرض
کاهش کنتراست کلی است. در تصویر پایین
با این حال، بافت ابرها بسیار بهتر توسعه یافته است
به دلیل کنتراست کمتر، این نسخه از عکس
کمتر طبیعی به نظر می رسد

عملکرد مشابهی به نام Dynamic Range Enlargement در تعدادی از دوربین های کامپکت و SLR Pentax (Optio S12، K200D و غیره) اجرا شده است. به گفته سازنده، استفاده از عملکرد Dynamic Range Enlargement به شما این امکان را می دهد که عرض جغرافیایی عکس ها را تا 1 EV بدون از دست دادن جزئیات در هایلایت ها و سایه ها افزایش دهید.

عملکرد مشابهی به نام Highlight tone priority (HTP) در تعدادی از مدل‌های Canon DSLR (EOS 40D، EOS 450D و غیره) اجرا می‌شود. طبق دفترچه راهنمای کاربر، فعال کردن HTP جزئیات برجسته را بهبود می بخشد (به ویژه در محدوده 0 تا 18 درصد خاکستری).

نتیجه

بیایید خلاصه کنیم. فشرده‌سازی محدوده دینامیکی داخلی به شما امکان می‌دهد تصویر منبع محدوده دینامیکی بالا را با حداقل آسیب به ۸ بیت تبدیل کنید. فایل JPEG. بدون گزینه ذخیره تصاویر در فرمت RAW، حالت فشرده‌سازی دامنه پویا به عکاسان اجازه می‌دهد تا هنگام عکاسی از صحنه‌هایی با کنتراست بالا، از پتانسیل دوربین خود به‌طور کامل‌تر استفاده کنند.

البته، مهم است که به یاد داشته باشید که فشرده سازی محدوده دینامیکی یک درمان معجزه آسا نیست، بلکه یک سازش است. حفظ جزئیات در هایلایت ها و/یا سایه ها به بهای افزایش سطح نویز در نواحی تاریک تصویر، کاهش کنتراست آن و تا حدودی درشت تر شدن تغییرات رنگی صاف است.

مانند هر عملکرد خودکار، الگوریتم فشرده سازی دامنه پویا یک راه حل کاملاً جهانی نیست که به شما امکان می دهد کاملاً هر عکسی را بهبود دهید. بنابراین، فعال کردن آن فقط در مواردی که واقعا ضروری است منطقی است. به عنوان مثال، برای عکاسی از یک شبح با پس زمینه ای خوب، باید عملکرد فشرده سازی محدوده دینامیکی خاموش شود - در غیر این صورت صحنه تماشایی به طرز ناامیدکننده ای از بین می رود.

در پایان بررسی این موضوع، باید توجه داشت که استفاده از توابع فشرده‌سازی محدوده پویا به ما اجازه نمی‌دهد تا جزئیاتی را که توسط سنسور دوربین ثبت نشده‌اند، در تصویر به دست آمده بیرون بکشیم. برای دستیابی به نتایج رضایت‌بخش هنگام عکاسی از صحنه‌های با کنتراست بالا، ممکن است لازم باشد از ابزارهای اضافی (مانند فیلترهای گرادیان برای عکاسی منظره) یا تکنیک‌های خاص (مانند عکاسی از چندین فریم با براکت نوردهی و سپس ادغام آنها در یک تصویر با استفاده از فناوری Tone Mapping) استفاده کنید. ).

مقاله بعدی بر روی تابع انفجار تمرکز خواهد کرد.

ادامه دارد

بیایید به این سوال فکر کنیم - چرا باید صدا را زیاد کنیم؟ به منظور شنیدن صداهای آرامی که در شرایط ما قابل شنیدن نیستند (مثلاً اگر نمی توانید با صدای بلند گوش کنید، اگر صدای اضافی در اتاق وجود دارد و غیره). آیا می توان صداهای آرام را در حالی که صداهای بلند را تنها گذاشت، تقویت کرد؟ معلوم می شود امکان پذیر است. این تکنیک فشرده سازی محدوده دینامیکی (DRC) نامیده می شود. برای انجام این کار، باید صدای فعلی را به طور مداوم تغییر دهید - صداهای آرام را تقویت کنید، صداهای بلند - نه. ساده ترین قانون تغییر حجم خطی است، یعنی. حجم با توجه به قانون output_loudness = k * input_loudness تغییر می کند، که k نسبت فشرده سازی محدوده دینامیکی است:

شکل 18. فشرده سازی محدوده دینامیکی.

هنگامی که k = 1، هیچ تغییری ایجاد نمی شود (حجم خروجی برابر با حجم ورودی است). در k< 1 громкость будет увеличиваться, а динамический диапазон - сужаться. Посмотрим на график (k=1/2) - тихий звук, имевший громкость -50дБ станет громче на 25дБ, что значительно громче, но при этом громкость диалогов (-27дБ) повысится всего лишь на 13.5дБ, а громкость самых громких звуков (0дБ) вообще не изменится. При k >1 - ولوم کاهش می یابد و دامنه دینامیکی افزایش می یابد.

بیایید به نمودارهای حجم نگاه کنیم (k = 1/2: فشرده سازی DD دو برابر شده است):

شکل 19. نمودارهای بلندی صدا.

همانطور که می بینید در نسخه اصلی هر دو صداهای بسیار آرام، 30 دسی بل زیر سطح دیالوگ، و صداهای بسیار بلند - 30 دسی بل بالاتر از سطح دیالوگ وجود داشت. که محدوده دینامیکی 60dB بود. پس از فشرده سازی، صداهای بلند فقط 15 دسی بل بالاتر هستند و صداهای آرام 15 دسی بل کمتر از دیالوگ هستند (محدوده پویا اکنون 30 دسی بل است). بنابراین، صداهای بلند به طور قابل توجهی آرام تر شدند و صداهای آرام به طور قابل توجهی بلندتر شدند. در این صورت سرریز وجود ندارد!

حال بیایید به هیستوگرام ها نگاه کنیم:

شکل 20. نمونه فشرده سازی.

همانطور که به وضوح می بینید، با تقویت تا +30dB، شکل هیستوگرام به خوبی حفظ می شود، به این معنی که صداهای بلند به خوبی بیان می شوند (به حداکثر نمی رسند و قطع نمی شوند، همانطور که با تقویت ساده اتفاق می افتد). . این صداهای آرام تولید می کند. هیستوگرام این را ضعیف نشان می دهد، اما این تفاوت در گوش بسیار محسوس است. عیب این روش همین پرش های حجمی است. با این حال، مکانیسم وقوع آنها با جهش های بلندی که در حین برش اتفاق می افتد متفاوت است و شخصیت آنها متفاوت است - آنها عمدتاً زمانی ظاهر می شوند که صداهای آرام بسیار قوی هستند (و نه زمانی که صداهای بلند قطع می شوند، مانند تقویت معمولی). سطح بیش از حد فشرده سازی منجر به صاف شدن تصویر صدا می شود - همه صداها بلندی و بی بیانی یکسانی دارند.

تقویت بیش از حد صداهای آرام ممکن است باعث شنیده شدن نویز ضبط شود. بنابراین، فیلتر از یک الگوریتم کمی اصلاح شده استفاده می کند تا سطح نویز کمتر افزایش یابد:

شکل 21. افزایش حجم بدون افزایش نویز.

آن ها در سطح ولوم 50- دسی بل، تابع انتقال تغییر می کند و نویز کمتر تقویت می شود (خط زرد). در صورت عدم وجود چنین خمشی، نویز بسیار بلندتر خواهد بود (خط خاکستری). این اصلاح ساده به میزان قابل توجهی میزان نویز را حتی در سطوح فشرده سازی بسیار بالا کاهش می دهد (فشرده سازی 1:5 در تصویر). سطح "DRC" در فیلتر سطح بهره را برای صداهای آرام (در -50dB) تنظیم می کند. سطح فشرده سازی 1/5 نشان داده شده در شکل با سطح +40dB در تنظیمات فیلتر مطابقت دارد.

در زمانی که محققان تازه شروع به حل مشکل ایجاد یک رابط گفتاری برای رایانه‌ها کرده بودند، اغلب مجبور بودند تجهیزات خود را بسازند که به اطلاعات صوتی اجازه ورود به رایانه و همچنین خروجی آن از رایانه را بدهد. امروزه، چنین دستگاه‌هایی ممکن است تنها مورد توجه تاریخی باشند، زیرا رایانه‌های مدرن به راحتی می‌توانند به دستگاه‌های ورودی و خروجی صدا مانند آداپتورهای صدا، میکروفون، هدفون و بلندگو مجهز شوند.

ما به جزئیات ساختار داخلی این دستگاه ها نخواهیم پرداخت، اما در مورد نحوه عملکرد آنها صحبت خواهیم کرد و توصیه هایی برای انتخاب دستگاه های رایانه صوتی برای کار با سیستم های تشخیص و سنتز گفتار ارائه خواهیم داد.

همانطور که قبلاً در فصل قبل گفتیم، صدا چیزی نیست جز ارتعاشات هوا که فرکانس آن در محدوده فرکانس های درک شده توسط انسان قرار دارد. مرزهای دقیق محدوده فرکانس شنیداری ممکن است از فردی به فرد دیگر متفاوت باشد، اما اعتقاد بر این است که ارتعاشات صدا در محدوده 16 تا 20000 هرتز قرار دارند.

هدف از میکروفون تبدیل ارتعاشات صوتی به ارتعاشات الکتریکی است که سپس می توان آن را تقویت کرد، برای حذف تداخل فیلتر کرد و برای ورودی اطلاعات صوتی به رایانه دیجیتالی کرد.

بر اساس اصل عملکرد، رایج ترین میکروفون ها به کربن، الکترودینامیک، کندانسور و الکترت تقسیم می شوند. برخی از این میکروفون ها نیاز دارند منبع خارجیجریان (به عنوان مثال، کربن و کندانسور)، دیگران، تحت تأثیر ارتعاشات صوتی، قادر به تولید ولتاژ الکتریکی متناوب به طور مستقل هستند (اینها میکروفون های الکترودینامیک و الکترود هستند).

همچنین می توانید میکروفون ها را بر اساس هدفشان جدا کنید. میکروفون‌های استودیویی وجود دارند که می‌توان آن‌ها را در دست گرفت یا روی پایه نصب کرد، میکروفون‌های رادیویی وجود دارند که می‌توان آن‌ها را روی لباس گیر کرد و غیره.

همچنین میکروفون هایی وجود دارد که به طور خاص برای رایانه ها طراحی شده اند. چنین میکروفون هایی معمولاً روی پایه ای که روی سطح میز قرار می گیرد نصب می شوند. همانطور که در شکل نشان داده شده است، میکروفون های کامپیوتری را می توان با هدفون ترکیب کرد. 2-1.

برنج. 2-1. هدفون با میکروفون

چگونه می‌توانید از میان انواع میکروفون‌هایی که برای سیستم‌های تشخیص گفتار مناسب هستند، انتخاب کنید؟

در اصل، می‌توانید با هر میکروفونی که دارید آزمایش کنید، به شرطی که بتوان آن را به آداپتور صوتی رایانه‌تان متصل کرد. با این حال، توسعه دهندگان سیستم های تشخیص گفتار، خرید میکروفونی را توصیه می کنند که در حین کار، در فاصله ثابتی از دهان گوینده باشد.

اگر فاصله بین میکروفون و دهان تغییر نکند، میانگین سطح سیگنال الکتریکی که از میکروفون می‌آید نیز تغییر زیادی نخواهد کرد. این تأثیر مثبتی بر عملکرد سیستم‌های تشخیص گفتار مدرن خواهد داشت.

مشکل چیست؟

یک فرد قادر به تشخیص موفقیت آمیز گفتار است که حجم آن در محدوده بسیار گسترده ای متفاوت است. مغز انسان قادر است گفتار آرام را از تداخل، مانند سر و صدای اتومبیل در حال عبور در خیابان، مکالمات بیرونی و موسیقی فیلتر کند.

در مورد سیستم‌های تشخیص گفتار مدرن، توانایی‌های آن‌ها در این زمینه بسیار مورد نظر است. اگر میکروفون روی میز باشد، وقتی سر خود را بچرخانید یا وضعیت بدن خود را تغییر دهید، فاصله بین دهان و میکروفون تغییر می کند. این باعث تغییر سطح خروجی میکروفون می شود که به نوبه خود باعث کاهش قابلیت اطمینان تشخیص گفتار می شود.

بنابراین، هنگام کار با سیستم‌های تشخیص گفتار، در صورت استفاده از میکروفون متصل به هدفون، همانطور که در شکل نشان داده شده است، بهترین نتایج حاصل می‌شود. 2-1. هنگام استفاده از چنین میکروفونی، فاصله دهان و میکروفون ثابت خواهد بود.

ما همچنین توجه شما را به این واقعیت جلب می‌کنیم که همه آزمایش‌ها با سیستم‌های تشخیص گفتار بهتر است در خلوت و در یک اتاق ساکت انجام شوند. در این حالت، تأثیر تداخل حداقل خواهد بود. البته، اگر شما نیاز به انتخاب یک سیستم تشخیص گفتار دارید که بتواند در شرایط تداخل شدید عمل کند، باید آزمایش‌ها متفاوت انجام شود. با این حال، تا آنجا که نویسندگان کتاب می‌دانند، ایمنی سیستم‌های تشخیص گفتار در برابر نویز هنوز بسیار بسیار پایین است.

میکروفون امواج صوتی را برای ما به ارتعاش تبدیل می کند. جریان الکتریسیته. این نوسانات را می توان در صفحه نمایش اسیلوسکوپ مشاهده کرد، اما برای خرید این دستگاه گران قیمت به فروشگاه عجله نکنید. ما می‌توانیم تمام مطالعات اسیلوگرافی را با استفاده از یک رایانه معمولی مجهز به آداپتور صدا، به عنوان مثال، آداپتور Sound Blaster انجام دهیم. بعداً به شما خواهیم گفت که چگونه این کار را انجام دهید.

در شکل 2-2 اسیلوگرام را نشان دادیم سیگنال صوتی، ناشی از تلفظ صدای بلند الف. این شکل موج با استفاده از برنامه GoldWave که در ادامه در این فصل از کتاب در مورد آن صحبت خواهیم کرد و همچنین با استفاده از آداپتور صوتی Sound Blaster و میکروفون مشابه آنچه در شکل نشان داده شده است به دست آمد. 2-1.

برنج. 2-2. اسیلوگرام سیگنال صوتی

برنامه GoldWave به شما اجازه می دهد تا اسیلوگرام را در امتداد محور زمان بکشید که به شما امکان می دهد کوچکترین جزئیات را مشاهده کنید. در شکل 2-3 یک قطعه کشیده از اسیلوگرام فوق الذکر صدای a را نشان دادیم.

برنج. 2-3. قطعه ای از یک اسیلوگرام سیگنال صوتی

لطفاً توجه داشته باشید که مقدار سیگنال ورودی که از میکروفون می‌آید به طور دوره‌ای تغییر می‌کند و مقادیر مثبت و منفی را به خود می‌گیرد.

اگر فقط یک فرکانس در سیگنال ورودی وجود داشت (یعنی اگر صدا "تمیز" بود)، شکل موج دریافتی از میکروفون یک موج سینوسی خواهد بود. با این حال، همانطور که قبلاً گفتیم، طیف صداهای گفتار انسان از مجموعه ای از فرکانس ها تشکیل شده است که در نتیجه شکل اسیلوگرام سیگنال گفتار به دور از سینوسی است.

سیگنالی را فراخوانی می کنیم که اندازه آن به طور مداوم در طول زمان تغییر می کند سیگنال آنالوگ. این دقیقا همان سیگنالی است که از میکروفون می آید. برخلاف آنالوگ، سیگنال دیجیتالمجموعه ای از مقادیر عددی است که به طور مجزا در طول زمان تغییر می کند.

برای اینکه رایانه بتواند سیگنال صوتی را پردازش کند، باید از فرم آنالوگ به دیجیتال تبدیل شود، یعنی به صورت مجموعه ای از مقادیر عددی ارائه شود. این فرآیند دیجیتالی شدن سیگنال آنالوگ نامیده می شود.

دیجیتالی کردن سیگنال صوتی (و هر آنالوگ) با استفاده از دستگاه خاصی به نام انجام می شود مبدل آنالوگ به دیجیتال ADC (مبدل آنالوگ به دیجیتال، ADC). این دستگاه بر روی برد آداپتور صدا قرار دارد و یک ریز مدار معمولی است.

مبدل آنالوگ به دیجیتال چگونه کار می کند؟

به صورت دوره ای سطح سیگنال ورودی را اندازه گیری می کند و مقدار عددی نتیجه اندازه گیری را خروجی می کند. این فرآیند در شکل نشان داده شده است. 2-4. در اینجا، مستطیل های خاکستری مقادیر سیگنال ورودی را نشان می دهد که در یک بازه زمانی ثابت اندازه گیری می شوند. مجموعه ای از چنین مقادیری نمایش دیجیتالی سیگنال آنالوگ ورودی است.

برنج. 2-4. اندازه گیری دامنه سیگنال در مقابل زمان

در شکل 2-5 اتصال مبدل آنالوگ به دیجیتال به میکروفون را نشان دادیم. در این حالت، یک سیگنال آنالوگ به ورودی x 1 عرضه می شود و یک سیگنال دیجیتال از خروجی های u 1 -u n حذف می شود.

برنج. 2-5. مبدل آنالوگ به دیجیتال

مبدل های آنالوگ به دیجیتال با دو پارامتر مهم مشخص می شوند - فرکانس تبدیل و تعداد سطوح کوانتیزاسیون سیگنال ورودی. انتخاب صحیح این پارامترها برای دستیابی به نمایش دیجیتالی کافی از سیگنال آنالوگ حیاتی است.

هر چند وقت یکبار نیاز به اندازه گیری دامنه سیگنال آنالوگ ورودی دارید تا اطلاعات مربوط به تغییرات سیگنال آنالوگ ورودی در نتیجه دیجیتالی شدن از بین نرود؟

به نظر می رسد که پاسخ ساده است - سیگنال ورودی باید تا حد امکان اندازه گیری شود. در واقع، هر چه مبدل آنالوگ به دیجیتال بیشتر چنین اندازه گیری هایی را انجام دهد، بهتر می تواند کوچکترین تغییرات در دامنه سیگنال آنالوگ ورودی را ردیابی کند.

با این حال، اندازه گیری های بیش از حد مکرر می تواند منجر به افزایش ناموجه در جریان داده های دیجیتال و هدر رفتن منابع رایانه در هنگام پردازش سیگنال شود.

خوشبختانه انتخاب فرکانس تبدیل مناسب (فرکانس نمونه برداری) بسیار ساده است. برای انجام این کار کافی است به قضیه کوتلنیکوف که متخصصان در زمینه پردازش سیگنال دیجیتال شناخته شده است مراجعه کنید. این قضیه بیان می کند که فرکانس تبدیل باید دو برابر حداکثر فرکانس طیف سیگنال تبدیل شده باشد. بنابراین، برای دیجیتالی کردن بدون از دست دادن کیفیت سیگنال صوتی که فرکانس آن در محدوده 16-20000 هرتز قرار دارد، باید فرکانس تبدیل کمتر از 40000 هرتز را انتخاب کنید.

البته توجه داشته باشید که در تجهیزات صوتی حرفه ای فرکانس تبدیل چندین برابر بیشتر از مقدار مشخص شده انتخاب می شود. این کار برای رسیدن به خیلی انجام می شود کیفیت بالاصدای دیجیتالی شده این کیفیت برای سیستم‌های تشخیص گفتار مرتبط نیست، بنابراین ما توجه شما را روی این انتخاب متمرکز نمی‌کنیم.

چه فرکانس تبدیلی برای دیجیتالی کردن صدای گفتار انسان لازم است؟

از آنجایی که صداهای گفتار انسان در محدوده فرکانس 300-4000 هرتز قرار دارند، حداقل فرکانس تبدیل مورد نیاز 8000 هرتز است. با این حال، بسیاری از برنامه های کامپیوتریتشخیص گفتار از فرکانس تبدیل استاندارد 44000 هرتز برای آداپتورهای صوتی معمولی استفاده می کند. از یک طرف چنین فرکانس تبدیلی منجر به افزایش بیش از حد جریان داده های دیجیتال نمی شود و از طرف دیگر دیجیتالی شدن گفتار را با کیفیت کافی تضمین می کند.

در دوران مدرسه به ما آموختند که با هر اندازه گیری خطاهایی ایجاد می شود که نمی توان به طور کامل آنها را از بین برد. چنین خطاهایی به دلیل وضوح محدود ابزارهای اندازه گیری و همچنین به دلیل این واقعیت است که فرآیند اندازه گیری خود می تواند تغییراتی را در مقدار اندازه گیری ایجاد کند.

مبدل آنالوگ به دیجیتال سیگنال آنالوگ ورودی را به صورت جریانی از اعداد با ظرفیت محدود نشان می دهد. آداپتورهای صوتی معمولی شامل بلوک‌های ADC 16 بیتی هستند که می‌توانند دامنه سیگنال ورودی را به صورت مقادیر مختلف 216 = 65536 نشان دهند. دستگاه‌های ADC در تجهیزات صوتی پیشرفته می‌توانند 20 بیتی باشند و دقت بیشتری در نمایش دامنه سیگنال صوتی ارائه دهند.

سیستم ها و برنامه های تشخیص گفتار مدرن برای رایانه های معمولی مجهز به آداپتورهای صوتی معمولی ایجاد شد. بنابراین، برای انجام آزمایشات با تشخیص گفتار، نیازی به خرید آداپتور صوتی حرفه ای ندارید. آداپتوری مانند Sound Blaster برای دیجیتالی کردن گفتار به منظور شناسایی بیشتر آن کاملاً مناسب است.

معمولاً همراه با سیگنال مفید، نویزهای مختلفی وارد میکروفون می شود - سر و صدای خیابان، صدای باد، مکالمات اضافی و غیره. نویز تأثیر منفی بر عملکرد سیستم های تشخیص گفتار دارد، بنابراین باید با آن مقابله کرد. ما قبلاً یکی از راه‌ها را ذکر کرده‌ایم - سیستم‌های تشخیص گفتار امروزی بهتر است در یک اتاق ساکت و به تنهایی با رایانه استفاده شوند.

با این حال، ایجاد شرایط ایده آل همیشه امکان پذیر نیست، بنابراین لازم است از روش های خاصی برای خلاص شدن از تداخل استفاده کنید. برای کاهش سطح نویز، از ترفندهای خاصی در طراحی میکروفون ها و فیلترهای ویژه استفاده می شود که فرکانس هایی را از طیف سیگنال آنالوگ حذف می کند که اطلاعات مفیدی را حمل نمی کند. علاوه بر این، تکنیکی مانند فشرده سازی محدوده دینامیکی سطوح سیگنال ورودی استفاده می شود.

بیایید در مورد همه اینها به ترتیب صحبت کنیم.

فیلتر فرکانسدستگاهی است که طیف فرکانس سیگنال آنالوگ را تبدیل می کند. در این حالت، در طول فرآیند تبدیل، ارتعاشات فرکانس های خاصی آزاد می شود (یا جذب می شود).

می توانید این دستگاه را نوعی جعبه سیاه با یک ورودی و یک خروجی تصور کنید. در رابطه با وضعیت ما، یک میکروفون به ورودی فیلتر فرکانس و یک مبدل آنالوگ به دیجیتال به خروجی متصل خواهد شد.

فیلترهای فرکانس مختلفی وجود دارد:

· فیلترهای کم گذر.

فیلترهای عبور بالا؛

· انتقال فیلترهای باند گذر.

· فیلترهای باند استاپ.

فیلترهای پایین گذر(فیلتر پایین گذر) بسته به تنظیمات فیلتر، تمام فرکانس هایی را که مقادیر آنها زیر یک فرکانس آستانه مشخص است، از طیف سیگنال ورودی حذف کنید.

از آنجایی که سیگنال های صوتی در محدوده 16 تا 20000 هرتز قرار دارند، تمام فرکانس های کمتر از 16 هرتز را می توان بدون کاهش کیفیت صدا قطع کرد. برای تشخیص گفتار، محدوده فرکانس 300-4000 هرتز مهم است، بنابراین فرکانس های زیر 300 هرتز را می توان قطع کرد. در این حالت، تمام تداخل هایی که طیف فرکانس آنها زیر 300 هرتز باشد، از سیگنال ورودی قطع می شود و در فرآیند تشخیص گفتار تداخلی ایجاد نمی کند.

به همین ترتیب، فیلترهای بالا گذر(فیلتر بالا گذر) تمام فرکانس های بالای یک فرکانس آستانه مشخص را از طیف سیگنال ورودی قطع می کند.

انسان نمی تواند صداهایی با فرکانس 20000 هرتز و بالاتر را بشنود، بنابراین می توان آنها را بدون کاهش قابل توجه کیفیت صدا از طیف خارج کرد. در مورد تشخیص گفتار، در اینجا می توانید تمام فرکانس های بالای 4000 هرتز را قطع کنید، که منجر به کاهش قابل توجهی در سطح تداخل فرکانس بالا خواهد شد.

فیلتر میان گذر(فیلتر باند گذر) را می توان ترکیبی از فیلتر پایین گذر و بالاگذر در نظر گرفت. چنین فیلتری تمام فرکانس های زیر به اصطلاح را به تاخیر می اندازد فرکانس عبور پایین تر، و همچنین در بالا فرکانس عبور بالا.

بنابراین، یک فیلتر باند عبور برای یک سیستم تشخیص گفتار مناسب است که تمام فرکانس ها را به جز فرکانس های در محدوده 300-4000 هرتز به تاخیر می اندازد.

در مورد فیلترهای باند استاپ، آنها به شما این امکان را می دهند که تمام فرکانس های موجود در یک محدوده معین را از طیف سیگنال ورودی قطع کنید. چنین فیلتری مناسب است، به عنوان مثال، برای سرکوب تداخلی که بخش پیوسته خاصی از طیف سیگنال را اشغال می کند.

در شکل 2-6 اتصال فیلتر باند گذر را نشان دادیم.

برنج. 2-6. فیلتر کردن سیگنال صوتی قبل از دیجیتالی کردن

باید گفت که آداپتورهای صوتی معمولی نصب شده در رایانه شامل یک فیلتر باند گذر است که سیگنال آنالوگ قبل از دیجیتالی شدن از آن عبور می کند. باند عبور چنین فیلتری معمولاً با محدوده سیگنال های صوتی، یعنی 16-20000 هرتز مطابقت دارد (در آداپتورهای صوتی مختلف، مقادیر فرکانس های بالا و پایین ممکن است در محدوده های کوچک متفاوت باشد).

چگونه می توان به پهنای باند باریک 300-4000 هرتز، مطابق با آموزنده ترین بخش طیف گفتار انسان دست یافت؟

البته، اگر تمایلی به طراحی تجهیزات الکترونیکی دارید، می توانید فیلتر خود را از تراشه تقویت کننده عملیاتی، مقاومت ها و خازن ها بسازید. این تقریباً همان کاری است که اولین سازندگان سیستم های تشخیص گفتار انجام دادند.

با این حال سیستم های صنعتیسیستم های تشخیص گفتار باید روی سخت افزار استاندارد کامپیوتر کارایی داشته باشند، بنابراین مسیر ساخت فیلتر باند گذر ویژه در اینجا مناسب نیست.

در عوض، در سیستم های مدرنپردازش گفتار با استفاده از به اصطلاح فیلترهای فرکانس دیجیتال، در نرم افزار پیاده سازی شده است. بعد از این امکان پذیر شد CPUکامپیوتر بسیار قدرتمند شده است.

یک فیلتر فرکانس دیجیتال که در نرم افزار پیاده سازی شده است، سیگنال دیجیتال ورودی را به سیگنال دیجیتال خروجی تبدیل می کند. در طول فرآیند تبدیل، برنامه به روشی خاص جریان مقادیر عددی دامنه سیگنال را که از مبدل آنالوگ به دیجیتال می آید، پردازش می کند. نتیجه تبدیل نیز جریانی از اعداد خواهد بود، اما این جریان با یک سیگنال از قبل فیلتر شده مطابقت دارد.

در حالی که در مورد مبدل آنالوگ به دیجیتال صحبت می کنیم، به ویژگی مهمی مانند تعداد سطوح کوانتیزاسیون اشاره کردیم. اگر یک مبدل آنالوگ به دیجیتال 16 بیتی در آداپتور صدا نصب شده باشد، پس از دیجیتالی شدن، سطوح سیگنال صوتی را می توان به صورت مقادیر مختلف 216 = 65536 نشان داد.

اگر سطوح کمی وجود داشته باشد، به اصطلاح نویز کوانتیزاسیون. برای کاهش این نویز، سیستم های دیجیتالی سازی صوتی با کیفیت بالا باید از مبدل های آنالوگ به دیجیتال با حداکثر تعداد سطوح کوانتیزاسیون موجود استفاده کنند.

با این حال، تکنیک دیگری برای کاهش تاثیر نویز کوانتیزاسیون بر کیفیت سیگنال صوتی وجود دارد که در سیستم های ضبط صدا دیجیتال استفاده می شود. هنگام استفاده از این تکنیک، سیگنال قبل از دیجیتالی شدن از یک تقویت کننده غیر خطی عبور داده می شود و بر سیگنال هایی با دامنه سیگنال کم تأکید می شود. چنین وسیله ای افزایش می دهد سیگنال های ضعیفقوی تر از قوی تر

این با نمودار دامنه سیگنال خروجی در مقابل دامنه سیگنال ورودی نشان داده شده در شکل نشان داده شده است. 2-7.

برنج. 2-7. تقویت غیر خطی قبل از دیجیتالی شدن

در مرحله تبدیل صدای دیجیتالی به آنالوگ (در ادامه این فصل به این مرحله خواهیم پرداخت)، سیگنال آنالوگ قبل از خروجی به بلندگوها مجدداً از یک تقویت کننده غیر خطی عبور داده می شود. این بار از تقویت‌کننده متفاوتی استفاده می‌شود که بر سیگنال‌های با دامنه بالا تأکید می‌کند و دارای مشخصه انتقال (وابستگی دامنه سیگنال خروجی به دامنه سیگنال ورودی) معکوس نسبت به چیزی است که در طول دیجیتالی کردن استفاده می‌شود.

چگونه همه اینها می تواند به سازندگان سیستم های تشخیص گفتار کمک کند؟

همانطور که مشخص است، شخص گفتاری را که با زمزمه ای آرام یا با صدای نسبتا بلند گفته می شود به خوبی تشخیص می دهد. می توان گفت که محدوده دینامیکی سطوح بلندی گفتار با موفقیت تشخیص داده شده برای یک فرد بسیار گسترده است.

امروز سیستم های کامپیوتریمتأسفانه، تشخیص گفتار هنوز نمی تواند به این موضوع ببالد. با این حال، به منظور گسترش کمی محدوده دینامیکی مشخص شده، قبل از دیجیتالی کردن، می توانید سیگنال را از میکروفون از طریق یک تقویت کننده غیر خطی عبور دهید که مشخصه انتقال آن در شکل نشان داده شده است. 2-7. این باعث کاهش سطح نویز کوانتیزاسیون هنگام دیجیتالی کردن سیگنال های ضعیف می شود.

توسعه دهندگان سیستم های تشخیص گفتار، دوباره، مجبور هستند که عمدتاً روی آداپتورهای صوتی تولید شده تجاری تمرکز کنند. آنها تبدیل سیگنال غیرخطی که در بالا توضیح داده شد را فراهم نمی کنند.

با این حال، می توان نرم افزاری معادل یک تقویت کننده غیرخطی ایجاد کرد که سیگنال دیجیتالی شده را قبل از ارسال آن به ماژول تشخیص گفتار تبدیل می کند. اگرچه چنین تقویت کننده نرم افزاری قادر به کاهش نویز کوانتیزاسیون نخواهد بود، می توان از آن برای تأکید بر سطوح سیگنالی که بیشترین اطلاعات گفتاری را حمل می کنند استفاده کرد. به عنوان مثال، می توانید دامنه سیگنال های ضعیف را کاهش دهید، بنابراین سیگنال را از نویز خلاص کنید.

فشرده سازی یکی از اسطوره آمیزترین موضوعات در تولید صدا است. آنها می گویند که بتهوون حتی بچه های همسایه را با او ترساند:

خوب، در واقع، استفاده از فشرده سازی دشوارتر از استفاده از اعوجاج نیست، نکته اصلی درک اصل عملکرد آن و داشتن آن است. کنترل خوب. این چیزی است که اکنون با هم خواهیم دید.

فشرده سازی صدا چیست؟

اولین چیزی که قبل از آماده سازی باید درک کنید فشرده سازی است. کار با محدوده دینامیکی صدا. و به نوبه خود چیزی بیش از تفاوت بین بلندترین و بی صداترین سطوح سیگنال نیست:

بنابراین، فشرده سازی فشرده سازی محدوده دینامیکی است. آره، فقطفشرده سازی محدوده دینامیکی یا به عبارت دیگر کاهش سطح صداهای بلند سیگنال و افزایش صدای بخش های ساکت. بیشتر نه.

ممکن است به طور منطقی تعجب کنید که چرا چنین تبلیغاتی مرتبط است؟ چرا همه در مورد دستور العمل های تنظیمات صحیح کمپرسور صحبت می کنند، اما هیچ کس آنها را به اشتراک نمی گذارد؟ چرا، با وجود تعداد زیادی پلاگین جالب، بسیاری از استودیوها هنوز از مدل های گران قیمت و کمیاب کمپرسور استفاده می کنند؟ چرا برخی از تولیدکنندگان از کمپرسورها در تنظیمات شدید استفاده می کنند، در حالی که برخی دیگر اصلاً از آنها استفاده نمی کنند؟ و در نهایت کدام یک از آنها درست است؟

مشکلات با فشرده سازی حل شد

پاسخ به چنین سوالاتی در سطح درک نقش فشرده سازی در کار با صدا نهفته است. و اجازه می دهد:

  1. بر حمله تاکید کنیدصدا، آن را برجسته تر می کند.
  2. "تنظیم" بخش های جداگانه سازها در ترکیببا افزودن قدرت و وزن به آنها.
  3. گروه های ساز یا کل ترکیب را منسجم تر کنید، چنین یکپارچه واحد;
  4. تضاد بین ابزارها را حل کنید با استفاده از زنجیره جانبی ;
  5. اشتباهات خواننده یا نوازندگان را تصحیح کنیدتسطیح پویایی آنها.
  6. با یک تنظیم خاص به عنوان یک اثر هنری عمل کند.

همانطور که می بینید، این فرآیند خلاقانه کمتر از، مثلاً ساختن ملودی ها یا ایجاد صداهای جالب نیست. علاوه بر این، هر یک از مشکلات فوق را می توان با استفاده از 4 پارامتر اصلی حل کرد.

پارامترهای اصلی کمپرسور

علیرغم تعداد زیاد مدل های نرم افزاری و سخت افزاری کمپرسورها، تمام "جادوی" فشرده سازی زمانی اتفاق می افتد که تنظیم صحیحپارامترهای اصلی: آستانه، نسبت، حمله و انتشار. بیایید با جزئیات بیشتری به آنها نگاه کنیم:

آستانه یا آستانه پاسخ، دسی بل

این پارامتر به شما امکان می دهد مقداری را که کمپرسور از آن کار می کند (یعنی فشرده سازی سیگنال صوتی) را تنظیم کنید. بنابراین، اگر آستانه را روی 12- دسی بل قرار دهیم، کمپرسور فقط در قسمت هایی از محدوده دینامیکی کار می کند که از این مقدار بیشتر باشد. اگر همه صدای ما ساکت تر از -12db باشد، کمپرسور به سادگی از آن عبور می کند بدون اینکه به هیچ وجه روی آن تأثیر بگذارد.

نسبت یا نسبت تراکم

پارامتر نسبت تعیین می کند که سیگنالی که از آستانه فراتر رفته چقدر فشرده شود. کمی ریاضیات برای تکمیل تصویر: فرض کنید یک کمپرسور با آستانه -12dB، نسبت 2:1 راه اندازی کردیم و اعمال کردیم. حلقه درام، که در آن حجم کیک درام -4dB است. نتیجه عملکرد کمپرسور در این صورت چه خواهد بود؟

در مورد ما، سطح ضربه 8 دسی بل از آستانه فراتر می رود. این تفاوت با توجه به نسبت به 4dB (8dB / 2) فشرده خواهد شد. همراه با بخش پردازش نشده سیگنال، این منجر به این واقعیت می شود که پس از پردازش توسط یک کمپرسور، حجم درام ضربه 8-db خواهد بود (آستانه -12dB + سیگنال فشرده 4dB).

حمله کن خانم

این زمانی است که پس از آن کمپرسور به فراتر از آستانه پاسخ پاسخ می دهد. یعنی اگر زمان حمله بالای 0 میلی ثانیه باشد - کمپرسور فشرده سازی را شروع می کندفراتر رفتن از سیگنال آستانه نه بلافاصله، بلکه پس از یک زمان مشخص.

انتشار یا بازیابی، ms

برعکس حمله - مقدار این پارامتر به شما امکان می دهد تعیین کنید که چه مدت پس از بازگشت سطح سیگنال به زیر آستانه کمپرسور فشرده سازی را متوقف می کند.

قبل از اینکه به جلو برویم، اکیداً توصیه می‌کنم یک نمونه شناخته شده بگیرید، هر کمپرسور را در کانال آن قرار دهید و پارامترهای بالا را به مدت 5-10 دقیقه آزمایش کنید تا مواد را به طور ایمن ثابت کنید.

همه سایر پارامترها اختیاری هستند. آنها می توانند بین مدل های مختلف کمپرسور متفاوت باشند، به همین دلیل است که تولیدکنندگان از مدل های مختلف برای اهداف خاص استفاده می کنند (به عنوان مثال، یک کمپرسور برای آواز، دیگری برای گروه درام، سومی برای کانال اصلی). من به جزئیات روی این پارامترها نمی پردازم، بلکه فقط ارائه خواهم داد اطلاعات کلیبرای درک اینکه این موضوع چیست:

  • زانو یا پیچ خوردگی (زانو سخت/نرم). این پارامتر تعیین می کند که نسبت تراکم (نسبت) با چه سرعتی اعمال شود: سخت در طول یک منحنی یا صاف. متذکر می شوم که در حالت نرم زانو، کمپرسور به صورت خطی کار نمی کند، اما شروع به فشرده سازی صدا می کند (تا جایی که ممکن است زمانی که در مورد میلی ثانیه صحبت می کنیم) صدا را فشرده کند. قبلاً قبل از مقدار آستانه. برای پردازش گروهی از کانال‌ها و ترکیب کلی، اغلب از زانوی نرم استفاده می‌شود (زیرا بدون توجه عمل می‌کند)، و برای تأکید بر حمله و سایر ویژگی‌های ابزارهای فردی، از زانوی سخت استفاده می‌شود.
  • حالت پاسخگویی: پیک/RMS. حالت اوج زمانی توجیه می شود که شما نیاز به محدود کردن شدید انفجارهای دامنه و همچنین سیگنال هایی با شکل پیچیده دارید که دینامیک و خوانایی آن باید به طور کامل منتقل شود. حالت RMS روی صدا بسیار ملایم است و به شما این امکان را می دهد که در عین حال حمله را ضخیم کنید.
  • آینده نگری (نگاه به آینده). این زمانی است که در طی آن کمپرسور متوجه خواهد شد که چه چیزی به سراغش می آید. نوعی تجزیه و تحلیل اولیه سیگنال های دریافتی؛
  • آرایش یا سود. پارامتری که به شما امکان می دهد کاهش حجم در نتیجه فشرده سازی را جبران کنید.

اول و اکثر توصیه اصلی ، که تمام سوالات بیشتر در مورد فشرده سازی را از بین می برد: اگر الف) اصل فشرده سازی را درک کنید، ب) کاملاً بدانید که این یا آن پارامتر چگونه بر صدا تأثیر می گذارد، و ج) موفق شده اید چندین مورد را در عمل امتحان کنید. مدل های مختلفشما دیگر نیازی به مشاوره ندارید.

من کاملا جدی هستم. اگر این پست را با دقت بخوانید، کمپرسور استاندارد خود را آزمایش کرده اید DAWو یکی دو تا پلاگین ها، اما من هنوز متوجه نمی شوم که در چه مواردی باید مقادیر حمله بزرگ را تنظیم کرد، از چه نسبتی استفاده کرد و در چه حالتی سیگنال اصلی را پردازش کرد - سپس به دنبال دستور العمل های آماده در اینترنت با استفاده از آن خواهید بود. آنها بدون فکر در هر کجا.

دستور العمل های تنظیم دقیق کمپرسوراین به نوعی مانند دستور العمل هایی برای تنظیم دقیق یک ریورب یا کر است - هیچ معنایی ندارد و ربطی به خلاقیت ندارد. بنابراین، من به طور مداوم تنها دستور العمل واقعی را تکرار می کنم: خود را با این مقاله مسلح کنید، هدفون مانیتور خوب، افزونه ای برای کنترل بصری شکل موج و گذراندن عصر در شرکت چند کمپرسور.

اقدام به!