تبدیل صدا به جریانی از اعداد. سنتز و شناخت گفتار. راه حل های مدرن تجهیزات صوتی کامپیوتر. تبدیل صدا به جریان عددی محدوده پویا فشرده یا استاندارد

بخش دوم چرخه به عملکردهای بهینه سازی محدوده دینامیکی تصاویر اختصاص دارد. در آن توضیح خواهیم داد که چرا چنین راه حل هایی مورد نیاز است، گزینه های مختلفی برای اجرای آنها و همچنین مزایا و معایب آنها در نظر گرفته می شود.

بی نهایت را در آغوش بگیرید

در حالت ایده آل، دوربین باید تصویری از دنیای اطراف را همانطور که توسط شخص درک می شود، ثبت کند. با این حال، با توجه به این واقعیت که مکانیسم های "بینایی" دوربین و چشم انسان به طور قابل توجهی متفاوت است، تعدادی محدودیت وجود دارد که اجازه نمی دهد این شرایط برآورده شود.

یکی از مشکلاتی که قبلاً کاربران دوربین های فیلمبرداری با آن مواجه بودند و اکنون صاحبان دوربین های دیجیتال با آن مواجه هستند، عدم توانایی در گرفتن صحنه هایی با اختلاف نور زیاد بدون استفاده از دستگاه های خاص و/یا تکنیک های خاص عکسبرداری است. ویژگی‌های دستگاه بینایی انسان این امکان را فراهم می‌آورد که جزئیات صحنه‌های با کنتراست بالا را هم در مناطق با نور روشن و هم در مناطق تاریک به خوبی درک کنید. متأسفانه سنسور دوربین همیشه قادر به گرفتن تصویر آنگونه که ما می بینیم نیست.

هر چه تفاوت روشنایی در صحنه عکاسی شده بیشتر باشد، احتمال از دست دادن جزئیات در هایلایت ها و/یا سایه ها بیشتر می شود. در نتیجه، به جای آسمان آبی با ابرهای سرسبز در تصویر، فقط یک نقطه سفید رنگ به دست می آید و اشیاء واقع در سایه ها به شبح های تیره نامشخص تبدیل می شوند یا حتی با محیط اطراف ادغام می شوند.

عکاسی کلاسیک از این مفهوم استفاده می کند عرض جغرافیایی عکاسی(برای جزئیات بیشتر به نوار کناری مراجعه کنید). از نظر تئوری، عرض جغرافیایی عکاسی دوربین های دیجیتال با عمق بیت مبدل آنالوگ به دیجیتال (ADC) تعیین می شود. به عنوان مثال، هنگام استفاده از یک ADC 8 بیتی، با در نظر گرفتن خطای کوانتیزاسیون، مقدار تئوری قابل دستیابی عرض جغرافیایی عکاسی 7 EV خواهد بود، برای یک ADC 12 بیتی - 11 EV و غیره. با این حال، در دستگاه های واقعی، محدوده دینامیکی تصاویر است درهمان حداکثر نظری به دلیل تأثیر انواع مختلف نویز و عوامل دیگر.

تفاوت زیاد در سطوح روشنایی یک امر جدی است
مشکل عکاسی در این صورت قابلیت های دوربین
به اندازه کافی برای انتقال بیشتر کافی نبود
مناطق روشن صحنه، و در نتیجه، به جای یک منطقه آبی
آسمان (مشخص شده با سکته مغزی) به یک "لکه" سفید تبدیل شد

حداکثر مقدار روشنایی که یک حسگر حساس به نور می تواند تشخیص دهد با سطح اشباع سلول های آن تعیین می شود. حداقل مقدار به عوامل مختلفی از جمله میزان نویز حرارتی ماتریس، نویز انتقال شارژ و خطای ADC بستگی دارد.

همچنین شایان ذکر است که عرض جغرافیایی عکاسی یک دوربین دیجیتال ممکن است بسته به مقدار حساسیت تنظیم شده در تنظیمات متفاوت باشد. حداکثر محدوده دینامیکی با تنظیم به اصطلاح حساسیت پایه (مطابق با حداقل مقدار عددی ممکن) قابل دستیابی است. با افزایش مقدار این پارامتر، محدوده دینامیکی به دلیل افزایش سطح نویز کاهش می یابد.

عرض جغرافیایی عکاسی مدل های مدرن دوربین های دیجیتال مجهز به سنسور سایز بزرگو ADCهای 14 بیتی یا 16 بیتی 9 تا 11 EV است که به طور قابل توجهی بالاتر از فیلم نگاتیو رنگی با فرمت 35 میلی متری است (به طور متوسط ​​4 تا 5 EV). بنابراین، حتی دوربین‌های دیجیتالی نسبتاً ارزان نیز دارای عرض جغرافیایی کافی برای ثبت بیشتر صحنه‌های معمولی عکاسی آماتور هستند.

با این حال، یک مشکل از نوع دیگری وجود دارد. این با محدودیت های اعمال شده توسط استانداردهای موجود برای ضبط تصاویر دیجیتال مرتبط است. با استفاده از فرمت JPEG با 8 بیت در هر کانال رنگی (که اکنون به استاندارد واقعی برای ضبط تصاویر دیجیتال در صنعت کامپیوتر و فناوری دیجیتال تبدیل شده است)، حتی از نظر تئوری ذخیره تصویر با عرض جغرافیایی عکاسی بیش از 8 EV غیرممکن است. .

بیایید فرض کنیم که ADC دوربین به شما امکان می دهد تصویری با عمق کمی 12 یا 14 بیت دریافت کنید که شامل جزئیات قابل تشخیص هم در هایلایت و هم در سایه است. با این حال، اگر عرض جغرافیایی عکاسی این تصویر از 8 EV بیشتر باشد، در فرآیند تبدیل به فرمت استاندارد 8 بیتی بدون هیچ گونه مراحل اضافی (یعنی صرفاً با دور انداختن بیت‌های اضافی)، بخشی از اطلاعات ثبت شده توسط حسگر حساس به نور از بین خواهد رفت.

محدوده دینامیکیو عرض جغرافیایی عکاسی

به عبارت ساده، محدوده پویا به عنوان نسبت حداکثر مقدار روشنایی یک تصویر به مقدار حداقل آن تعریف می شود. در عکاسی کلاسیک به طور سنتی از اصطلاح عرض جغرافیایی عکاسی استفاده می شود که در واقع به همین معنی است.

عرض دامنه دینامیکی را می توان به صورت نسبت بیان کرد (به عنوان مثال، 1000:1، 2500:1، و غیره)، اما مقیاس لگاریتمی بیشتر مورد استفاده قرار می گیرد. در این مورد، مقدار لگاریتم اعشاری نسبت حداکثر روشنایی به مقدار حداقل آن محاسبه می شود و عدد با حرف بزرگ D (از چگالی انگلیسی؟ - چگالی)، کمتر؟ - مخفف دنبال می شود. OD (از چگالی نوری انگلیسی؟ - چگالی نوری). به عنوان مثال، اگر نسبت مقدار حداکثر روشنایی به حداقل مقدار هر دستگاه 1000:1 باشد، محدوده دینامیکی 3.0 D خواهد بود:

برای اندازه‌گیری عرض جغرافیایی عکاسی، به‌اصطلاح واحدهای نوردهی به‌طور سنتی استفاده می‌شوند که با علامت اختصاری EV (از مقادیر نوردهی انگلیسی؛ متخصصان اغلب آنها را به‌عنوان «پا» یا «گام‌ها» یاد می‌کنند) استفاده می‌شود. در این واحدها است که مقدار جبران نوردهی معمولاً در تنظیمات دوربین تنظیم می شود. افزایش عرض جغرافیایی عکاسی به میزان 1 EV معادل دو برابر کردن اختلاف بین حداکثر و حداقل سطح روشنایی است. بنابراین، مقیاس EV نیز یک مقیاس لگاریتمی است، اما در این مورد، از لگاریتمی با پایه 2 برای محاسبه مقادیر عددی استفاده می شود. عرض جغرافیایی عکاسی 8 EV خواهد بود:

فشرده سازی یک مصالحه معقول است

اکثر راه موثربرای حفظ اطلاعات کامل تصویر گرفته شده توسط حسگر حساس به نور دوربین، ضبط تصاویر در فرمت RAW است. با این حال، این عملکرد در همه دوربین‌ها در دسترس نیست و هر عکاس آماتوری آماده انجام کار پر زحمت برای انتخاب نیست. تنظیمات فردیبرای هر عکس گرفته شده

برای کاهش احتمال از دست دادن جزئیات در تصاویر با کنتراست بالا که در داخل دوربین به JPEG 8 بیتی تبدیل شده اند، دستگاه هایی از بسیاری از سازندگان (و نه تنها کامپکت، بلکه دوربین های SLR) معرفی شده اند. توابع ویژه، بدون دخالت کاربر اجازه می دهد تا محدوده دینامیکی تصاویر ذخیره شده را فشرده کند. چنین راه حل هایی با کاهش کنتراست کلی و از دست دادن بخش کوچکی از اطلاعات تصویر اصلی، امکان حفظ جزئیات را در JPEG 8 بیتی در نقاط برجسته و سایه های ثبت شده توسط سنسور حساس به نور دستگاه، حتی اگر محدوده دینامیکی تصویر اصلی گسترده تر از 8 EV است.

یکی از پیشگامان توسعه این مسیر، شرکت HP بود. دوربین دیجیتال HP Photosmart 945 که در سال 2003 راه اندازی شد، اولین دوربینی در جهان بود که از فناوری HP Adaptive Lightling استفاده کرد، که به طور خودکار کمبود نور در مناطق تاریک تصاویر را جبران می کند و بنابراین جزئیات سایه را بدون خطر نوردهی بیش از حد (که بسیار مهم است) حفظ می کند. هنگام عکاسی از صحنه های با کنتراست بالا). الگوریتم HP Adaptive Lightling بر اساس اصولی است که توسط دانشمند انگلیسی ادوین لند در تئوری ادراک بصری انسان RETINEX بیان شده است.

منوی ویژگی های روشنایی تطبیقی ​​HP

نور تطبیقی ​​چگونه کار می کند؟ پس از به دست آوردن یک تصویر تصویری 12 بیتی، یک تصویر تک رنگ کمکی از آن استخراج می شود که در واقع یک نقشه سبک است. هنگام پردازش یک تصویر، این نقشه به عنوان یک ماسک استفاده می شود که به شما امکان می دهد درجه نفوذ یک فیلتر دیجیتال نسبتا پیچیده را بر روی تصویر تنظیم کنید. بنابراین، در مناطق مربوط به تاریک ترین نقاط نقشه، تاثیر بر تصویر تصویر آینده حداقل است و بالعکس. این رویکرد به شما امکان می دهد با روشن کردن انتخابی این مناطق و بر این اساس، کاهش کنتراست کلی تصویر حاصل، جزئیات را در سایه ها نشان دهید.

لازم به ذکر است که وقتی عملکرد Adaptive Lighting فعال است، تصویر گرفته شده به روشی که در بالا توضیح داده شد، قبل از اینکه تصویر نهایی در یک فایل نوشته شود، پردازش می شود. تمام عملیات توصیف شده به طور خودکار انجام می شود و کاربر فقط می تواند یکی از دو حالت نورپردازی تطبیقی ​​را در منوی دوربین (سطح نوردهی کم یا زیاد) انتخاب کند یا این عملکرد را غیرفعال کند.

به طور کلی، بسیاری از عملکردهای خاص دوربین های دیجیتال مدرن (از جمله سیستم های تشخیص چهره که در مقاله قبلی مورد بحث قرار گرفت) نوعی محصولات جانبی یا تبدیل پروژه های تحقیقاتی هستند که در ابتدا برای مشتریان نظامی انجام می شد. تا آنجا که به توابع بهینه سازی محدوده دینامیکی تصویر مربوط می شود، یکی از شناخته شده ترین ارائه دهندگان چنین راه حل هایی Apical است. الگوریتم های ایجاد شده توسط کارکنان آن، به ویژه، زیربنای عملکرد SAT (فناوری تنظیم سایه - فناوری اصلاح سایه) است که در تعدادی از دوربین های دیجیتال Olympus پیاده سازی شده است. به طور خلاصه، عملکرد عملکرد SAT را می توان به شرح زیر توصیف کرد: بر اساس تصویر اصلی، یک ماسک مربوط به تاریک ترین مناطق ایجاد می شود و سپس سطح نوردهی به طور خودکار برای این مناطق اصلاح می شود.

سونی همچنین مجوزی برای حق استفاده از توسعه‌های اپیکال دریافت کرد. بسیاری از مدل‌های دوربین‌های کامپکت در سری Cyber-shot و در دوربین‌های SLR سری آلفا دارای عملکرد بهینه‌سازی محدوده دینامیکی (Dynamic Range Optimizer, DRO) هستند.

عکس‌های گرفته شده با خاموش بودن HP Photosmart R927 (بالا)
و روشنایی تطبیقی ​​را فعال کرد

تصحیح تصویر هنگامی که DRO فعال می شود در طول پردازش اولیه تصویر (یعنی قبل از نوشتن فایل JPEG تمام شده) انجام می شود. در نسخه اصلی، DRO دارای تنظیمات دو مرحله ای است (در منو می توانید حالت استاندارد یا توسعه یافته عملکرد آن را انتخاب کنید). هنگامی که حالت استاندارد انتخاب می شود، بر اساس تجزیه و تحلیل تصویر، نوردهی برای مقدار نوردهی تصحیح می شود، و سپس یک منحنی تن بر روی تصویر اعمال می شود تا تعادل کلی یکنواخت شود. حالت پیشرفته از الگوریتم پیچیده تری استفاده می کند که به شما امکان می دهد هم در سایه ها و هم در هایلایت ها اصلاحات انجام دهید.

توسعه دهندگان سونی دائماً در حال کار بر روی بهبود الگوریتم DRO هستند. به عنوان مثال، در دوربین SLR a700، زمانی که حالت پیشرفته DRO فعال می شود، امکان انتخاب یکی از پنج گزینه اصلاح وجود دارد. علاوه بر این، امکان ذخیره سه نوع از یک تصویر به طور همزمان (نوعی براکتینگ) با تنظیمات مختلف DRO وجود دارد.

بسیاری از دوربین های دیجیتال نیکون دارای D-Lighting هستند که بر اساس الگوریتم های آپیکال نیز ساخته شده است. درست است، بر خلاف راه حل های توضیح داده شده در بالا، D-Lighting به عنوان فیلتری برای پردازش تصاویر ذخیره شده قبلی با استفاده از یک منحنی تن اجرا می شود، شکلی که به شما امکان می دهد سایه ها را روشن تر کنید، در حالی که بقیه تصویر را بدون تغییر نگه دارید. اما از آنجایی که در این حالت تصاویر 8 بیتی آماده پردازش می شوند (و نه تصویر اصلی قاب که عمق بیت بالاتر و بر این اساس دامنه دینامیکی وسیع تری دارد)، امکانات D-Lighting بسیار محدود است. کاربر می تواند با پردازش تصویر در یک ویرایشگر گرافیکی به همان نتیجه برسد.

هنگام مقایسه قطعات بزرگ شده، به وضوح مشاهده می شود که مناطق تاریک تصویر اصلی (سمت چپ)
وقتی عملکرد Adaptive Lighting روشن می شود، آنها سبک تر می شوند

همچنین تعدادی راه حل بر اساس اصول دیگر وجود دارد. بنابراین، در بسیاری از دوربین‌های خانواده Panasonic Lumix (به ویژه DMC-FX35، DMC-TZ4، DMC-TZ5، DMC-FS20، DMC-FZ18، و غیره)، عملکرد تشخیص روشنایی (نوردهی هوشمند) اجرا می‌شود که یک بخش جدایی ناپذیر سیستم کنترل تیراندازی خودکار هوشمند iA. عملکرد نوردهی هوشمند مبتنی بر تجزیه و تحلیل خودکار تصویر قاب و تصحیح نواحی تاریک تصویر برای جلوگیری از از دست دادن جزئیات در سایه‌ها و همچنین (در صورت لزوم) فشرده‌سازی محدوده دینامیکی صحنه‌های با کنتراست بالا است.

در برخی موارد، عملکرد عملکرد بهینه سازی محدوده پویا نه تنها عملیات خاصی را برای پردازش تصویر اصلی، بلکه اصلاح تنظیمات عکسبرداری را نیز فراهم می کند. به عنوان مثال، در مدل های جدید دوربین های دیجیتال فوجی فیلم (به ویژه در FinePix S100FS)، عملکرد گسترش دامنه دینامیکی (Wide Dynamic Range، WDR) اجرا شده است که به گفته توسعه دهندگان، به شما امکان می دهد تا عرض جغرافیایی عکاسی با یک یا دو مرحله (از نظر تنظیمات - 200 و 400٪).

هنگامی که عملکرد WDR فعال می شود، دوربین با جبران نوردهی -1 یا -2 EV (بسته به تنظیم انتخاب شده) عکس می گیرد. بنابراین، تصویر قاب کم نوردهی می شود - این برای حفظ حداکثر اطلاعات در مورد جزئیات در هایلایت ضروری است. سپس تصویر به دست آمده با استفاده از یک منحنی تن پردازش می شود که به شما امکان می دهد تعادل کلی را یکنواخت کنید و سطح سیاهی را تنظیم کنید. سپس تصویر به فرمت 8 بیتی تبدیل شده و به صورت فایل JPEG ضبط می شود.

فشرده سازی دامنه دینامیکی اجازه می دهد تا جزئیات بیشتری حفظ شود
در نور و سایه، اما پیامد اجتناب ناپذیر چنین تاثیری است
کاهش کنتراست کلی است. در تصویر پایین
با این حال، بافت ابرها بسیار بهتر کار شده است
به دلیل کنتراست کمتر، این نوع تصویر
کمتر طبیعی به نظر می رسد

عملکرد مشابهی به نام Dynamic Range Enlargement در تعدادی از دوربین های کامپکت و SLR Pentax (Optio S12، K200D و غیره) اجرا شده است. به گفته سازنده، استفاده از عملکرد Dynamic Range Enlargement به شما این امکان را می دهد که عرض جغرافیایی عکس ها را تا 1 EV بدون از دست دادن جزئیات در هایلایت ها و سایه ها افزایش دهید.

عملکرد مشابهی به نام اولویت تن برجسته (HTP) در تعدادی از مدل‌های SLR Canon (EOS 40D، EOS 450D و غیره) اجرا می‌شود. با توجه به اطلاعات موجود در دفترچه راهنمای کاربر، فعال کردن HTP اجازه می دهد تا جزئیات بهتری در هایلایت ها (به طور خاص، در محدوده سطوح از 0 تا 18٪ خاکستری) ارائه شود.

نتیجه

بیایید خلاصه کنیم. فشرده سازی محدوده دینامیکی داخلی به شما امکان می دهد تصویر اصلی را با محدوده دینامیکی بزرگ به 8 بیت با حداقل آسیب تبدیل کنید. فایل jpeg. در غیاب ذخیره فریم RAW، حالت فشرده‌سازی دامنه پویا به عکاس این امکان را می‌دهد تا از پتانسیل کامل دوربین خود هنگام عکاسی از صحنه‌هایی با کنتراست بالا استفاده کند.

البته به خاطر داشته باشید که فشرده سازی محدوده دینامیکی یک درمان معجزه آسا نیست، بلکه یک سازش است. حفظ جزئیات در هایلایت ها و/یا سایه ها به قیمت افزایش نویز در نواحی تاریک تصویر، کاهش کنتراست و مقداری درشت تر شدن تغییرات رنگی صاف است.

مانند هر عملکرد خودکار، الگوریتم فشرده سازی دامنه پویا یک راه حل کاملاً جهانی نیست که به شما امکان می دهد مطلقاً هر تصویری را بهبود بخشید. بنابراین، فعال کردن آن فقط در مواردی که واقعاً مورد نیاز است منطقی است. به عنوان مثال، برای عکاسی از یک شبح با پس زمینه خوب، عملکرد فشرده سازی محدوده دینامیکی باید خاموش شود - در غیر این صورت طرح تماشایی به طرز ناامیدکننده ای خراب می شود.

در پایان در نظر گرفتن این موضوع، لازم به ذکر است که استفاده از توابع فشرده سازی دامنه پویا به شما اجازه نمی دهد جزئیاتی را که توسط سنسور دوربین گرفته نشده است، در تصویر حاصل خارج کنید. برای به دست آوردن یک نتیجه رضایت بخش هنگام عکاسی از صحنه های با کنتراست بالا، لازم است از دستگاه های اضافی (مثلاً فیلترهای گرادیان برای عکاسی از مناظر) یا تکنیک های خاص (مانند گرفتن چندین عکس پرانتزی نوردهی و سپس ترکیب آنها در یک تصویر با استفاده از Tone Mapping) استفاده شود. فن آوری).

مقاله بعدی بر روی ویژگی عکاسی پشت سر هم تمرکز خواهد کرد.

ادامه دارد

بیایید به این سؤال فکر کنیم - چرا باید حجم را افزایش دهیم؟ برای شنیدن صداهای آرامی که در شرایط ما قابل شنیدن نیستند (به عنوان مثال، اگر نمی توانید با صدای بلند گوش کنید، اگر صداهای خارجی در اتاق وجود دارد و غیره). آیا می توان صداهای آرام را تقویت کرد، اما صداهای بلند را نه؟ معلوم می شود می توانید. این تکنیک فشرده سازی محدوده دینامیکی (DRC) نامیده می شود. برای انجام این کار، باید صدای فعلی را به طور مداوم تغییر دهید - صداهای آرام تقویت می شوند، صداهای بلند نه. ساده ترین قانون تغییر حجم خطی است، یعنی. حجم با توجه به قانون output_loudness = k * input_loudness تغییر می کند، که در آن k نسبت فشرده سازی محدوده دینامیکی است:

شکل 18. فشرده سازی محدوده دینامیکی.

برای k = 1 هیچ تغییری ایجاد نمی شود (حجم خروجی برابر با حجم ورودی است). چنگال< 1 громкость будет увеличиваться, а динамический диапазон - сужаться. Посмотрим на график (k=1/2) - тихий звук, имевший громкость -50дБ станет громче на 25дБ, что значительно громче, но при этом громкость диалогов (-27дБ) повысится всего лишь на 13.5дБ, а громкость самых громких звуков (0дБ) вообще не изменится. При k >1 - ولوم کاهش می یابد و دامنه دینامیکی افزایش می یابد.

بیایید به نمودارهای بلندی صدا نگاه کنیم (k = 1/2: فشرده سازی DD به نصف):

شکل 19. نمودارهای بلندی صدا.

همانطور که در نسخه اصلی مشاهده می کنید، هم صداهای بسیار آرام، 30 دسی بل زیر سطح دیالوگ ها و صداهای بسیار بلند - 30 دسی بل بالاتر از سطح دیالوگ ها وجود داشت. که محدوده دینامیکی 60dB بود. پس از فشرده سازی، صداهای بلند فقط 15 دسی بل بالاتر و صداهای ملایم 15 دسی بل کمتر از دیالوگ هستند (محدوده پویا اکنون 30 دسی بل است). بنابراین، صداهای بلند بسیار آرام تر و صداهای آرام بسیار بلندتر می شوند. در این صورت سرریز اتفاق نمی افتد!

حال به هیستوگرام ها می پردازیم:

شکل 20. نمونه ای از فشرده سازی.

همانطور که به وضوح می بینید، در افزایش +30dB، شکل هیستوگرام به خوبی حفظ می شود، به این معنی که صداهای بلند به خوبی مشخص می شوند (به حداکثر نمی رسند و قطع نمی شوند، همانطور که با افزایش ساده اتفاق می افتد). این صداهای آرام تولید می کند. هیستوگرام این را ضعیف نشان می دهد، اما این تفاوت در گوش بسیار محسوس است. عیب روش همین پرش های حجمی است. با این حال، مکانیسم وقوع آنها با جهش های حجمی که در حین برش اتفاق می افتد متفاوت است و ماهیت آنها متفاوت است - آنها عمدتاً زمانی ظاهر می شوند که صداهای آرام بسیار قوی هستند (و نه زمانی که صداهای بلند قطع می شوند، مانند تقویت معمولی). سطح بیش از حد فشرده سازی منجر به مسطح شدن تصویر صدا می شود - همه صداها به یک حجم و عدم بیان تمایل دارند.

صداهای آرام بسیار تقویت شده ممکن است باعث شنیده شدن نویز ضبط شود. بنابراین، یک الگوریتم کمی اصلاح شده در فیلتر اعمال می شود تا سطح نویز کمتر افزایش یابد:

شکل 21. افزایش صدا، بدون افزایش نویز.

آن ها در سطح ولوم 50- دسی بل، انحراف تابع انتقال رخ می دهد و نویز کمتر تقویت می شود (خط زرد). در صورت عدم وجود چنین خمشی، نویز بسیار بلندتر خواهد بود (خط خاکستری). چنین اصلاح ساده ای به میزان قابل توجهی میزان نویز را حتی در سطوح فشرده سازی بسیار بالا کاهش می دهد (فشرده سازی 1:5 در شکل). سطح "DRC" در فیلتر، سطح بهره را برای صداهای آرام تر (در -50dB) تنظیم می کند. سطح فشرده سازی 1/5 نشان داده شده در شکل مربوط به سطح +40dB در تنظیمات فیلتر است.

در زمانی که محققان تازه شروع به حل مشکل ایجاد یک رابط گفتار برای رایانه‌ها کرده بودند، اغلب مجبور بودند تجهیزات خود را بسازند که به شما امکان می‌دهد اطلاعات صوتی را به رایانه وارد کنید و همچنین آن را از رایانه خارج کنید. امروزه، چنین دستگاه‌هایی تنها ممکن است مورد توجه تاریخی باشند، زیرا رایانه‌های مدرن می‌توانند به راحتی به دستگاه‌های ورودی و خروجی صدا مانند آداپتورهای صدا، میکروفون، هدفون و بلندگو مجهز شوند.

ما به جزئیات ساختار داخلی این دستگاه ها نمی پردازیم، اما در مورد نحوه کار آنها صحبت خواهیم کرد و توصیه هایی برای انتخاب دستگاه های کامپیوتری صوتی برای کار با سیستم های تشخیص و سنتز گفتار ارائه خواهیم داد.

همانطور که در فصل قبل گفتیم صدا چیزی نیست جز ارتعاشات هوا که فرکانس آن در محدوده فرکانسی درک شده توسط شخص قرار دارد. در افراد مختلف، محدودیت های دقیق محدوده فرکانس های شنیداری ممکن است متفاوت باشد، اما اعتقاد بر این است که ارتعاشات صدا در محدوده 16-20000 هرتز قرار دارد.

وظیفه میکروفون تبدیل ارتعاشات صوتی به ارتعاشات الکتریکی است که می توان آن را تقویت کرد، فیلتر کرد تا نویز را حذف کند و برای وارد کردن اطلاعات صوتی به کامپیوتر دیجیتالی شود.

با توجه به اصل عملکرد، رایج ترین میکروفون ها به کربن، الکترودینامیک، کندانسور و الکترت تقسیم می شوند. برخی از این میکروفون ها نیاز دارند منبع خارجیجریان (به عنوان مثال، زغال سنگ و خازن)، دیگران، تحت تاثیر ارتعاشات صوتی، قادر به تولید مستقل ولتاژ الکتریکی متناوب هستند (اینها میکروفون های الکترودینامیک و الکترودی هستند).

همچنین می توانید میکروفون ها را بر اساس هدف جدا کنید. میکروفون‌های استودیویی وجود دارند که می‌توان آن‌ها را در دست نگه داشت یا روی پایه نصب کرد، میکروفون‌های رادیویی وجود دارند که می‌توان آن‌ها را به لباس متصل کرد و غیره.

همچنین میکروفون هایی وجود دارد که به طور خاص برای رایانه ها طراحی شده اند. این میکروفون ها معمولاً روی پایه ای که روی سطح میز قرار می گیرد نصب می شوند. همانطور که در شکل نشان داده شده است، میکروفون های کامپیوتری را می توان با هدفون ترکیب کرد. 2-1.

برنج. 2-1. گوشی های سر با میکروفون

چگونه از بین انواع میکروفون ها، میکروفونی را انتخاب کنیم که برای سیستم های تشخیص گفتار مناسب تر است؟

در اصل، می‌توانید با هر میکروفونی که دارید آزمایش کنید، به شرطی که بتوان آن را به آداپتور صوتی رایانه‌تان متصل کرد. با این حال، توسعه دهندگان سیستم های تشخیص گفتار، خرید میکروفونی را توصیه می کنند که در حین کار در فاصله ثابتی از دهان گوینده باشد.

اگر فاصله بین میکروفون و دهان تغییر نکند، سطح متوسط ​​سیگنال الکتریکی که از میکروفون می‌آید نیز زیاد تغییر نخواهد کرد. این تأثیر مثبتی بر کیفیت سیستم‌های تشخیص گفتار مدرن خواهد داشت.

مشکل اینجا چیست؟

یک فرد قادر به تشخیص موفقیت آمیز گفتار است که حجم آن در محدوده بسیار گسترده ای متفاوت است. مغز انسان قادر است گفتار آرام را از سر و صدایی مانند سر و صدای ماشین هایی که در خیابان در حال رانندگی هستند، مکالمات بیگانه و موسیقی فیلتر کند.

در مورد سیستم‌های تشخیص گفتار مدرن، توانایی‌های آن‌ها در این زمینه بسیار مورد نظر است. اگر میکروفون روی میز باشد، وقتی سر خود را بچرخانید یا وضعیت بدن خود را تغییر دهید، فاصله بین دهان و میکروفون تغییر می کند. این باعث تغییر سطح خروجی میکروفون می شود که به نوبه خود باعث کاهش قابلیت اطمینان تشخیص گفتار می شود.

بنابراین، هنگام کار با سیستم‌های تشخیص گفتار، در صورت استفاده از میکروفون متصل به هدفون، همانطور که در شکل نشان داده شده است، بهترین نتایج حاصل می‌شود. 2-1. هنگام استفاده از چنین میکروفونی، فاصله دهان و میکروفون ثابت خواهد بود.

ما همچنین توجه شما را به این واقعیت جلب می‌کنیم که همه آزمایش‌ها با سیستم‌های تشخیص گفتار بهتر است در اتاقی ساکت و خلوت انجام شوند. در این حالت، تأثیر تداخل حداقل خواهد بود. البته، اگر شما نیاز به انتخاب یک سیستم تشخیص گفتار دارید که بتواند در شرایط تداخل شدید کار کند، در این صورت تست ها باید متفاوت انجام شوند. با این حال، تا آنجا که نویسندگان کتاب می‌دانند، ایمنی سیستم‌های تشخیص گفتار در برابر نویز هنوز بسیار بسیار پایین است.

میکروفون تبدیل ارتعاشات صدا را به ارتعاش برای ما انجام می دهد. جریان الکتریسیته. این نوسانات را می توان در صفحه نمایش اسیلوسکوپ مشاهده کرد، اما برای خرید این دستگاه گران قیمت به فروشگاه عجله نکنید. ما می توانیم تمام مطالعات نوسان شناسی را با استفاده از یک کامپیوتر معمولی مجهز به آداپتور صدا، به عنوان مثال، آداپتور Sound Blaster انجام دهیم. بعداً به شما خواهیم گفت که چگونه این کار را انجام دهید.

روی انجیر 2-2 شکل موج را نشان داده ایم سیگنال صوتی، ناشی از تلفظ صدای بلند الف. این شکل موج با استفاده از برنامه GoldWave که بعداً در این فصل از کتاب به آن خواهیم پرداخت و همچنین با استفاده از یک آداپتور صوتی Sound Blaster و یک میکروفون مشابه آنچه در شکل نشان داده شده است به دست آمد. 2-1.

برنج. 2-2. اسیلوگرام سیگنال صوتی

برنامه GoldWave به شما امکان می دهد شکل موج را در امتداد محور زمان بکشید که به شما امکان می دهد کوچکترین جزئیات را مشاهده کنید. روی انجیر 2-3 ما یک قطعه کشیده از اسیلوگرام صدایی را که در بالا ذکر شد نشان داده ایم.

برنج. 2-3. قطعه ای از یک اسیلوگرام سیگنال صوتی

توجه داشته باشید که مقدار سیگنال ورودی میکروفون به صورت دوره ای تغییر می کند و مقادیر مثبت و منفی را به خود می گیرد.

اگر فقط یک فرکانس در سیگنال ورودی وجود داشت (یعنی اگر صدا "تمیز" بود)، شکل موج دریافتی از میکروفون سینوسی خواهد بود. با این حال، همانطور که قبلاً گفتیم، طیف صداهای گفتار انسان از مجموعه ای از فرکانس ها تشکیل شده است که در نتیجه شکل نوسان ساز سیگنال گفتار از سینوسی دور است.

سیگنالی که اندازه آن به طور پیوسته با زمان تغییر می کند، ما فراخوانی می کنیم سیگنال آنالوگ. این سیگنالی است که از میکروفون می آید. برخلاف آنالوگ، سیگنال دیجیتالمجموعه ای از مقادیر عددی است که به طور مجزا در طول زمان تغییر می کند.

برای اینکه کامپیوتر بتواند سیگنال صوتی را پردازش کند، باید از فرم آنالوگ به دیجیتال تبدیل شود، یعنی به صورت مجموعه ای از مقادیر عددی ارائه شود. این فرآیند دیجیتالی شدن آنالوگ نامیده می شود.

دیجیتالی کردن یک سیگنال صوتی (و هر آنالوگ) با استفاده از دستگاه خاصی به نام انجام می شود مبدل آنالوگ به دیجیتال ADC (مبدل آنالوگ به دیجیتال، ADC). این دستگاه بر روی برد آداپتور صدا قرار دارد و یک ریز مدار معمولی است.

مبدل آنالوگ به دیجیتال چگونه کار می کند؟

به صورت دوره ای سطح سیگنال ورودی را اندازه گیری می کند و مقدار عددی نتیجه اندازه گیری را در خروجی خروجی می دهد. این فرآیند در شکل نشان داده شده است. 2-4. در اینجا، مستطیل های خاکستری مقادیر سیگنال ورودی را که با یک بازه زمانی ثابت اندازه گیری می شود، مشخص می کنند. مجموعه چنین مقادیری نمایش دیجیتالی سیگنال آنالوگ ورودی است.

برنج. 2-4. اندازه گیری وابستگی دامنه سیگنال به زمان

روی انجیر در شکل 2-5، اتصال مبدل آنالوگ به دیجیتال به میکروفون را نشان داده ایم. در این حالت، یک سیگنال آنالوگ به ورودی x 1 اعمال می شود و یک سیگنال دیجیتال از خروجی های u 1 -u n حذف می شود.

برنج. 2-5. مبدل آنالوگ به دیجیتال

مبدل های آنالوگ به دیجیتال با دو پارامتر مهم مشخص می شوند - فرکانس تبدیل و تعداد سطوح کوانتیزاسیون سیگنال ورودی. انتخاب مناسب این پارامترها برای دستیابی به دیجیتالی شدن کافی سیگنال آنالوگ حیاتی است.

هر چند وقت یکبار نیاز به اندازه گیری مقدار دامنه سیگنال آنالوگ ورودی دارید تا اطلاعات مربوط به تغییرات سیگنال آنالوگ ورودی در نتیجه دیجیتالی شدن از بین نرود؟

به نظر می رسد که پاسخ ساده است - سیگنال ورودی باید تا حد امکان اندازه گیری شود. در واقع، هر چه مبدل آنالوگ به دیجیتال بیشتر چنین اندازه گیری هایی را انجام دهد، کوچکترین تغییرات در دامنه سیگنال ورودی آنالوگ را بهتر ردیابی می کند.

با این حال، اندازه گیری های بیش از حد مکرر می تواند منجر به افزایش ناموجه در جریان داده های دیجیتال و هدر رفتن منابع رایانه در پردازش سیگنال شود.

خوشبختانه انتخاب نرخ تبدیل مناسب (نرخ نمونه برداری) به اندازه کافی آسان است. برای این کار کافی است به قضیه کوتلنیکوف که متخصصان در زمینه پردازش سیگنال دیجیتال می شناسند مراجعه کنیم. این قضیه بیان می کند که فرکانس تبدیل باید دو برابر حداکثر فرکانس طیف سیگنال تبدیل شده باشد. بنابراین، برای دیجیتالی شدن بدون از دست دادن کیفیت سیگنال صوتی، که فرکانس آن در محدوده 16-20000 هرتز قرار دارد، باید فرکانس تبدیلی را انتخاب کنید که کمتر از 40000 هرتز نباشد.

البته توجه داشته باشید که در تجهیزات صوتی حرفه ای، فرکانس تبدیل چندین برابر بیشتر از مقدار مشخص شده انتخاب می شود. این برای رسیدن به یک بسیار انجام می شود کیفیت بالاصدای دیجیتالی شده برای سیستم های تشخیص گفتار، این کیفیت مناسب نیست، بنابراین توجه شما را به این انتخاب جلب نمی کنیم.

و چه فرکانس تبدیلی برای دیجیتالی کردن صدای گفتار انسان لازم است؟

از آنجایی که صداهای گفتار انسان در محدوده فرکانس 300-4000 هرتز قرار دارند، حداقل فرکانس تبدیل مورد نیاز 8000 هرتز است. با این حال، بسیاری از برنامه های کامپیوتریتشخیص گفتار از نرخ تبدیل استاندارد 44000 هرتز برای آداپتورهای صوتی معمولی استفاده می کند. از یک سو، چنین نرخ تبدیلی منجر به افزایش بیش از حد جریان داده های دیجیتال نمی شود و از سوی دیگر، دیجیتالی شدن گفتار را با کیفیت کافی تضمین می کند.

در دوران مدرسه به ما آموختند که با هر اندازه گیری، خطاهایی به وجود می آید که نمی توان آنها را به طور کامل برطرف کرد. چنین خطاهایی به دلیل وضوح محدود ابزار اندازه گیری و همچنین به دلیل این واقعیت است که فرآیند اندازه گیری خود می تواند تغییراتی در مقدار اندازه گیری ایجاد کند.

مبدل آنالوگ به دیجیتال سیگنال آنالوگ ورودی را به صورت جریانی از اعداد با ظرفیت محدود نشان می دهد. آداپتورهای صوتی معمولی شامل بلوک‌های ADC 16 بیتی هستند که می‌توانند دامنه سیگنال ورودی را به صورت مقادیر مختلف 216 = 65536 نشان دهند. دستگاه‌های ADC در تجهیزات صوتی پیشرفته می‌توانند 20 بیتی باشند و دقت بیشتری در نمایش دامنه سیگنال صوتی ارائه دهند.

سیستم ها و برنامه های تشخیص گفتار مدرن برای رایانه های معمولی مجهز به آداپتورهای صوتی معمولی ایجاد شد. بنابراین، برای انجام آزمایشات با تشخیص گفتار، نیازی به خرید آداپتور صوتی حرفه ای ندارید. آداپتوری مانند Sound Blaster برای دیجیتالی کردن گفتار برای تشخیص بیشتر مناسب است.

معمولاً همراه با سیگنال مفید، نویزهای مختلفی وارد میکروفون می شود - سر و صدای خیابان، صدای باد، مکالمات اضافی و غیره. نویز تاثیر منفی بر کیفیت سیستم های تشخیص گفتار دارد، بنابراین باید با آن مقابله کرد. یکی از راه‌هایی که قبلاً ذکر کردیم این است که سیستم‌های تشخیص گفتار امروزی بهتر است در یک اتاق ساکت و تنها با رایانه استفاده شوند.

با این حال، شرایط ایده آل را نمی توان همیشه ایجاد کرد، بنابراین باید از روش های خاصی برای خلاص شدن از شر تداخل استفاده کنید. برای کاهش سطح نویز، از ترفندهای خاصی در طراحی میکروفون ها و فیلترهای ویژه ای استفاده می شود که فرکانس هایی را از طیف سیگنال آنالوگ که حامل اطلاعات مفیدی نیستند، حذف می کند. علاوه بر این، از تکنیکی مانند فشرده سازی محدوده دینامیکی سطوح سیگنال ورودی استفاده می شود.

بیایید در مورد همه اینها به ترتیب صحبت کنیم.

فیلتر فرکانسدستگاهی که طیف فرکانس سیگنال آنالوگ را تبدیل می کند نامیده می شود. در این حالت، در فرآیند تبدیل، انتخاب (یا جذب) نوسانات فرکانس های خاص اتفاق می افتد.

شما می توانید این دستگاه را نوعی جعبه سیاه با یک ورودی و یک خروجی در نظر بگیرید. در رابطه با وضعیت ما، یک میکروفون به ورودی فیلتر فرکانس و یک مبدل آنالوگ به دیجیتال به خروجی متصل خواهد شد.

فیلترهای فرکانس متفاوت هستند:

فیلترهای کم گذر؛

فیلترهای بالا گذر

عبور از فیلترهای باند گذر

مسدود کردن فیلترهای باند گذر

فیلترهای پایین گذر(فیلتر پایین گذر) تمام فرکانس هایی را که مقادیر آنها زیر یک فرکانس آستانه مشخص است، بسته به تنظیمات فیلتر، از طیف سیگنال ورودی حذف کنید.

از آنجایی که سیگنال های صوتی در محدوده 16 تا 20000 هرتز قرار دارند، می توان تمام فرکانس های زیر 16 هرتز را بدون کاهش کیفیت صدا قطع کرد. برای تشخیص گفتار، محدوده فرکانس 300-4000 هرتز مهم است، بنابراین فرکانس های زیر 300 هرتز را می توان قطع کرد. در این حالت، تمام نویزها که طیف فرکانس آنها زیر 300 هرتز است، از سیگنال ورودی حذف می شود و در فرآیند تشخیص گفتار تداخلی ایجاد نمی کند.

به همین ترتیب، فیلترهای بالا گذر(فیلتر بالا گذر) تمام فرکانس های بالای یک فرکانس آستانه مشخص را از طیف سیگنال ورودی قطع می کند.

انسان نمی تواند صداهایی را در فرکانس های 20000 هرتز یا بالاتر بشنود، بنابراین می توان آنها را بدون کاهش قابل توجه کیفیت صدا از طیف خارج کرد. در مورد تشخیص گفتار، تمام فرکانس های بالای 4000 هرتز را می توان قطع کرد، که منجر به کاهش قابل توجهی در سطح تداخل فرکانس بالا خواهد شد.

فیلتر میان گذر(فیلتر باند گذر) را می توان ترکیبی از فیلتر پایین گذر و فیلتر بالا گذر در نظر گرفت. چنین فیلتری تمام فرکانس های زیر به اصطلاح را متوقف می کند فرکانس عبور پایین تر، و همچنین در بالا فرکانس عبور بالا.

بنابراین، برای یک سیستم تشخیص گفتار، یک فیلتر گذر باند راحت است که تمام فرکانس ها را به تاخیر می اندازد، به جز فرکانس های در محدوده 300-4000 هرتز.

در مورد فیلترهای band-stop (فیلتر band-stop)، آنها به شما امکان می دهند تمام فرکانس هایی را که در یک محدوده مشخص قرار دارند، از طیف سیگنال ورودی قطع کنید. چنین فیلتری مناسب است، به عنوان مثال، برای سرکوب نویزهایی که بخش پیوسته خاصی از طیف سیگنال را اشغال می کند.

روی انجیر 2-6 اتصال فیلتر عبوری را نشان داده ایم.

برنج. 2-6. فیلتر کردن سیگنال صوتی قبل از دیجیتالی کردن

باید بگویم که آداپتورهای صوتی معمولی نصب شده در رایانه دارای یک فیلتر باند گذر هستند که سیگنال آنالوگ قبل از دیجیتالی شدن از طریق آن عبور می کند. پهنای باند چنین فیلتری معمولاً با محدوده سیگنال های صوتی، یعنی 16-20000 هرتز مطابقت دارد (در آداپتورهای صوتی مختلف، مقادیر فرکانس های بالا و پایین ممکن است کمی متفاوت باشد).

اما چگونه می توان به پهنای باند باریک 300-4000 هرتز، مطابق با آموزنده ترین بخش طیف گفتار انسان دست یافت؟

البته، اگر تمایلی به طراحی تجهیزات الکترونیکی دارید، می توانید فیلتر خود را از تراشه تقویت کننده عملیاتی، مقاومت ها و خازن ها بسازید. این دقیقا همان کاری است که اولین سازندگان سیستم های تشخیص گفتار انجام دادند.

با این حال سیستم های صنعتیتشخیص گفتار باید بتواند روی سخت افزار استاندارد کامپیوتر کار کند، بنابراین روش ساخت فیلتر باند گذر ویژه در اینجا مناسب نیست.

در عوض، در سیستم های مدرنپردازش گفتار با استفاده از به اصطلاح فیلترهای فرکانس دیجیتالدر نرم افزار پیاده سازی شده است. بعد از این امکان پذیر شد CPUکامپیوتر به اندازه کافی قدرتمند شده است.

یک فیلتر فرکانس دیجیتال پیاده سازی شده در نرم افزار، سیگنال دیجیتال ورودی را به سیگنال دیجیتال خروجی تبدیل می کند. در طول فرآیند تبدیل، برنامه به روشی خاص جریان مقادیر عددی دامنه سیگنال را که از مبدل آنالوگ به دیجیتال می آید، پردازش می کند. نتیجه تبدیل نیز جریانی از اعداد خواهد بود، اما این جریان با سیگنال از قبل فیلتر شده مطابقت دارد.

با صحبت در مورد مبدل آنالوگ به دیجیتال، ما به ویژگی مهمی مانند تعداد سطوح کوانتیزاسیون اشاره کردیم. اگر یک مبدل 16 بیتی آنالوگ به دیجیتال در آداپتور صوتی نصب شده باشد، پس از دیجیتالی شدن، سطوح سیگنال صوتی را می توان به صورت مقادیر مختلف 216 = 65536 نشان داد.

اگر سطوح کمی وجود داشته باشد، به اصطلاح نویز کوانتیزاسیون. برای کاهش این نویز، سیستم های دیجیتالی سازی صوتی با کیفیت بالا باید از مبدل های آنالوگ به دیجیتال با حداکثر تعداد سطوح کوانتیزاسیون موجود استفاده کنند.

با این حال، ترفند دیگری برای کاهش اثر نویز کوانتیزاسیون بر کیفیت سیگنال صوتی وجود دارد که در سیستم های ضبط صدا دیجیتال استفاده می شود. با استفاده از این تکنیک، سیگنال قبل از دیجیتالی شدن از یک تقویت کننده غیر خطی عبور می کند که بر سیگنال هایی با دامنه سیگنال کوچک تأکید می کند. این دستگاه تقویت می کند سیگنال های ضعیفقوی تر از قوی تر

این با نمودار دامنه سیگنال خروجی در مقابل دامنه سیگنال ورودی نشان داده شده در شکل نشان داده شده است. 2-7.

برنج. 2-7. تقویت غیر خطی قبل از دیجیتالی شدن

در مرحله تبدیل صدای دیجیتالی شده به آنالوگ (که در ادامه این فصل به آن خواهیم پرداخت)، سیگنال آنالوگ مجدداً قبل از خروجی به بلندگوها از یک تقویت کننده غیر خطی عبور داده می شود. این بار، تقویت کننده متفاوتی استفاده می شود که بر سیگنال های دامنه بزرگ تأکید می کند و دارای یک مشخصه انتقال (وابستگی دامنه سیگنال خروجی به دامنه سیگنال ورودی) است که برعکس آن چیزی است که در طول دیجیتالی سازی استفاده می شود.

چگونه همه اینها می تواند به سازندگان سیستم های تشخیص گفتار کمک کند؟

همانطور که می دانید، یک شخص در تشخیص گفتاری که با زمزمه آهسته یا با صدای نسبتا بلند بیان می شود، بسیار خوب است. می توان گفت که محدوده دینامیکی سطوح حجم گفتار با موفقیت تشخیص داده شده برای یک فرد بسیار گسترده است.

امروز سیستم های کامپیوتریمتأسفانه، تشخیص گفتار هنوز نمی تواند به این موضوع ببالد. با این حال، به منظور گسترش کمی محدوده دینامیکی مشخص شده قبل از دیجیتالی شدن، می توان سیگنال را از میکروفون از طریق یک تقویت کننده غیر خطی عبور داد که مشخصه انتقال آن در شکل نشان داده شده است. 2-7. این باعث کاهش نویز کوانتیزاسیون هنگام دیجیتالی کردن سیگنال های ضعیف می شود.

توسعه دهندگان سیستم های تشخیص گفتار، دوباره، مجبور هستند که عمدتاً روی آداپتورهای صوتی موجود تجاری تمرکز کنند. آنها تبدیل سیگنال غیرخطی که در بالا توضیح داده شد را ارائه نمی دهند.

با این حال، می توان نرم افزاری معادل یک تقویت کننده غیر خطی ایجاد کرد که سیگنال دیجیتالی شده را قبل از ارسال آن به ماژول تشخیص گفتار تبدیل می کند. و اگرچه چنین تقویت کننده نرم افزاری قادر به کاهش نویز کوانتیزاسیون نخواهد بود، می توان از آن برای تأکید بر سطوح سیگنالی که بیشترین اطلاعات گفتاری را حمل می کنند استفاده کرد. به عنوان مثال، می توانید دامنه سیگنال های ضعیف را کاهش دهید، بنابراین سیگنال را از نویز خلاص کنید.

فشرده سازی یکی از اسطوره ای ترین موضوعات در تولید صدا است. آنها می گویند که بتهوون حتی بچه های همسایه اش را می ترساند:

خوب، در واقع، اعمال فشرده سازی دشوارتر از استفاده از اعوجاج نیست، نکته اصلی این است که بدانید چگونه کار می کند و کنترل خوب. چیزی که ما الان با هم هستیم و مطمئن هستیم.

فشرده سازی صدا چیست؟

اولین چیزی که قبل از آماده سازی باید فهمید این است که فشرده سازی است با محدوده دینامیکی صدا کار کنید. و به نوبه خود چیزی بیش از تفاوت بین بلندترین و بی صداترین سطح سیگنال نیست:

پس اینجاست فشرده سازی فشرده سازی محدوده دینامیکی است. آره، به سادگیفشرده سازی محدوده دینامیکی یا به عبارت دیگر صدای قسمت های بلند سیگنال را کاهش دهید و صدای بخش های آرام را افزایش دهید. بیشتر نه.

شما کاملاً می توانید تعجب کنید که دلیل چنین تبلیغاتی چیست؟ چرا همه در مورد دستور العمل های تنظیم مناسب کمپرسور صحبت می کنند، اما کسی آنها را به اشتراک نمی گذارد؟ چرا با وجود تعداد زیادی پلاگین جالب، آیا بسیاری از استودیوها هنوز از مدل های کمیاب گران قیمت کمپرسور استفاده می کنند؟ چرا برخی از تولیدکنندگان از کمپرسورها در تنظیمات شدید استفاده می کنند، در حالی که برخی دیگر اصلاً از آنها استفاده نمی کنند؟ و در نهایت کدام یک درست است؟

مشکلاتی که فشرده سازی حل می کند

پاسخ به چنین سؤالاتی در سطح درک نقش فشرده سازی در کار با صدا نهفته است. و اجازه می دهد:

  1. بر حمله تاکید کنیدصدا، آن را برجسته تر کنید.
  2. بخش‌های جداگانه سازها را در ترکیب قرار دهید، افزودن قدرت و "وزن" به آنها;
  3. گروه های ساز یا کل ترکیب را منسجم تر کنید، چنین یکپارچه واحد;
  4. تضاد بین ابزارها را حل کنید با استفاده از زنجیره جانبی ;
  5. ایرادات خواننده یا نوازندگان را اصلاح کنیدتسطیح پویایی آنها.
  6. با یک تنظیم خاص به عنوان یک اثر هنری عمل کند.

همانطور که می بینید، این فرآیند خلاقانه کمتر از مثلاً اختراع ملودی ها یا نواختن صداهای جالب نیست. در این صورت هر یک از کارهای فوق با استفاده از 4 پارامتر اصلی قابل حل است.

پارامترهای اصلی کمپرسور

علیرغم تعداد زیاد مدل های نرم افزاری و سخت افزاری کمپرسورها، تمام "جادوی" فشرده سازی با تنظیمات صحیح پارامترهای اصلی رخ می دهد: آستانه، نسبت، حمله و انتشار. بیایید آنها را با جزئیات بیشتری در نظر بگیریم:

آستانه یا آستانه، دسی بل

این پارامتر به شما امکان می دهد مقداری را که کمپرسور در آن کار می کند (یعنی فشرده سازی سیگنال صوتی) تنظیم کنید. بنابراین، اگر آستانه را روی -12 دسی بل تنظیم کنیم، کمپرسور فقط در آن مکان هایی در محدوده دینامیکی که از این مقدار فراتر می روند، وارد عمل می شود. اگر همه صدای ما ساکت تر از -12db باشد، کمپرسور به سادگی آن را از خود عبور می دهد بدون اینکه به هیچ وجه روی آن تأثیر بگذارد.

نسبت یا نسبت ابعاد

پارامتر نسبت تعیین می کند که اگر سیگنال از آستانه فراتر رود چقدر فشرده می شود. کمی ریاضی برای تکمیل تصویر: فرض کنید یک کمپرسور با آستانه 12-dB با نسبت 2:1 راه اندازی کردیم و روی آن اعمال کردیم. حلقه درام، که در آن حجم ضربه -4dB است. نتیجه عملکرد کمپرسور در این صورت چه خواهد بود؟

در مورد ما، سطح ضربه 8 دسی بل از آستانه فراتر می رود. این اختلاف با توجه به نسبت به 4dB (8dB / 2) فشرده خواهد شد. همراه با بخش پردازش نشده سیگنال، این منجر به این واقعیت می شود که پس از پردازش توسط کمپرسور، حجم ضربه به -8db خواهد بود (آستانه -12dB + سیگنال فشرده 4dB).

حمله کن خانم

این زمانی است که پس از آن کمپرسور به تجاوز از آستانه واکنش نشان می دهد. یعنی اگر زمان حمله بالاتر از 0ms − باشد کمپرسور شروع به فشرده سازی می کندفراتر رفتن از سیگنال آستانه آنی نیست، بلکه پس از زمان مشخص شده است.

انتشار یا بازیابی، ms

برعکس حمله - مقدار این پارامتر به شما امکان می دهد تعیین کنید که چه مدت پس از بازگشت سطح سیگنال به زیر آستانه کمپرسور فشرده سازی را متوقف می کند.

قبل از اینکه به جلو برویم، اکیداً توصیه می‌کنم یک نمونه شناخته شده بگیرید، هر کمپرسور را به کانال آن متصل کنید و پارامترهای فوق را به مدت 5-10 دقیقه آزمایش کنید تا مواد را به طور ایمن ثابت کنید.

همه سایر پارامترها اختیاری هستند. آنها می توانند بین مدل های مختلف کمپرسور متفاوت باشند، به همین دلیل است که تولیدکنندگان از مدل های مختلف برای هر هدف خاصی استفاده می کنند (به عنوان مثال، یک کمپرسور برای آواز، دیگری برای گروه درام، سومی برای یک کانال اصلی). من به جزئیات روی این پارامترها نمی پردازم، بلکه فقط ارائه خواهم داد اطلاعات کلیبرای فهمیدن اینکه همه چیز در مورد چیست:

  • زانو یا پیچ خوردگی (زانو سخت/نرم). این پارامتر تعیین می کند که نسبت تراکم (نسبت) با چه سرعتی اعمال شود: سخت روی یک منحنی یا صاف. توجه داشته باشم که در حالت Soft Knee، کمپرسور در یک خط مستقیم کار نمی کند، اما به آرامی شروع به کار می کند (تا جایی که ممکن است زمانی که در مورد میلی ثانیه صحبت می کنیم) صدا را سفت کند. قبلاً قبل از مقدار آستانه. برای پردازش گروه‌هایی از کانال‌ها و ترکیب کلی، از زانوی نرم بیشتر استفاده می‌شود (زیرا به طور نامحسوس کار می‌کند)، و زانوی سخت برای تأکید بر حمله و سایر ویژگی‌های سازهای فردی استفاده می‌شود.
  • حالت پاسخگویی: پیک/RMS. حالت اوج زمانی توجیه می شود که شما نیاز به محدود کردن شدید انفجارهای دامنه و همچنین سیگنال هایی با شکل پیچیده دارید که دینامیک و خوانایی آن باید به طور کامل منتقل شود. حالت RMS روی صدا بسیار ملایم است و به شما این امکان را می دهد که آن را متراکم کنید و در عین حال حمله را حفظ کنید.
  • پیش اندیشی (نگاه به جلو). این زمانی است که کمپرسور می‌داند چه انتظاری دارد. نوعی تجزیه و تحلیل اولیه سیگنال های دریافتی؛
  • آرایش یا سود. پارامتری که به شما امکان می دهد کاهش حجم در نتیجه فشرده سازی را جبران کنید.

اول و اکثر توصیه اصلی ، که تمام سوالات بیشتر در مورد فشرده سازی را حذف می کند: اگر الف) اصل فشرده سازی را درک می کنید، ب) کاملاً می دانید که چگونه این یا آن پارامتر بر صدا تأثیر می گذارد، و ج) توانستید چندین مورد را امتحان کنید. مدل های مختلفشما نیازی به مشاوره ندارید.

من کاملا جدی هستم. اگر این ورودی را به دقت بخوانید، با کمپرسور معمولی خود آزمایش کرده اید DAWو یکی دو تا پلاگین ها، اما من هنوز نفهمیدم که در چه مواردی باید مقادیر حمله بزرگ را تنظیم کرد، کدام نسبت اعمال شود و در کدام یک از حالت ها سیگنال اصلی پردازش شود - سپس به جستجوی اینترنت برای دستور العمل های آماده ادامه خواهید داد. از آنها در هر جایی بی فکر استفاده کنید.

دستور العمل های تنظیم دقیق کمپرسوراین چیزی شبیه دستور العمل هایی برای تنظیم دقیق یک ریورب یا کر است - هیچ معنایی ندارد و ربطی به خلاقیت ندارد. بنابراین، من به طور مداوم تنها دستور العمل واقعی را تکرار می کنم: خود را با این مقاله مسلح کنید، هدفون مانیتور خوب، یک پلاگین برای کنترل بصری شکل موج و گذراندن عصر در شرکت چند کمپرسور.

اقدام به!




بالا