Компресія практично. Динамічна компресія Динамічний діапазон стислий або стандартний

Ця група методів заснована на тому, що сигнали, що передаються, піддаються нелінійним перетворенням амплітуди, причому в передавальної і приймальній частинах нелінійності взаємозворотні. Наприклад, якщо в передавачі використовується нелінійна функція Öu, у приймачі – u2. Послідовне застосування взаємозворотних функцій призведе до того, що загалом перетворення залишається лінійним.

Ідея нелінійних методів стиснення даних зводиться до того, що передавач може при тій же амплітуді вихідних сигналів передати більший діапазон зміни параметра, що передається (тобто, більший динамічний діапазон). Динамічний діапазон- це виражене у відносних одиницях чи децибелах відношення найбільшої допустимої амплітуди сигналу до найменшої:

; (2.17)
. (2.18)

Природне бажання збільшити динамічний діапазон за допомогою зменшення U min обмежується чутливістю апаратури та зростанням впливу перешкод та власних шумів.

Найчастіше стиск динамічного діапазону здійснюється за допомогою пари взаємозворотних функцій логарифмування та потенціювання. Перша операція зміни амплітуди називається компресією(стисненням), друга - експандуванням(Розтягненням). Вибір саме цих функцій пов'язаний з їхньою найбільшою можливістю компресії.

У той самий час ці методи мають недоліки. Перший у тому, що логарифм малого числа негативний й у межі:

тобто чутливість дуже нелінійна.

Для зменшення цих недоліків обидві функції модифікують зміщенням та апроксимацією. Наприклад, для телефонних каналів апроксимована функція має вигляд (тип А):

причому А = 87,6. Виграш від стиснення становить 24дБ.

Стиснення даних шляхом нелінійних процедур реалізується аналоговими засобами з великими похибками. Застосування цифрових засобівможе суттєво підвищити точність чи швидкодію перетворення. При цьому пряме застосування коштів обчислювальної техніки(тобто, безпосереднє обчислення логарифмів і експонент) дасть не найкращий результат через низьку швидкодію і похибку обчислення, що накопичується.

Стиснення даних шляхом компресії через обмеження точності використовується в невідповідних випадках, наприклад, для передачі мови по телефонних і радіоканалах.

Ефективне кодування

Ефективні коди були запропоновані К. Шенноном, Фано та Хафманом. Сутність кодів полягає в тому, що вони нерівномірні, тобто з неоднаковим числом розрядів, причому довжина коду обернено пропорційна ймовірності його появи. Ще одна чудова особливість ефективних кодів – вони не вимагають роздільників, тобто спеціальних символів, що поділяють сусідні кодові комбінації Це досягається при дотриманні простого правила: коротші коди не є початком довших. У цьому випадку суцільний потік двійкових розрядів однозначно декодується, оскільки декодер виявляє спочатку коротші кодові комбінації. Ефективні коди довгий час були чисто академічними, але останнім часом успішно використовуються при формуванні баз даних, а також при стисканні інформації в сучасних модемах та програмних архіваторах.

Через нерівномірність вводять середню довжину коду. Середня довжина - математичне очікування довжини коду:

причому, l ср прагне H(x) зверху (тобто l ср > H(x)).

Виконання умови (2.23) посилюється зі збільшенням N.

Існує два різновиди ефективних кодів: Шеннона-Фано та Хафмана. Розглянемо їх отримання з прикладу. Припустимо, що ймовірності символів у послідовності мають значення, наведені в таблиці 2.1.

Таблиця 2.1.

Ймовірність символів

N
p i 0.1 0.2 0.1 0.3 0.05 0.15 0.03 0.02 0.05

Символи ранжуються, тобто подаються в ряд за спаданням ймовірностей. Після цього методом Шеннона-Фано періодично повторюється така процедура: вся група подій ділиться на дві підгрупи з однаковими (або приблизно однаковими) сумарними ймовірностями. Процедура триває до тих пір, поки в черговій підгрупі не залишиться один елемент, після чого цей елемент усувається, а з зазначеними діями, що залишилися, продовжуються. Це відбувається до тих пір, поки останніх двох підгрупах не залишиться по одному елементу. Продовжимо розгляд нашого прикладу, що зведено у таблиці 2.2.

Таблиця 2.2.

Кодування за методом Шеннона-Фано

N P i
4 0.3 I
0.2 I II
6 0.15 I I
0.1 II
1 0.1 I I
9 0.05 II II
5 0.05 II I
7 0.03 II II I
8 0.02 II

Як видно з таблиці 2.2, перший символ з ймовірністю p 4 = 0.3 брав участь у двох процедурах розбиття на групи та обидва рази потрапляв до групи з номером I . Відповідно до цього він кодується дворозрядним кодом ІІ. Другий елемент першому етапі розбиття належав групі I, другою - групі II. Тому його код 10. Коди інших символів додаткових коментарів не потребують.

Зазвичай нерівномірні коди зображують як кодових дерев. Кодове дерево - це граф, що вказує на дозволені кодові комбінації. Попередньо задають напрямки ребер цього графа, як показано на рис.2.11 (вибір напрямів довільний).

По графу орієнтуються так: складають маршрут для виділеного символу; кількість розрядів йому дорівнює кількості ребер у маршруті, а значення кожного розряду дорівнює напрямку відповідного ребра. Маршрут складається з вихідної точки (на кресленні вона позначена літерою А). Наприклад, маршрут у вершину 5 складається з п'яти ребер, з яких всі крім останнього мають напрям 0; отримуємо код 00001.

Обчислимо для цього прикладу ентропію та середню довжину слова.

H(x) = -(0.3 log 0.3 + 0.2 log 0.2 + 2 0.1 log 0.1+ 2 0.05 log 0.05+

0.03 log 0.03 + 0.02 log 0.02) = 2.23 біт

l ср = 0.3 2 + 0.2 2 + 0.15 3 + 0.1 3 + 0.1 4 + 0.05 5 +0.05 4+

0.03 6 + 0.02 6 = 2.9 .

Як бачимо, середня довжина слова близька до ентропії.

Коди Хафмана будуються за іншим алгоритмом. Процедура кодування складається із двох етапів. На першому етапі послідовно проводять одноразові стискування алфавіту. Одноразовий стиск - заміна двох останніх символів (з нижчими ймовірностями) одним, із сумарною ймовірністю. Стиснення проводять доти, доки не залишиться два символи. При цьому заповнюють таблицю кодування, в якій проставляють результуючі ймовірності, а також зображують маршрути, якими нові символи переходять на наступному етапі.

На другому етапі відбувається власне кодування, яке починається з останнього етапу: першому із двох символів надають код 1, другому - 0. Після цього переходять на попередній етап. До символів, які не брали участь у стисканні на цьому етапі, приписують коди з наступного етапу, а до двох останніх символів двічі приписують код символу, отриманого після склеювання, та дописують до коду верхнього символу 1, нижнього - 0. Якщо символ далі у склеюванні не бере участь, його код залишається незмінним. Процедура триває остаточно (тобто першого етапу).

У таблиці 2.3 показано кодування алгоритму Хафмана. Як видно з таблиці, кодування здійснювалося за 7 етапів. Зліва вказано ймовірність символів, праворуч - проміжні коди. Стрілки показують переміщення новостворених символів. На кожному етапі два останні символи відрізняються лише молодшим розрядом, що відповідає методиці кодування. Обчислимо середню довжину слова:

l ср = 0.3 2 + 0.2 2 + 0.15 3 ++ 2 0.1 3 + +0.05 4 + 0.05 5 + 0.03 6 + 0.02 6 = 2.7

Це ще ближче до ентропії: код ще ефективніший. На рис. 2.12 наведено дерево коду Хафмана.

Таблиця 2.3.

Кодування за алгоритмом Хафмана

N p i код I II III IV V VI VII
0.3 0.3 11 0.3 11 0.3 11 0.3 11 0.3 11 0.4 0 0.6 1
0.2 0.2 01 0.2 01 0.2 01 0.2 01 0.3 10 0.3 11 0.4 0
0.15 0.15 101 0.15 101 0.15 101 0.2 00 0.2 01 0.3 10
0.1 0.1 001 0.1 001 0.15 100 0.15 101 0.2 00
0.1 0.1 000 0.1 000 0.1 001 0.15 100
0.05 0.05 1000 0.1 1001 0.1 000
0.05 0.05 10011 0.05 1000
0.03 0.05 10010
0.02

Обидва коди задовольняють вимогу однозначності декодування: як видно з таблиць, більш короткі комбінації є початком довших кодів.

При збільшенні кількості символів ефективності кодів зростають, тому в деяких випадках кодують більші блоки (наприклад, якщо мова йдепро тексти, можна кодувати деякі склади, слова, що найчастіше зустрічаються, і навіть фрази).

Ефект від впровадження таких кодів визначається порівняно з рівномірним кодом:

(2.24)

де n – кількість розрядів рівномірного коду, який замінюється ефективним.

Модифікації кодів Хафмана

Класичний алгоритм Хафмана належить до двопрохідним, тобто. вимагає спочатку набору статистики за символами і повідомленнями, та був описаних вище процедур. Це незручно практично, оскільки збільшує час обробки повідомлень і накопичення словника. Найчастіше використовуються однопрохідні методи, у яких процедури накопичення та кодування поєднуються. Такі методи називаються ще адаптивним стисненням по Хафман [46].

Сутність адаптивного стиснення по Хафману зводиться до побудови початкового кодового дерева та його послідовної модифікації після надходження кожного чергового символу. Як і колись, дерева тут бінарні, тобто. з кожної вершини графа – дерева виходить максимум дві дуги. Прийнято називати вихідну вершину батьком, а дві пов'язані з нею наступні вершини - дітьми. Введемо поняття ваги вершини - кількість символів (слів), відповідних даної вершині, отриманих при подачі вихідної послідовності. Очевидно, що сума ваги дітей дорівнює вазі батька.

Після введення чергового символу вхідної послідовності переглядається кодове дерево: перераховуються ваги вершин і за необхідності вершини переставляються. Правило перестановки вершин таке: ваги нижніх вершин найменші, причому вершини, що знаходяться зліва на графі, мають найменші ваги.

Одночасно вершини нумеруються. Нумерація починається з нижніх (висять, тобто не мають дітей) вершин зліва направо, потім переноситься на верхній рівеньі т.д. до нумерації останньої вихідної вершини. При цьому досягається наступний результат: чим менша вага вершини, тим менший її номер.

Перестановка здійснюється переважно для висячих вершин. При перестановці має бути враховано сформульоване вище правило: вершини з великою вагою мають і більший номер.

Після проходження послідовності (вона називається також контрольною або тестовою) всім висячим вершинам присвоюються кодові комбінації. Правило присвоєння кодів аналогічно до вищевикладеного: кількість розрядів коду дорівнює кількості вершин, через які проходить маршрут від вихідної до цієї висячої вершини, а значення конкретного розряду відповідає напрямку від батька до "дитини" (скажімо, перехід вліво від батька відповідає значенню 1, вправо - 0 ).

Отримані кодові комбінації заносяться в пам'ять пристрою стиснення разом з аналогами і утворюють словник. Використання алгоритму ось у чому. Стискана послідовність символів розбивається на фрагменти відповідно до наявного словника, після чого кожен із фрагментів замінюється його кодом зі словника. Не виявлені у словнику фрагменти утворюють нові висячі вершини, набувають ваги і також заносяться до словника. У такий спосіб формується адаптивний алгоритм поповнення словника.

Для підвищення ефективності методу бажано збільшувати розмір словника; у цьому випадку коефіцієнт стиснення підвищується. Фактично розмір словника становить 4 - 16 Кбайт пам'яті.


Проілюструємо наведений алгоритм прикладом. На рис. 2.13 наведено вихідну діаграму (її називають також деревом Хафмана). Кожна вершина дерева показана прямокутником, у якому вписані через дріб дві цифри: перша означає номер вершини, друга - її вага. Як можна переконатися, відповідність ваги вершин та їх номерів виконується.

Припустимо тепер, що символ, що відповідає вершині 1, у тестовій послідовності зустрівся вдруге. Вага вершини змінилася, як показано на рис. 2.14, внаслідок чого правило нумерації вершин порушено. На наступному етапі міняємо розташування висячих вершин, для чого міняємо місцями вершини 1 і 4 і перенумеровуємо всі вершини дерева. Отриманий граф наведено на рис. 2.15. Далі процедура продовжується аналогічно.

Слід пам'ятати, що кожна висяча вершина в дереві Хафмана відповідає певному символу або їх групі. Батько відрізняється від дітей тим, що група символів, йому відповідна, на один символ коротший, ніж у дітей, а ці діти різняться останнім символом. Наприклад, батькові відповідають символи "кар"; тоді в дітей віком можуть бути послідовності " кара " і " короп " .

Наведений алгоритм не є академічним і активно використовується в програмах - архіваторах, у тому числі при стисканні графічних даних (про них йтиметься нижче).

Алгоритми Лемпеля – Зіва

Це найчастіше використовувані нині алгоритми стискування. Вони використовуються в більшості програм - архіваторів (наприклад, PKZIP. ARJ, LHA). Сутність алгоритмів полягає в тому, що деяка сукупність символів замінюється при архівуванні її номером у спеціально словнику, що формується. Наприклад, фраза "На ваш лист вихідний номер...", що часто зустрічається в діловому листуванні, може займати у словнику позицію 121; тоді замість передачі або зберігання згаданої фрази (30 байт) можна зберігати номер фрази (1,5 байта у двійково-десятковій формі або 1 байт - у двійковій).

Алгоритми названо на честь авторів, які вперше запропонували їх у 1977 році. З них перший – LZ77. Для архівування створюється так зване ковзне за повідомленням вікно, що складається із двох частин. Перша частина, більшого формату, служить для формування словника і має розмір кількох кілобайт. У другу, меншу частину (зазвичай розміром до 100 байт) приймаються поточні символи тексту, що переглядається. Алгоритм намагається знайти у словнику сукупність символів, яка збігається з прийнятими у вікно перегляду. Якщо це вдається, формується код, що складається з трьох частин: зміщення в словнику щодо його початкового підрядка, довжина цього підрядка, що йде за цим підрядком символ. Наприклад, виділений підрядок складається з символів "додатків" (всього 6 символів), наступний за нею символ - "е". Тоді, якщо підрядок має адресу (місце у словнику) 45, то запис у словник має вигляд "45, 6. е". Після цього вміст вікна зсувається на позицію, і пошук продовжується. У такий спосіб формується словник.

Перевагою алгоритму є легко сформульований алгоритм складання словника. Крім того, можливе розархівування без початкового словника (бажано при цьому мати тестову послідовність) - словник формується по ходу розархівування.

Недоліки алгоритму виникають зі збільшенням розміру словника - збільшується час на пошук. З іншого боку, якщо у поточному вікні з'являється рядок символів, відсутня у словнику, триелементним кодом записується кожен символ, тобто. виходить не стиск, а розтяг.

Найкращі характеристики має алгоритм LZSS, запропонований 1978г. У ньому є відмінності у підтримці ковзного вікна та вихідних кодах компресора. Крім вікна, алгоритм формує двійкове дерево, аналогічне дереву Хафмана для прискорення пошуку збігів: кожен підрядок, що залишає поточне вікно, додається до дерева як одного з дітей. Такий алгоритм дозволяє додатково збільшити розмір поточного вікна (бажано, щоб його величина дорівнювала ступені двійки: 128, 256 і т.д. байт). Інакше формуються і коди послідовностей: додатково вводиться 1-бітний префікс для розрізнення незакодованих символів від пар "зміщення, довжина".

Ще більший ступінь стиснення виходить при використанні алгоритмів типу LZW. Описані раніше алгоритми мають фіксований розмір вікна, що призводить до неможливості занесення до словника фраз довше за розмір вікна. В алгоритмах LZW (та їх попередника LZ78) вікно перегляду має необмежений розмір, а словник накопичує фрази (а не сукупність символів, як раніше). Словник має необмежену довжину, а кодер (декодер) працюють у режимі очікування фрази. Коли фраза, що збігається зі словником, сформована, видається код збігу (тобто код цієї фрази у словнику) і код символу, що за ним слідує. Якщо в міру накопичення символів утворюється нова фраза, вона також заноситься до словника, як і коротша. В результаті утворюється рекурсивна процедура, що забезпечує швидке кодування та декодування.

Додаткову можливість компресії забезпечує стисле кодування символів, що повторюються. Якщо в послідовності деякі символи йдуть поспіль (наприклад, у тексті це можуть бути символи "пробіл", в числовій послідовності - нулі, що поспіль, і т.д.), то має сенс замінювати їх парою "символ; довжина" або "ознака, довжина ". У першому випадку в коді вказується ознака, що буде здійснюватися кодування послідовності (зазвичай 1 біт), потім код символу, що повторюється, і довжина послідовності. У другому випадку (передбаченому для символів, що найчастіше зустрічаються) у префіксі вказується просто ознака повторів.

Динамічна компресія(Dynamic range compression, DRC) – звуження (або розширення у разі експандера) динамічного діапазону фонограми. Динамічний діапазон, Це різниця між тихим і найгучнішим звуком. Іноді найтишнішим у фонограмі буде звук трохи гучніший за рівень шуму, а іноді трохи тихіше за найгучніший. Апаратні пристрої та програми, що здійснюють динамічну компресію, називають компресорами, виділяючи серед них чотири основні групи: власне компресори, лімітери, експандери та гейти.

Ламповий аналоговий компресор DBX 566

Знижувальна та підвищуюча компресія

Знижувальна компресія(Downward compression) зменшує гучність звуку, коли вона починає перевищувати певне граничне значення, залишаючи тихіші звуки у незмінному вигляді. Екстремальним варіантом понижувальної компресії є лімітер. Підвищуюча компресія(Upward compression), навпаки, збільшує гучність звуку, якщо вона нижча від порогового значення, не торкаючись більш гучних звуків. При цьому обидва види компресії звужують динамічний діапазон аудіосигналу.

Знижувальна компресія

Підвищуюча компресія

Експандер та Гейт

Якщо компресор зменшує динамічний діапазон, його експандер збільшує. Коли рівень сигналу стає вищим за пороговий рівень, експандер збільшує його ще більше, таким чином збільшуючи різницю між гучними і тихими звуками. Подібні пристрої часто використовуються при записі барабанної установки, щоб відокремити звуки барабанів від інших.

Тип експандера, який використовується не для посилення гучних, а для заглушення тихих звуків, що не перевищують рівня порогового значення (наприклад, шумів фону) називається Noise gate. У такому пристрої, як тільки рівень звуку стає меншим за пороговий, проходження сигналу припиняється. Зазвичай гейт використовується для зменшення шуму в паузах. На деяких моделях можна зробити так, щоб звук при досягненні порогового рівня не припинявся різко, а поступово згасав. В цьому випадку швидкість загасання встановлюється регулятором Decay (спад).

Гейт, як і інші типи компресорів, може бути частотно-залежним(тобто по-різному обробляти певні частотні смуги) і може працювати в режимі side-chain(див. нижче).

Принцип роботи компресора

Сигнал, який потрапляє в компресор, поділяється на дві копії. Одна копія спрямовується на підсилювач, в якому ступінь посилення управляється зовнішнім сигналом, друга копія формує цей сигнал. Вона потрапляє в пристрій, званий side-chain, де сигнал вимірюється, і на основі цих даних створюється огинаюча, що описує зміну його гучності.
Так улаштована більшість сучасних компресорів, це так званий тип feed-forward. У старіших пристроях (тип feedback) рівень сигналу вимірюється після підсилювача.

Існують різні аналогові технології керованого посилення (variable-gain amplification), кожна зі своїми перевагами та недоліками: лампові, оптичні з використанням фоторезистрів та транзистрні. При роботі з цифровим звуком (у звуковому редакторіабо DAW) можуть використовуватися власні математичні алгоритми або емулювати роботу аналогових технологій.

Основні параметри компресорів

Threshold

Компресор зменшує рівень аудіосигналу, якщо його амплітуда перевищує певне граничне значення (threshold). Воно зазвичай вказується в децибелах, при цьому нижчий threshold (наприклад -60 dB) означає, що буде оброблено більше звуку, ніж при більш високому порозі (наприклад, -5 dB).

Ratio

Ступінь зменшення рівня визначається параметром ratio (ставлення): ratio 4:1 означає, що якщо вхідний рівень на 4 дБ перевищує поріг, рівень вихідного сигналу буде вищим за поріг на 1 дБ.
Наприклад:
Threshold = −10 dB
Вхідний сигнал = −6 dB (на 4 dB вище за пороговий рівень)
Вихідний сигнал = −9 dB (на 1 dB вище за пороговий рівень)

Важливо мати на увазі, що пригнічення рівня сигналу триває і деякий час після того, як він впаде нижче за пороговий рівень, і цей час визначається значенням параметра release.

Компресія з максимальним значенням ratio ∞:1 називається лімітуванням (limiting). Це означає, що будь-який сигнал вище за пороговий рівень пригнічується до порогового рівня (за винятком короткого періоду після різкого збільшення вхідної гучності). Докладніше див. нижче «Лімітер».

Приклади різних значень Ratio

Attack та Release

Компресор надає певний контроль над тим, як швидко він реагує зміну динаміки сигналу. Параметр Attack визначає час, протягом якого компресор зменшує коефіцієнт посилення рівня, що визначається параметром Ratio. Release визначає час, протягом якого компресор, навпаки, збільшує коефіцієнт посилення, або повертає до нормального, якщо рівень вхідного сигналу падає нижче за порогове значення.

Фази Attack та Release

Ці параметри вказують час (зазвичай у мілісекундах), який знадобиться для зміни посилення на певну кількість децибелів, зазвичай це 10 дБ. Наприклад, у разі, якщо Attack встановлено на 1 мс, зменшення посилення на 10 дБ потрібно 1 мс, але в 20 дБ - 2 мс.

Багато компресорах параметри Attack і Release можуть налаштовуватися, але у деяких вони задані спочатку і регулюються. Іноді позначаються як «automatic» чи «program dependent», тобто. змінюються залежно від вхідного сигналу.

Knee

Ще один параметр компрессоора: hard/soft Knee. Він визначає, чи буде початок застосування компресії різким (hard) чи поступовим (soft). Soft knee зменшує помітність переходу від необробленого сигналу до сигналу, підданого компресії, особливо при високих значеннях Ratio та різких збільшення гучності.

Hard Knee та Soft Knee компресія

Peak та RMS

Компресор може реагувати на пікові (короткі максимальні) значення або на усереднений рівень вхідного сигналу. Використання пікових значень може призводити до різких коливань ступеня компресії, і навіть спотворень. Тому компресори застосовують функцію усереднення (зазвичай RMS) вхідного сигналу при порівнянні його з пороговим значенням. Це дає більш комфортний стиск, наближений до людського сприйняття гучності.

RMS – параметр, який відображає середню гучність фонограми. З математичної точки зору RMS (Root Mean Square) – це середньоквадратичне значення амплітуди певної кількості семплів:

Stereo linking

Компресор у режимі stereo linking застосовує однакове посилення до обох стереоканалів. Це дозволяє уникнути зміщення стереопанорами, яке може стати результатом індивідуальної обробки лівого та правого каналів. Таке зміщення відбувається, якщо, наприклад, будь-який гучний елемент панорамований не по центру.

Makeup gain

Оскільки компресор зменшує загальний рівень сигналу зазвичай додається можливість фіксованого посилення на виході, що дозволяє отримати оптимальний рівень.

Look-ahead

Функція look-ahead призначена для вирішення проблем, властивих як надто великим, так і надто маленьким значенням Attack та Release. Занадто великий час атаки не дозволяємо ефективно перехоплювати транзієнти, а надто маленький може бути не комфортним для слухача. При використанні функції look-ahead основний сигнал затримується щодо керуючого, це дозволяє починати компресію заздалегідь ще до того, як сигнал досягне порогового значення.
Єдиним недоліком цього є тимчасова затримка сигналу, що у деяких випадках небажано.

Використання динамічної компресії

Компресія використовується повсюдно, не тільки в музичних фонограмах, а й скрізь, де потрібно збільшити загальну гучність, не збільшуючи при цьому пікові рівні, де використовується недорога звуковідтворююча апаратура або обмежений канал передачі (системи оповіщення та зв'язку, аматорське радіо тощо) .

Компресія застосовується під час відтворення фонової музики(у магазинах, ресторанах тощо), де небажані будь-які помітні зміни гучності.

Але найважливіша сфера застосування динамічної компресії – музичне виробництво та мовлення. Компресія використовується для надання звуку "щільності" та "драйву", для кращого поєднання інструментів один з одним, і особливо при обробці вокалу.

Вокальні партії в рок- та поп-музиці зазвичай піддаються компресії, щоб виділити їх на тлі акомпанементу та додати ясності. Спеціальний вид компресора, налаштований тільки на певні частоти – деесер, використовується для придушення шиплячих фонем.

В інструментальних партіях компресія також використовується для ефектів, не пов'язаних безпосередньо з гучністю, наприклад, звукові ударні, що швидко згасають, можуть стати більш тривалими.

В електронній танцювальній музиці (EDM) часто використовується side-chaining (див. нижче) - наприклад, басова лінія може керуватися бочкою або чимось подібним, щоб запобігти конфлікту басу і ударних і створити динамічну пульсацію.

Стиснення широко використовується в широкомовній передачі (радіо-, теле-, інтернет-мовлення) для підвищення гучності, що сприймається, при одночасному зменшенні динамічного діапазону вихідного аудіо (зазвичай це CD). Більшість країн мають правові обмеження на миттєвий максимальний обсяг, який може транслюватися. Зазвичай ці обмеження реалізуються постійними апаратними компресорами ефірного ланцюга. Крім того, збільшення гучності, що сприймається, покращує "якість" звуку з точки зору більшості слухачів.

Див. також Loudness war.

Послідовне збільшення гучності однієї й тієї ж пісні, ремастованої для CD з 1983 по 2000 роки.

Side-chaining

Ще один перемикач компресора, що часто зустрічається, - «side chain». У цьому режимі компресування звуку не залежить від його власного рівня, а залежно від рівня сигналу, що надходить на роз'єм, який так і називається - side chain.

Цьому можна знайти кілька застосувань. Наприклад, вокаліст шепелявить і всі букви «с» виділяються із загальної картини. Ви пропускаєте його голос через компресор, а в роз'єм side chain подаєте цей звук, але пропущений через еквалайзер. На еквалайзері ви прибираєте всі частоти, крім тих, що використовуються вокалістом під час вимовлення літери "с". Зазвичай, близько 5 кГц, але може бути від 3 кГц до 8 кГц. Якщо потім поставити компресор у режим side chain, то компресування голосу відбуватиметься у ті моменти, коли вимовляється літера "с". Таким чином вийшов прилад, відомий як деесер (de-esser). Такий спосіб роботи називається "частотно-залежним" (frequency dependent).

Ще одне застосування цієї функції зветься «ducker». Наприклад, на радіостанції музика йде через компресор, а слова діджея – через побічний ланцюг. Коли діджей починає розмовляти, гучність музики автоматично зменшується. Цей ефект можна успішно застосовувати і в записі, наприклад, зменшувати гучність клавішних партій під час співу.

Brick wall limiting

Компресор і лімітер працюють приблизно однаково, можна сказати, що лімітер, це компресор з високим Ratio (від 10:1) і зазвичай низьким Attack time.

Існує поняття Brick wall limiting – лімітинг з дуже високим Ratio (від 20:1 та вище) та дуже швидкою атакою. В ідеалі він взагалі не дозволяє сигналу перевищити пороговий рівень. Результат буде неприємним на слух, але це запобігає пошкодженню звуковідтворювальної техніки або перевищенню пропускну здатністьканалу. Багато виробників інтегрують у свої пристрої лімітери саме з цією метою.

Clipper vs. Limiter, soft and hard clipping

Компресія це одна з найбільш обплутаних міфами тем саундпродакшну. Кажуть, Бетховен навіть лякав їй сусідських дітей: (

Добре, насправді, застосовувати компресію не складніше, ніж користуватися дисторшном, головне — розуміти принцип її роботи і мати хороший контроль. У чому ми зараз разом і переконаємось.

Що таке компресія звуку

Перше, що варто усвідомити перед препаруванням — це компресія робота з динамічним діапазоном звуку. А, у свою чергу, — ні що інше як різниця між найгучнішим і найтихішим рівнем сигналу:

Так ось, компресія це стиск динамічного діапазону. Так, простостиск динамічного діапазону, ну або іншими словами зниження рівня гучних частин сигналу та збільшення гучності тихих. Не більше того.

Ти можеш цілком резонно здивуватися, з чим тоді пов'язаний такий хайп? Чому всі говорять про рецепти правильного настроювання компресорів, але ніхто ними не ділиться? Чому, незважаючи на величезну кількість класних плагінів, у багатьох студіях досі використовуються дорогі раритетні моделі компресорів? Чому одні продюсери застосовують компресори на екстремальних налаштуваннях, інші не використовують зовсім? І хто з них зрештою має рацію?

Завдання, які вирішує компресія

Відповіді такі питання лежать у площині розуміння ролі компресії у роботі зі звуком. А вона дозволяє:

  1. Підкреслювати атакузвуку, робити його більш вираженим;
  2. «Всідати» в мікс окремі партії інструментів, додаючи їм потужності та «ваги»;
  3. Робити групи інструментів або весь мікс більш цільнимтаким єдиним монолітом;
  4. Вирішувати конфлікти між інструментамиза допомогою sidechain;
  5. Виправляти огріхи вокаліста чи музикантів, Вирівнюючи їх динаміку;
  6. При певному налаштуванні виступати як художній ефект.

Як бачиш, це не менш значущий творчий процес, ніж, скажімо, вигадування мелодій або нарулювання цікавих тембрів. При цьому будь-яка з перерахованих вище завдань може бути вирішена за допомогою 4-х основних параметрів.

Основні параметри компресора

Незважаючи на величезну кількість програмних та апаратних моделей компресорів, вся «магія» компресії відбувається при правильному налаштуванніОсновні параметри: Threshold, Ratio, Attack і Release. Розглянемо їх докладніше:

Threshold або поріг спрацьовування, dB

Цей параметр дозволяє встановити значення, з якого компресор працюватиме (тобто стискати аудіосигнал). Так, якщо ми встановимо в threshold -12dB, компресор спрацьовуватиме тільки в тих місцях динамічного діапазону, які перевищують це значення. Якщо весь наш звук тихіше -12db, компресор просто пропустить його через себе, не впливаючи на нього.

Ratio або коефіцієнт стиснення

Параметр ratio визначає наскільки сильно стискатиметься сигнал, що перевищує threshold. Трохи математики для повноти картини: припустимо, ми налаштували компресор з threshold -12dB, ratio 2:1 і подали на нього барабанний луп, в якому гучність бочки дорівнює -4dB. Яким у цьому випадку буде результат роботи компресора?

У нашому випадку рівень бочки перевищує threshold на 8dB. Ця різниця відповідно до ratio буде стиснута до 4dB (8dB/2). У сумі з необробленою частиною сигналу це призведе до того, що після обробки компресором гучність бочки становитиме -8db (threshold -12dB + стислий сигнал 4dB).

Attack, ms

Це час, через який компресор реагуватиме на перевищення порога спрацьовування. Тобто, якщо час атаки вище 0ms компресор починає стискперевищує threshold сигналу не миттєво, а через вказаний час.

Release або відновлення, ms

Протилежність атаці - значення даного параметра дозволяє вказати через якийсь час з моменту повернення рівня сигналу нижче threshold компресор припинить стиск.

Перш ніж ми рушимо далі, рекомендую взяти добре знайомий семпл, повісити на його канал будь-який компресор і 5-10 хвилин поекспериментувати з перерахованими параметрами для надійного закріплення матеріалу

Усе інші параметри опціональні. Вони можуть відрізнятися в різних моделях компресорів, тому продюсери і застосовують різні моделі для будь-яких певних цілей (наприклад, один компресор для вокалу, інший на групу ударних, третій — на майстер-каналі). Я не стану докладно зупинятися на цих параметрах, а лише дам загальну інформаціюдля розуміння що це взагалі таке:

  • Коліно або злам (Hard/Soft Knee). Цей параметр визначає як швидко застосовуватиметься коефіцієнт стиснення (ratio): жорстко по кривій чи плавно. Зазначу, що в режимі Soft Knee компресор спрацьовує не прямолінійно, а починає плавно (наскільки це може бути доречно, коли ми говоримо про мілісекунди) підтискати звук вже перед значенням threshold. Для обробки груп каналів та загального міксу частіше використовується саме soft knee (оскільки працює непомітно), а для підкреслення атаки та інших особливостей окремих інструментів - hard knee;
  • Режим реагування: Peak/RMS. Режим Peak виправданий коли потрібно жорстко лімітувати сплески амплітуди, а також на сигналах зі складною формою, динаміку та читання яких потрібно повністю передати. Режим RMS дуже дбайливо впливає звук, дозволяючи ущільнити його, зберігши атаку;
  • Передбачливість (Lookahead). Це час, за який компресор знатиме, що йому належить. Своєрідний попередній аналіз вхідних сигналів;
  • Makeup або Gain. Параметр, що дозволяє компенсувати зниження гучності внаслідок роботи компресії.

Перший і самий головна порада , що знімає всі подальші питання щодо компресії: якщо ти а) зрозумів принцип дії компресії, б) твердо знаєш як впливає на звук той чи інший параметр і в) встиг на практиці спробувати кілька різних моделейніякі поради тобі вже не потрібні.

Я абсолютно серйозний. Якщо ти уважно прочитав цей запис, поекспериментував зі штатним компресором твоєї DAW і одним-двома плагінами, але так і не зрозумів у яких випадках потрібно встановлювати великі значення атаки, який коефіцієнт ratio застосовувати і в якому режимі обробляти вихідний сигнал — то так і будеш далі шукати в інтернеті готові рецепти, застосовуючи їх бездумно абияк.

Рецепти точного налаштування компресораце приблизно як рецепти точного настроювання ревербератора чи хоруса — позбавлене будь-якого сенсу і нічого спільного з творчістю. Тому наполегливо повторюю єдино вірний рецепт: озброїся цією статтею, гарними моніторними навушниками, плагіном для візуального контролю форми хвилі та проведи вечір у компанії з парочкою компресорів.

Дій!

, Медіаплеєри

Платівки, особливо старі, які були записані та виготовлені до 1982 року, з набагато меншою ймовірністю піддавалися міксуванню, під час якого запис зробили б голосніше. Вони відтворюють природну музику з природним динамічним діапазоном, який зберігається на платівці і втрачається у більшості стандартних цифрових форматів або високої роздільної здатності.

Зрозуміло, тут є винятки - послухайте альбом Стівена Вілсона, що нещодавно вийшов, від MA Recordings або Reference Recordings , і ви почуєте, наскільки хорошим може бути цифровий звук. Але це рідкість, більшість сучасних звукозаписів голосні та стислі.

Останнім часом компресія музики піддається серйозній критиці, але я готовий сперечатися, що практично всі ваші улюблені записи стиснуті. Якісь з них менші, якісь більші, але все одно стиснуті. Стиснення динамічного діапазону – це своєрідний цап-відбувайло, якого звинувачують у поганому музичному звучанні, але сильно стисла музика – це не новий віяння: послухайте альбоми Motown 60-х років. Те саме можна сказати про класичні роботи Led Zeppelin або молодші альбоми Wilco і Radiohead. Стиснення динамічного діапазону зменшує природне співвідношення між найгучнішим і тихим звуком на записі, тому шепіт може бути таким же гучним як крик. Досить проблематично знайти поп-музику останніх 50 років, яка не була схильною до компресії.

Нещодавно я мило поговорив із засновником та редактором журналу Tape Op Ларрі Крейном (Larry Crane) про гарні, погані та «злі» аспекти стиснення. Ларрі Крейн працював з такими гуртами та виконавцями як Стефан Маркус, Cat Power, Sleater-Kinney, Дженні Льюїс, M. Ward, The Go-Betweens, Джейсон Літтл, Еліот Сміт, Quasi та Richmond Fontaine. Він також керує звукозаписною студією Jackpot! в Портленді, Орегон, яка була притулком для The Breeders, The Decemberists, Едді Веддера, Pavement, R.E.M., She & Him і ще для багатьох інших.

Як приклад дивовижно неприродно звучащих, але все одно чудових пісень, я наводжу альбом Spoon They Want My Soul, що вийшов у 2014 році. Крейн сміється і каже, що слухає його в машині, бо там він чудово звучить. Що приводить нас до ще однієї відповіді на питання, чому музику стискають: тому що стиснення та додаткова «чіткість» дозволяють краще її чути в галасливих місцях.

Ларрі Крейн за роботою. Фото Джейсона Куіглі (Jason Quigley)

Коли люди кажуть, що їм подобається звук аудіозапису, я вважаю, що їм подобається музика, якби звук та музика були нероздільними термінами. Але для себе я диференціюю ці поняття. З точки зору меломана звук може бути грубим і сирим, але це не буде мати значення для більшості слухачів.

Багато хто поспішає звинувачувати мастеринг-інженерів у зловживанні компресією, проте стиснення застосовується безпосередньо під час звукозапису, під час мікшування і лише потім під час мастерингу. Якщо ви особисто не були присутні на кожному з цих етапів, то не зможете сказати, як звучали інструменти та вокальна партія на самому початку процесу.

Крейн був в ударі: «Якщо музикант хоче навмисно зробити звук божевільним і спотвореним як запис Guided by Voices, то в цьому немає нічого поганого – бажання завжди переважує якість звучання». Голос виконавця практично завжди стискається, те саме відбувається з басом, барабанами, гітарами та синтезаторами. За допомогою компресії гучність вокалу зберігається на потрібному рівніпротягом всієї пісні або трохи виділяється на тлі інших звуків.

Правильно виконаний стиск може зробити звук барабанів живішим або навмисно дивним. Щоб музика звучала чудово, потрібно вміти користуватися необхідними інструментами. Ось чому на те, щоб зрозуміти, як користуватися стиском і не перестаратися, йдуть роки. Якщо мікс-інженер дуже стиснув гітарну партію, то мастеринг-інженер вже не зможе повною мірою відновити відсутні частоти.

Якби музиканти хотіли, щоб ви слухали музику, яка не пройшла етапи мікшування та майстерингу, то випускали б її на полиці магазинів прямо зі студії. Крейн каже, що люди, які створюють, редагують, мікшують музичні записи та проводять їх майстеринг, існують не для того, щоб плутатися під ногами у музикантів – вони допомагають виконавцям із самого початку, тобто вже понад сто років.

Ці люди - частина процесу творіння, в результаті якого виходять дивовижні витвори мистецтва. Крейн додає: «Вам не потрібна версія Dark Side of the Moon, яка не пройшла через мікшування і мастеринг». Pink Floyd випустили пісню в такому вигляді, як вони хотіли її чути.




Top