Compressione in pratica. Compressione dinamica Gamma dinamica compressa o standard

Questo gruppo di metodi si basa sul fatto che i segnali trasmessi subiscono trasformazioni di ampiezza non lineari e nelle parti trasmittente e ricevente le non linearità sono reciproche. Ad esempio, se nel trasmettitore viene utilizzata la funzione non lineare Öu, nel ricevitore viene utilizzato u 2. L'applicazione coerente delle funzioni reciproche garantirà che la trasformazione complessiva rimanga lineare.

L'idea dei metodi di compressione dei dati non lineari è che il trasmettitore può, con la stessa ampiezza dei segnali di uscita, trasmettere una gamma più ampia di modifiche nel parametro trasmesso (ovvero una gamma dinamica più ampia). Gamma dinamica- questo è il rapporto tra la massima ampiezza del segnale consentita e la minima, espresso in unità relative o decibel:

; (2.17)
. (2.18)

Il desiderio naturale di aumentare la gamma dinamica diminuendo U min è limitato dalla sensibilità dell'apparecchiatura e dalla crescente influenza delle interferenze e del rumore proprio.

Molto spesso, la compressione della gamma dinamica viene eseguita utilizzando una coppia di funzioni reciproche di logaritmo e potenziamento. Viene chiamata la prima operazione di modifica dell'ampiezza compressione(per compressione), il secondo - espansione(allungamento). La scelta di queste particolari funzioni è associata alla loro maggiore capacità di compressione.

Allo stesso tempo, questi metodi presentano anche degli svantaggi. Il primo di questi è che il logaritmo di un numero piccolo è negativo e nel limite:

cioè, la sensibilità è molto non lineare.

Per ridurre queste carenze, entrambe le funzioni vengono modificate mediante spostamento e approssimazione. Ad esempio, per i canali telefonici la funzione approssimata ha la forma (tipo A):

con A=87,6. Il guadagno dalla compressione è di 24 dB.

La compressione dei dati utilizzando procedure non lineari viene implementata con mezzi analogici con grandi errori. Applicazione media digitali può migliorare significativamente la precisione o le prestazioni della conversione. Allo stesso tempo, l'uso diretto dei fondi informatica(ovvero, il calcolo diretto di logaritmi ed esponenti) non darà i migliori risultati a causa delle scarse prestazioni e dell'accumulo di errori di calcolo.

A causa dei limiti di precisione, la compressione dei dati mediante compressione viene utilizzata in casi non critici, ad esempio per la trasmissione della voce tramite canali telefonici e radio.

Codifica efficiente

Codici efficienti sono stati proposti da K. Shannon, Fano e Huffman. L'essenza dei codici è che non sono uniformi, cioè con un numero disuguale di bit, e la lunghezza del codice è inversamente proporzionale alla probabilità che si verifichi. Un'altra grande caratteristica dei codici efficienti è che non richiedono delimitatori, ad es. personaggi speciali, separando combinazioni di codici adiacenti. Ciò si ottiene seguendo una semplice regola: i codici più brevi non sono l'inizio di quelli più lunghi. In questo caso, il flusso continuo di bit viene decodificato in modo univoco poiché il decodificatore rileva prima le parole in codice più brevi. I codici efficienti sono stati a lungo puramente accademici, ma recentemente sono stati utilizzati con successo nella creazione di database, nonché nella compressione delle informazioni nei moderni modem e archiviatori software.

A causa delle irregolarità, viene introdotta la lunghezza media del codice. Lunghezza media - aspettativa matematica della lunghezza del codice:

inoltre l av tende ad H(x) dall'alto (cioè l av > H(x)).

Il soddisfacimento della condizione (2.23) diventa più forte all’aumentare di N.

Esistono due tipi di codici efficienti: Shannon-Fano e Huffman. Vediamo come ottenerli utilizzando un esempio. Assumiamo che le probabilità dei simboli nella sequenza abbiano i valori riportati nella Tabella 2.1.

Tabella 2.1.

Probabilità dei simboli

N
p i 0.1 0.2 0.1 0.3 0.05 0.15 0.03 0.02 0.05

I simboli sono classificati, cioè presentati in fila in ordine decrescente di probabilità. Successivamente, utilizzando il metodo Shannon-Fano, si ripete periodicamente la seguente procedura: l'intero gruppo di eventi viene diviso in due sottogruppi con le stesse (o approssimativamente le stesse) probabilità totali. La procedura continua finché un elemento rimane nel sottogruppo successivo, dopodiché questo elemento viene eliminato e le azioni specificate continuano con quelle rimanenti. Ciò accade finché non rimane un solo elemento negli ultimi due sottogruppi. Continuiamo con il nostro esempio, riassunto nella Tabella 2.2.

Tabella 2.2.

Codifica Shannon-Fano

N P i
4 0.3 IO
0.2 IO II
6 0.15 IO IO
0.1 II
1 0.1 IO IO
9 0.05 II II
5 0.05 II IO
7 0.03 II II IO
8 0.02 II

Come si può vedere dalla Tabella 2.2, il primo simbolo con probabilità p 4 = 0,3 ha partecipato a due procedure di divisione in gruppi ed entrambe le volte è finito nel gruppo numero I. In conformità con ciò, è codificato con un codice a due cifre II. Il secondo elemento nella prima fase di suddivisione apparteneva al gruppo I, nel secondo al gruppo II. Pertanto il suo codice è 10. I codici dei restanti simboli non necessitano di commenti aggiuntivi.

In genere, i codici non uniformi sono rappresentati come alberi di codice. Un albero di codice è un grafico che indica le combinazioni di codici consentite. Le direzioni dei bordi di questo grafico sono preimpostate, come mostrato in Fig. 2.11 (la scelta delle direzioni è arbitraria).

Si naviga nel grafico come segue: crea un percorso per il simbolo selezionato; il numero di bit è uguale al numero di bordi nel percorso e il valore di ciascun bit è uguale alla direzione del bordo corrispondente. Il percorso viene tracciato dal punto di partenza (nel disegno è indicato con la lettera A). Ad esempio, il percorso verso il vertice 5 è costituito da cinque bordi, tutti tranne l'ultimo dei quali hanno direzione 0; otteniamo il codice 00001.

Calcoliamo l'entropia e la lunghezza media delle parole per questo esempio.

H(x) = -(0,3 log 0,3 + 0,2 log 0,2 + 2 0,1 log 0,1+ 2 0,05 log 0,05+

0,03 log 0,03 + 0,02 log 0,02) = 2,23 bit

l medio = 0,3 2 + 0,2 2 + 0,15 3 + 0,1 3 + 0,1 4 + 0,05 5 +0,05 4+

0.03 6 + 0.02 6 = 2.9 .

Come puoi vedere, la lunghezza media delle parole è vicina all'entropia.

I codici Huffman sono costruiti utilizzando un algoritmo diverso. La procedura di codifica si compone di due fasi. Nella prima fase, le singole compressioni dell'alfabeto vengono eseguite in sequenza. Compressione una tantum: sostituzione degli ultimi due simboli (con le probabilità più basse) con uno, con una probabilità totale. Le compressioni vengono eseguite finché rimangono due caratteri. Allo stesso tempo, viene compilata una tabella di codifica, in cui vengono inserite le probabilità risultanti e vengono rappresentati i percorsi lungo i quali si muovono i nuovi simboli nella fase successiva.

Nella seconda fase avviene la codifica vera e propria, che inizia dall'ultima fase: al primo dei due simboli viene assegnato il codice 1, al secondo - 0. Successivamente si passa alla fase precedente. I codici della fase successiva vengono assegnati ai simboli che non hanno partecipato alla compressione in questa fase, e il codice del simbolo ottenuto dopo l'incollaggio viene assegnato due volte agli ultimi due simboli e aggiunto al codice del carattere superiore 1, il inferiore - 0. Se il personaggio non partecipa ulteriormente all'incollaggio, il suo codice rimane invariato. La procedura continua fino alla fine (cioè fino alla prima fase).

La Tabella 2.3 mostra la codifica di Huffman. Come si può vedere dalla tabella, la codifica è stata effettuata in 7 fasi. A sinistra ci sono le probabilità dei simboli, a destra i codici intermedi. Le frecce mostrano i movimenti dei simboli appena formati. In ogni fase gli ultimi due simboli differiscono solo per il bit meno significativo, che corrisponde alla tecnica di codifica. Calcoliamo la lunghezza media delle parole:

l medio = 0,3 2 + 0,2 2 + 0,15 3 ++ 2 0,1 3 + +0,05 4 + 0,05 5 + 0,03 6 + 0,02 6 = 2,7

Questo è ancora più vicino all’entropia: il codice è ancora più efficiente. Nella fig. La Figura 2.12 mostra l'albero del codice di Huffman.

Tabella 2.3.

Codifica di Huffman

N p i codice IO II III IV V VI VII
0.3 0.3 11 0.3 11 0.3 11 0.3 11 0.3 11 0.4 0 0.6 1
0.2 0.2 01 0.2 01 0.2 01 0.2 01 0.3 10 0.3 11 0.4 0
0.15 0.15 101 0.15 101 0.15 101 0.2 00 0.2 01 0.3 10
0.1 0.1 001 0.1 001 0.15 100 0.15 101 0.2 00
0.1 0.1 000 0.1 000 0.1 001 0.15 100
0.05 0.05 1000 0.1 1001 0.1 000
0.05 0.05 10011 0.05 1000
0.03 0.05 10010
0.02

Entrambi i codici soddisfano l'esigenza di una decodifica univoca: come si può vedere dalle tabelle, le combinazioni più brevi non sono l'inizio di codici più lunghi.

All’aumentare del numero di simboli, aumenta l’efficienza dei codici, quindi in alcuni casi vengono codificati blocchi più grandi (ad esempio, se stiamo parlando riguardo ai testi, è possibile codificare alcune delle sillabe, delle parole e persino delle frasi più frequenti).

L'effetto dell'introduzione di tali codici è determinato confrontandoli con un codice uniforme:

(2.24)

dove n è il numero di bit del codice uniforme che viene sostituito da quello effettivo.

Modifiche dei codici Huffman

Il classico algoritmo di Huffman è un algoritmo a due passaggi, ovvero richiede prima la raccolta di statistiche su simboli e messaggi, e poi le procedure sopra descritte. Ciò è scomodo in pratica perché aumenta il tempo necessario per elaborare i messaggi e accumulare un dizionario. Più spesso vengono utilizzati metodi a passaggio singolo, in cui vengono combinate procedure di accumulo e codifica. Tali metodi sono anche chiamati compressione adattiva secondo Huffman [46].

L'essenza della compressione adattiva secondo Huffman si riduce alla costruzione di un albero di codici iniziale e alla sua modifica sequenziale dopo l'arrivo di ciascun simbolo successivo. Come prima, gli alberi qui sono binari, cioè Da ciascun vertice del grafo ad albero partono al massimo due archi. È consuetudine chiamare il vertice originale genitore e i due vertici successivi ad esso collegati come figli. Introduciamo il concetto di peso del vertice: questo è il numero di caratteri (parole) corrispondenti a un dato vertice, ottenuto alimentando la sequenza originale. Ovviamente la somma dei pesi dei figli è uguale al peso del genitore.

Dopo aver introdotto il simbolo successivo della sequenza di input, l'albero del codice viene rivisto: i pesi dei vertici vengono ricalcolati e, se necessario, i vertici vengono riorganizzati. La regola per permutare i vertici è la seguente: i pesi dei vertici inferiori sono i più piccoli e i vertici situati a sinistra del grafico hanno i pesi minori.

Allo stesso tempo, i vertici sono numerati. La numerazione inizia dai vertici inferiori (pendenti, cioè senza figli) da sinistra a destra, per poi passare a livello superiore eccetera. prima di numerare l'ultimo vertice originale. In questo caso si ottiene il seguente risultato: minore è il peso di un vertice, minore è il suo numero.

La permutazione viene effettuata principalmente per i vertici pendenti. Nella permutazione occorre tenere conto della regola sopra formulata: i vertici con peso maggiore hanno un numero maggiore.

Dopo aver superato la sequenza (detta anche controllo o test), a tutti i vertici sospesi vengono assegnate combinazioni di codici. La regola per l'assegnazione dei codici è simile alla precedente: il numero di bit del codice è uguale al numero di vertici attraverso i quali passa il percorso dalla sorgente al vertice sospeso dato, e il valore di un particolare bit corrisponde alla direzione dal genitore al “figlio” (ad esempio, andare a sinistra del genitore corrisponde al valore 1, a destra - 0 ).

Le combinazioni di codici risultanti vengono archiviate nella memoria del dispositivo di compressione insieme ai loro analoghi e formano un dizionario. L'uso dell'algoritmo è il seguente. La sequenza compressa di caratteri viene divisa in frammenti secondo il dizionario esistente, dopodiché ciascuno dei frammenti viene sostituito con il proprio codice dal dizionario. I frammenti non presenti nel dizionario formano nuovi vertici pendenti, acquistano peso e vengono anch'essi inseriti nel dizionario. In questo modo si forma un algoritmo adattivo per ricostituire il dizionario.

Per aumentare l'efficacia del metodo è opportuno aumentare la dimensione del dizionario; in questo caso il rapporto di compressione aumenta. In pratica, la dimensione del dizionario è di 4 - 16 KB di memoria.


Illustriamo l'algoritmo dato con un esempio. Nella fig. La Figura 2.13 mostra il diagramma originale (è anche chiamato albero di Huffman). Ogni vertice dell'albero è rappresentato da un rettangolo in cui sono inscritti due numeri attraverso una frazione: il primo indica il numero del vertice, il secondo il suo peso. Come puoi vedere, la corrispondenza tra i pesi dei vertici e i loro numeri è soddisfatta.

Supponiamo ora che il simbolo corrispondente al vertice 1 appaia una seconda volta nella sequenza di test. Il peso del vertice è cambiato come mostrato in Fig. 2.14, per cui viene violata la regola per la numerazione dei vertici. Nella fase successiva, cambiamo la posizione dei vertici sospesi, per cui scambiamo i vertici 1 e 4 e rinumeriamo tutti i vertici dell'albero. Il grafico risultante è mostrato in Fig. 2.15. La procedura poi prosegue allo stesso modo.

Va ricordato che ciascun vertice sospeso nell'albero di Huffman corrisponde a uno specifico simbolo o gruppo di simboli. Il genitore differisce dai figli in quanto il gruppo di simboli ad esso corrispondente è un simbolo più corto di quello dei suoi figli, e questi figli sono diversi ultimo carattere. Ad esempio, i simboli "macchina" corrispondono al genitore; allora i bambini possono avere le sequenze "kara" e "karp".

L'algoritmo fornito non è accademico e viene utilizzato attivamente nei programmi di archiviazione, anche durante la compressione dei dati grafici (verranno discussi di seguito).

Algoritmi di Lempel-Ziv

Questi sono gli algoritmi di compressione più comunemente usati oggi. Sono utilizzati nella maggior parte dei programmi di archiviazione (ad esempio PKZIP. ARJ, LHA). L'essenza degli algoritmi è che un determinato insieme di simboli viene sostituito durante l'archiviazione dal suo numero in un dizionario appositamente generato. Ad esempio, la frase “Il numero in uscita della tua lettera...”, che si trova spesso nella corrispondenza commerciale, può occupare la posizione 121 nel dizionario; quindi, invece di trasmettere o memorizzare la frase citata (30 byte), è possibile memorizzare il numero della frase (1,5 byte in formato decimale binario o 1 byte in formato binario).

Gli algoritmi prendono il nome dagli autori che per primi li proposero nel 1977. Di questi, il primo è LZ77. Per l'archiviazione viene creata una cosiddetta finestra scorrevole dei messaggi, composta da due parti. La prima parte, di formato più grande, serve a formare un dizionario ed ha una dimensione di circa diversi kilobyte. La seconda parte, più piccola (di solito fino a 100 byte di dimensione) accetta i caratteri correnti del testo visualizzato. L'algoritmo cerca di trovare nel dizionario un insieme di caratteri che corrisponda a quelli ricevuti nella finestra di visualizzazione. Se l'operazione ha esito positivo, viene generato un codice composto da tre parti: l'offset nel dizionario relativo alla sua sottostringa iniziale, la lunghezza di questa sottostringa e il carattere che segue questa sottostringa. Ad esempio, la sottostringa selezionata è composta dai caratteri "app" (6 caratteri in totale), il carattere successivo è "e". Quindi, se la sottostringa ha un indirizzo (posto nel dizionario) 45, la voce nel dizionario apparirà come "45, 6. e". Successivamente, il contenuto della finestra viene spostato in base alla posizione e la ricerca continua. Ecco come si forma un dizionario.

Il vantaggio dell'algoritmo è un algoritmo facilmente formalizzato per la compilazione di un dizionario. Inoltre, è possibile decomprimere senza il dizionario originale (è consigliabile avere una sequenza di prova): il dizionario si forma durante la decompressione.

Gli svantaggi dell'algoritmo appaiono man mano che aumenta la dimensione del dizionario: aumenta il tempo di ricerca. Inoltre, se nella finestra corrente appare una stringa di caratteri non presente nel dizionario, ogni carattere viene scritto con un codice di tre elementi, cioè Il risultato non è compressione, ma allungamento.

L'algoritmo LZSS, proposto nel 1978, ha le migliori caratteristiche. Presenta differenze nel supporto della finestra scorrevole e nei codici di uscita del compressore. Oltre alla finestra, l'algoritmo genera un albero binario simile a un albero di Huffman per velocizzare la ricerca delle corrispondenze: ogni sottostringa che esce dalla finestra corrente viene aggiunta all'albero come uno dei figli. Questo algoritmo consente di aumentare ulteriormente la dimensione della finestra corrente (è auspicabile che la sua dimensione sia pari a una potenza di due: 128, 256, ecc. Byte). Anche i codici di sequenza sono formati diversamente: viene introdotto un prefisso aggiuntivo di 1 bit per distinguere i caratteri non codificati dalle coppie "offset, lunghezza".

Un grado di compressione ancora maggiore si ottiene quando si utilizzano algoritmi come LZW. Gli algoritmi descritti in precedenza hanno una dimensione della finestra fissa, il che rende impossibile inserire nel dizionario frasi più lunghe della dimensione della finestra. Negli algoritmi LZW (e nel loro predecessore LZ78), la finestra di visualizzazione ha una dimensione illimitata e il dizionario accumula frasi (e non una raccolta di caratteri, come prima). Il dizionario ha una lunghezza illimitata e il codificatore (decodificatore) funziona in modalità di attesa della frase. Quando si forma una frase che corrisponde al dizionario, viene emesso un codice di corrispondenza (cioè il codice di questa frase nel dizionario) e il codice del carattere che lo segue. Se, man mano che i simboli si accumulano, si forma una nuova frase, anch'essa viene inserita nel dizionario, come quella più breve. Il risultato è una procedura ricorsiva che fornisce codifica e decodifica rapida.

Un'ulteriore funzionalità di compressione è fornita dalla codifica compressa dei caratteri ripetuti. Se nella sequenza alcuni caratteri seguono una riga (ad esempio, nel testo questi possono essere caratteri “spazio”, in una sequenza numerica - zeri consecutivi, ecc.), allora ha senso sostituirli con la coppia “carattere; lunghezza” o “segno, lunghezza” ". Nel primo caso il codice indica il segno con cui verrà codificata la sequenza (solitamente 1 bit), poi il codice del carattere ripetuto e la lunghezza della sequenza. Nel secondo caso (previsto per i caratteri ripetuti più frequenti), il prefisso indica semplicemente un segno di ripetizione.

Compressione dinamica(Compressione della gamma dinamica, DRC) - restringimento (o espansione nel caso di un espansore) della gamma dinamica del fonogramma. Gamma dinamica, è la differenza tra il suono più basso e quello più forte. A volte il suono più basso in una colonna sonora sarà leggermente più forte del livello di rumore, a volte un po' più basso del più forte. I dispositivi hardware e i programmi che eseguono la compressione dinamica sono chiamati compressori, distinguendo tra loro quattro gruppi principali: compressori stessi, limitatori, espansori e gate.

Compressore analogico valvolare DBX 566

Compressione verso il basso e verso l'alto

Downcompressione(Compressione verso il basso) riduce il volume di un suono quando inizia a superare una certa soglia, lasciando invariati i suoni più bassi. Una versione estrema della compressione al ribasso è limitatore. Aumenta la compressione La compressione verso l'alto, invece, aumenta il volume di un suono se è al di sotto di una soglia senza influenzare i suoni più forti. Allo stesso tempo, entrambi i tipi di compressione restringono la gamma dinamica del segnale audio.

Downcompressione

Aumenta la compressione

Espansore e cancello

Se un compressore riduce la gamma dinamica, un espansore la aumenta. Quando il livello del segnale supera il livello di soglia, l'espansore lo aumenta ulteriormente, aumentando così la differenza tra suoni forti e deboli. Dispositivi come questo vengono spesso utilizzati durante la registrazione di una batteria per separare i suoni di una batteria da un'altra.

Viene chiamato un tipo di espansore utilizzato non per amplificare i suoni forti, ma per attenuare i suoni deboli che non superano un livello di soglia (ad esempio il rumore di fondo). Cancello antirumore. In tale dispositivo, non appena il livello sonoro diventa inferiore alla soglia, il segnale smette di passare. In genere viene utilizzato un gate per sopprimere il rumore durante le pause. Su alcuni modelli è possibile assicurarsi che il suono non si interrompa bruscamente quando raggiunge un livello di soglia, ma si attenui gradualmente. In questo caso, la velocità di decadimento viene impostata dal controllo Decay.

Il cancello, come altri tipi di compressori, può essere dipendente dalla frequenza(cioè trattare alcuni bande di frequenza) e può funzionare nella modalità catena laterale(vedi sotto).

Principio di funzionamento del compressore

Il segnale che entra nel compressore viene diviso in due copie. Una copia viene inviata ad un amplificatore, in cui il grado di amplificazione è controllato da un segnale esterno, e la seconda copia genera questo segnale. Entra in un dispositivo chiamato catena laterale, dove viene misurato il segnale e, sulla base di questi dati, viene creato un inviluppo che descrive la variazione del suo volume.
Ecco come sono progettati i compressori più moderni, questo è il cosiddetto tipo feed-forward. Nei dispositivi più vecchi (tipo feedback), il livello del segnale viene misurato dopo l'amplificatore.

Esistono varie tecnologie di amplificazione analogica a guadagno variabile, ciascuna con i propri vantaggi e svantaggi: valvolare, ottica che utilizza fotoresistori e transistor. Quando si lavora con l'audio digitale (in redattore del suono o DAW) possono utilizzare algoritmi matematici proprietari o emulare il funzionamento di tecnologie analogiche.

Principali parametri dei compressori

Soglia

Un compressore riduce il livello di un segnale audio se la sua ampiezza supera un determinato valore di soglia (threshold). Di solito è specificato in decibel, con una soglia più bassa (ad esempio -60 dB) che significa che verrà elaborata una quantità maggiore di audio rispetto a una soglia più alta (ad esempio -5 dB).

rapporto

La quantità di riduzione del livello è determinata dal parametro ratio: rapporto 4:1 significa che se il livello di ingresso è 4 dB sopra la soglia, il livello di uscita sarà 1 dB sopra la soglia.
Per esempio:
Soglia = −10 dB
Ingresso = −6 dB (4 dB sopra la soglia)
Uscita = −9 dB (1 dB sopra la soglia)

È importante tenere presente che la soppressione del livello del segnale continua per un certo tempo dopo che è sceso al di sotto del livello di soglia e questa volta è determinata dal valore del parametro pubblicazione.

La compressione con un rapporto massimo di ∞:1 è detta limitazione. Ciò significa che qualsiasi segnale al di sopra del livello di soglia viene attenuato al livello di soglia (tranne per un breve periodo dopo un improvviso aumento del volume di ingresso). Per ulteriori dettagli, vedere "Limiter" di seguito.

Esempi di diversi valori di rapporto

Attaccare e rilasciare

Un compressore fornisce un certo controllo sulla rapidità con cui risponde ai cambiamenti nella dinamica del segnale. Il parametro Attack determina il tempo impiegato dal compressore per ridurre il guadagno a un livello determinato dal parametro Ratio. Il Release determina il tempo durante il quale il compressore, al contrario, aumenta il guadagno, o ritorna normale se il livello del segnale in ingresso scende al di sotto del valore di soglia.

Fasi di attacco e rilascio

Questi parametri indicano il tempo (solitamente in millisecondi) necessario per modificare il guadagno di una certa quantità di decibel, solitamente 10 dB. Ad esempio, in questo caso, se Attack è impostato su 1 ms, sarà necessario 1 ms per ridurre il guadagno di 10 dB e 2 ms per ridurre il guadagno di 20 dB.

Su molti compressori i parametri Attack e Release possono essere regolati, ma su alcuni sono preimpostati e non possono essere regolati. A volte sono designati come “automatici” o “dipendenti dal programma”, ad es. cambiano a seconda del segnale di ingresso.

Ginocchio

Un altro parametro del compressore: ginocchio duro/morbido. Determina se l'inizio della compressione sarà brusco (forte) o graduale (morbido). Il Soft Knee riduce la percettibilità della transizione dal segnale dry al segnale compresso, soprattutto a valori Ratio elevati e improvvisi aumenti di volume.

Compressione per ginocchio duro e ginocchio morbido

Picco e RMS

Il compressore può rispondere ai valori di picco (massimi a breve termine) o al livello medio del segnale di ingresso. L'uso dei valori di picco può portare a forti fluttuazioni nel grado di compressione e persino a distorsioni. Pertanto, i compressori applicano una funzione media (solitamente RMS) al segnale di ingresso quando lo confrontano con un valore di soglia. Ciò fornisce una compressione più confortevole, più vicina alla percezione umana del volume.

RMS è un parametro che riflette il volume medio di una colonna sonora. Da un punto di vista matematico, RMS (Root Mean Square) è il valore quadratico medio dell'ampiezza di un certo numero di campioni:

Collegamento stereo

Un compressore in modalità collegamento stereo applica lo stesso guadagno a entrambi i canali stereo. Ciò evita spostamenti stereo che potrebbero derivare dall'elaborazione individuale dei canali sinistro e destro. Questo spostamento si verifica se, ad esempio, un elemento rumoroso viene spostato fuori centro.

Guadagno del trucco

Poiché il compressore riduce il livello complessivo del segnale, solitamente aggiunge un'opzione di guadagno di uscita fisso per raggiungere il livello ottimale.

Guarda avanti

La funzione look-ahead è progettata per risolvere i problemi associati a valori di attacco e rilascio sia troppo alti che troppo bassi. Un tempo di attacco troppo lungo non ci consente di intercettare efficacemente i transitori, e un tempo di attacco troppo breve potrebbe non essere confortevole per l'ascoltatore. Quando si utilizza la funzione look-ahead, il segnale principale viene ritardato rispetto al segnale di controllo, ciò consente di avviare la compressione in anticipo, anche prima che il segnale raggiunga il valore di soglia.
L'unico inconveniente di questo metodo è il ritardo temporale del segnale, che in alcuni casi è indesiderabile.

Utilizzo della compressione dinamica

La compressione viene utilizzata ovunque, non solo nelle colonne sonore musicali, ma anche ovunque sia necessario aumentare il volume complessivo senza aumentare i livelli di picco, dove si utilizzano apparecchiature economiche per la riproduzione del suono o un canale di trasmissione limitato (sistemi di comunicazione e diffusione sonora, radioamatori, eccetera.) .

Durante la riproduzione viene applicata la compressione musica di sottofondo(nei negozi, ristoranti, ecc.) dove non si desiderano variazioni evidenti di volume.

Ma l'area di applicazione più importante della compressione dinamica è la produzione e la trasmissione musicale. La compressione viene utilizzata per conferire "spessore" e "spinta" al suono, per combinare meglio gli strumenti tra loro e soprattutto durante l'elaborazione della voce.

Le voci nella musica rock e pop sono spesso compresse per farle risaltare dall'accompagnamento e aggiungere chiarezza. Un tipo speciale di compressore sintonizzato solo su determinate frequenze - un de-esser - viene utilizzato per sopprimere i fonemi sibilanti.

Nelle parti strumentali, la compressione viene utilizzata anche per effetti che non sono direttamente correlati al volume, ad esempio i suoni di batteria che decadono rapidamente possono essere allungati.

La musica dance elettronica (EDM) utilizza spesso il side-chaining (vedi sotto): ad esempio, la linea di basso può essere guidata da una grancassa o simili per evitare che basso e batteria si scontrino e creino una pulsazione dinamica.

La compressione è ampiamente utilizzata nelle trasmissioni (radio, televisione, trasmissioni Internet) per aumentare il volume percepito riducendo al contempo la gamma dinamica dell'audio sorgente (solitamente CD). Nella maggior parte dei paesi esistono restrizioni legali sul volume massimo istantaneo che può essere trasmesso. In genere queste limitazioni sono implementate da compressori hardware permanenti nella catena dell'aria. Inoltre, l’aumento del volume percepito migliora la “qualità” del suono dal punto di vista della maggior parte degli ascoltatori.

Guarda anche Guerra dei suoni.

Aumentando costantemente il volume della stessa canzone rimasterizzata per CD dal 1983 al 2000.

Concatenamento laterale

Un altro interruttore del compressore comunemente riscontrato è la “catena laterale”. In questa modalità, la compressione del suono avviene indipendentemente dalla sua proprio livello e in base al livello del segnale che entra nel connettore, che solitamente viene chiamato catena laterale.

Ci sono diversi usi per questo. Ad esempio, il cantante ha una pronuncia balbettante e tutte le "s" risaltano rispetto al quadro generale. Fai passare la sua voce attraverso un compressore e inserisci lo stesso suono nel connettore della catena laterale, ma passato attraverso un equalizzatore. Con un equalizzatore elimini tutte le frequenze tranne quelle usate dal cantante quando pronuncia la lettera “s”. Tipicamente intorno a 5 kHz, ma può variare da 3 kHz a 8 kHz. Se poi metti il ​​compressore in modalità sidechain, la voce verrà compressa nei momenti in cui viene pronunciata la lettera “s”. Ciò ha prodotto un dispositivo noto come de-esser. Questo modo di lavorare è chiamato “dipendente dalla frequenza”.

Un altro uso di questa funzione è chiamato "ducker". Ad esempio, in una stazione radio, la musica passa attraverso un compressore e le parole del DJ passano attraverso una catena laterale. Quando il DJ inizia a chattare, il volume della musica diminuisce automaticamente. Questo effetto può essere utilizzato con successo anche in registrazione, ad esempio per ridurre il volume delle parti della tastiera mentre si canta.

Limitazione del muro di mattoni

Il compressore ed il limiter funzionano più o meno allo stesso modo; possiamo dire che il limiter è un compressore con un Ratio alto (da 10:1) e, solitamente, un Attack time basso.

Esiste il concetto di limitazione del muro di mattoni: limitazione con un rapporto molto alto (20:1 e superiore) e un attacco molto veloce. Idealmente, non consente affatto al segnale di superare il livello di soglia. Il risultato sarà sgradevole all'orecchio, ma ciò eviterà danni o eccessi alle apparecchiature di riproduzione del suono larghezza di banda canale. Molti produttori integrano dei limitatori nei loro dispositivi proprio a questo scopo.

Tagliatore vs. Limitatore, ritaglio morbido e duro

La compressione è uno degli argomenti più mitici nella produzione del suono. Dicono che Beethoven con lei abbia spaventato anche i figli dei vicini :(

Ok, in effetti, usare la compressione non è più difficile che usare la distorsione, l'importante è capire il principio del suo funzionamento e avere un buon controllo. Questo è quello che vedremo insieme adesso.

Cos'è la compressione audio

La prima cosa da capire prima della preparazione è la compressione. lavorare con la gamma dinamica del suono. E, a sua volta, non è altro che la differenza tra i livelli del segnale più forte e quello più basso:

COSÌ, la compressione è la compressione della gamma dinamica. SÌ, Appena compressione della gamma dinamica, o in altre parole abbassando il livello delle parti forti del segnale e aumentando il volume delle parti silenziose. Non più.

Potresti ragionevolmente chiederti perché è collegato questo clamore allora? Perché tutti parlano di ricette per impostare correttamente il compressore, ma nessuno le condivide? Perché, nonostante l'enorme numero di fantastici plugin, molti studi utilizzano ancora modelli di compressori costosi e rari? Perché alcuni produttori utilizzano i compressori con impostazioni estreme, mentre altri non li utilizzano affatto? E quale dei due ha ragione alla fine?

Problemi risolti dalla compressione

Le risposte a tali domande si trovano nel piano della comprensione del ruolo della compressione nel lavorare con il suono. E consente:

  1. Enfatizza l'attacco suono, rendendolo più pronunciato;
  2. “Impostare” le singole parti degli strumenti nel mix, aggiungendo loro potenza e “peso”;
  3. Rendi più coesi gruppi di strumenti o un intero mix, un monolite così unico;
  4. Risolvere i conflitti tra gli strumenti utilizzando la sidechain;
  5. Correggi gli errori del cantante o dei musicisti, livellandone le dinamiche;
  6. Con una certa impostazione agire come un effetto artistico.

Come puoi vedere, questo non è un processo creativo meno significativo che, ad esempio, inventare melodie o creare timbri interessanti. Inoltre, ciascuno dei problemi di cui sopra può essere risolto utilizzando 4 parametri principali.

Parametri fondamentali del compressore

Nonostante l’enorme numero di modelli software e hardware di compressori, tutta la “magia” della compressione avviene quando impostazione corretta parametri principali: Threshold, Ratio, Attack e Release. Vediamoli più nel dettaglio:

Soglia o soglia di risposta, dB

Questo parametro consente di impostare il valore a partire dal quale funzionerà il compressore (ovvero comprimere il segnale audio). Quindi, se impostiamo la soglia su -12dB, il compressore funzionerà solo in quelle parti della gamma dinamica che superano questo valore. Se tutto il nostro suono è più basso di -12 dB, il compressore lo farà semplicemente passare senza influenzarlo in alcun modo.

Rapporto o rapporto di compressione

Il parametro ratio determina quanto verrà compresso un segnale che supera la soglia. Un po' di conti per completare il quadro: diciamo di aver impostato un compressore con una soglia di -12dB, rapporto 2:1 e di avergli dato un loop di batteria in cui il volume della grancassa è di -4dB. Quale sarà il risultato del funzionamento del compressore in questo caso?

Nel nostro caso, il livello di kick supera la soglia di 8 dB. Questa differenza in base al rapporto verrà compressa a 4 dB (8 dB / 2). In combinazione con la parte non elaborata del segnale, ciò porterà al fatto che dopo l'elaborazione da parte di un compressore, il volume della grancassa sarà -8 dB (soglia -12 dB + segnale compresso 4 dB).

Attacco, signorina

Questo è il tempo dopo il quale il compressore risponderà al superamento della soglia di risposta. Cioè, se il tempo di attacco è superiore a 0 ms - il compressore inizia la compressione superamento del segnale di soglia non immediatamente, ma dopo un tempo specificato.

Rilascio o recupero, signorina

L'opposto di un attacco: il valore di questo parametro consente di specificare quanto tempo dopo che il livello del segnale ritorna al di sotto della soglia il compressore smetterà di comprimere.

Prima di proseguire, consiglio vivamente di prelevare un campione noto, posizionare qualsiasi compressore sul relativo canale e sperimentare i parametri sopra indicati per 5-10 minuti per fissare saldamente il materiale

Tutto gli altri parametri sono facoltativi. Possono differire tra i diversi modelli di compressore, motivo per cui i produttori utilizzano modelli diversi per scopi specifici (ad esempio, un compressore per la voce, un altro per un gruppo di batteria, un terzo per il canale principale). Non mi soffermerò su questi parametri in dettaglio, ma lo darò solo informazioni generali Per capire di cosa si tratta:

  • Ginocchio o attorcigliamento (ginocchio duro/morbido). Questo parametro determina la velocità con cui verrà applicato il rapporto di compressione (rapporto): forte lungo una curva o uniformemente. Noto che nella modalità Soft Knee il compressore non funziona in modo lineare, ma inizia a comprimere il suono in modo fluido (per quanto appropriato quando si parla di millisecondi) già prima del valore di soglia. Per elaborare gruppi di canali e il mix complessivo, viene spesso utilizzato il soft knee (poiché funziona inosservato) e per enfatizzare l'attacco e altre caratteristiche dei singoli strumenti, viene utilizzato l'hard knee;
  • Modalità di risposta: Picco/RMS. La modalità Peak è giustificata quando è necessario limitare rigorosamente i burst di ampiezza, nonché su segnali di forma complessa, la cui dinamica e leggibilità devono essere pienamente trasmesse. La modalità RMS è molto delicata sul suono e consente di addensarlo mantenendo l'attacco;
  • Previsione (Looahead). Questo è il tempo durante il quale il compressore saprà cosa gli sta succedendo. Una sorta di analisi preliminare dei segnali in arrivo;
  • Trucco o guadagno. Parametro che consente di compensare la diminuzione di volume conseguente alla compressione.

Primo e maggior parte consiglio principale , che elimina tutte le ulteriori domande sulla compressione: se a) comprendi il principio della compressione, b) sai fermamente come questo o quel parametro influisce sul suono e c) sei riuscito a provarne diversi nella pratica modelli diversinon hai più bisogno di alcun consiglio.

Sono assolutamente serio. Se hai letto attentamente questo post, hai sperimentato il compressore standard della tua DAW e uno o due plug-in, ma non hai ancora capito in quali casi è necessario impostare valori di attacco elevati, quale rapporto utilizzare e in quale modalità elaborare il segnale sorgente: continuerai a cercare su Internet ricette già pronte, applicandole sconsideratamente ovunque.

Ricette di messa a punto del compressoreè un po' come una ricetta per mettere a punto un riverbero o un coro: non ha senso e non ha nulla a che fare con la creatività. Ripeto quindi con insistenza l'unica ricetta corretta: armatevi di questo articolo, di buone cuffie monitor, di un plug-in per il controllo visivo della forma d'onda, e passate la serata in compagnia di un paio di compressori.

Agire!

, Lettori multimediali

I dischi, soprattutto quelli più vecchi registrati e prodotti prima del 1982, avevano molte meno probabilità di essere mixati per rendere la registrazione più forte. Riproducono la musica naturale con una gamma dinamica naturale che viene preservata sul disco e persa nella maggior parte dei formati digitali standard o ad alta definizione.

Naturalmente ci sono delle eccezioni: ascolta il recente album di Steven Wilson da MA Recordings o Reference Recordings e sentirai quanto può essere buono l'audio digitale. Ma questo è raro; la maggior parte delle registrazioni sonore moderne sono rumorose e compresse.

La compressione musicale è stata oggetto di molte critiche ultimamente, ma sono pronto a scommettere che quasi tutte le tue registrazioni preferite sono compresse. Alcuni sono di meno, altri di più, ma comunque compressi. La compressione della gamma dinamica è un capro espiatorio per la musica dal suono scadente, ma la musica altamente compressa non è una novità: ascolta gli album della Motown degli anni '60. Lo stesso si può dire delle opere classiche dei Led Zeppelin o degli album più giovani di Wilco e Radiohead. La compressione della gamma dinamica riduce la relazione naturale tra i suoni più forti e quelli più deboli in una registrazione, quindi un sussurro può essere forte quanto un urlo. È abbastanza difficile trovare musica pop degli ultimi 50 anni che non sia stata compressa.

Recentemente ho avuto una bella chiacchierata con il fondatore ed editore della rivista Tape Op Larry Crane sugli aspetti positivi, negativi e negativi della compressione. Larry Crane ha lavorato con band e artisti come Stefan Marcus, Cat Power, Sleater-Kinney, Jenny Lewis, M. Ward, The Go-Betweens, Jason Little, Eliot Smith, Quasi e Richmond Fontaine. Gestisce anche lo studio di registrazione Jackpot! a Portland, Oregon, che ospitava The Breeders, The Decemberists, Eddie Vedder, Pavement, R.E.M., She & Him e molti, molti altri.

Come esempio di canzoni sorprendentemente innaturali ma comunque fantastiche, cito l'album del 2014 di Spoon They Want My Soul. Crane ride e dice che l'ascolta in macchina perché lì suona alla grande. Il che ci porta ad un’altra risposta alla domanda sul perché la musica viene compressa: perché la compressione e la “chiarezza” aggiuntiva rendono più facile l’ascolto in luoghi rumorosi.

Larry Crane al lavoro. Foto di Jason Quigley

Quando le persone dicono che gli piace il suono di una registrazione audio, penso che gli piaccia la musica, come se suono e musica fossero termini inseparabili. Ma per quanto mi riguarda, distinguo questi concetti. Dal punto di vista di un audiofilo, il suono può essere grezzo e grezzo, ma ciò non avrà importanza per la maggior parte degli ascoltatori.

Molti si affrettano ad accusare gli ingegneri del mastering di abusare della compressione, ma la compressione viene applicata direttamente durante la registrazione, durante il mixaggio e solo successivamente durante il mastering. A meno che tu non sia stato presente personalmente a ciascuna di queste fasi, non sarai in grado di dire come suonavano gli strumenti e le parti vocali all'inizio del processo.

Crane era sulla buona strada: "Se un musicista vuole sembrare intenzionalmente pazzo e distorto come i dischi dei Guided by Voices, allora non c'è niente di sbagliato in questo: il desiderio supera sempre la qualità del suono." La voce dell'esecutore è quasi sempre compressa, e la stessa cosa accade con il basso, la batteria, le chitarre e i sintetizzatori. La compressione mantiene il volume della voce a il giusto livello durante tutta la canzone o si distingue leggermente dal resto dei suoni.

Una compressione eseguita correttamente può rendere il suono della batteria più vivace o intenzionalmente strano. Per far sì che la musica suoni alla grande, devi essere in grado di utilizzare gli strumenti necessari. Ecco perché ci vogliono anni per capire come usare la compressione senza strafare. Se il tecnico del mix comprime troppo la parte di chitarra, il tecnico del mastering non sarà più in grado di ripristinare completamente le frequenze mancanti.

Se i musicisti volessero farti ascoltare musica che non ha attraversato le fasi di mixaggio e mastering, la pubblicherebbero sugli scaffali dei negozi direttamente dallo studio. Crane afferma che le persone che creano, modificano, mixano e masterizzano la musica registrata non sono lì per intralciare i musicisti: aiutano gli artisti fin dall'inizio, da più di cento anni.

Queste persone fanno parte del processo di creazione che si traduce in straordinarie opere d'arte. Crane aggiunge: "Non vuoi una versione di 'Dark Side of the Moon' che non sia stata mixata e masterizzata." I Pink Floyd pubblicarono la canzone nel modo in cui volevano ascoltarla.




Superiore