Sesi bir sayı akışına dönüştürmek. Konuşma sentezi ve tanıma. Modern çözümler. Bilgisayar ses ekipmanı. Sesi bir sayı akışına dönüştürme Dinamik aralık sıkıştırılmış veya standart

Serinin ikinci bölümü, görüntülerin dinamik aralığını optimize etmeye yönelik işlevlere ayrılmıştır. İçinde size bu tür çözümlerin neden gerekli olduğunu anlatacağız, bunların uygulanması için çeşitli seçeneklerin yanı sıra avantaj ve dezavantajlarını da göz önünde bulunduracağız.

Sınırsızlığı kucaklayın

İdeal olarak, bir kamera çevredeki dünyanın bir kişinin algıladığı şekliyle görüntüsünü yakalamalıdır. Ancak kameranın "görüş" mekanizmaları ile insan gözünün önemli ölçüde farklı olması nedeniyle, bu koşulun karşılanmasına izin vermeyen bir takım kısıtlamalar mevcuttur.

Daha önce filmli kamera kullanıcılarının karşılaştığı ve şimdi dijital kamera sahiplerinin de karşılaştığı sorunlardan biri, büyük aydınlatma farklılıklarına sahip sahneleri, özel cihazlar ve/veya özel çekim teknikleri kullanılmadan yeterince yakalayamamaktır. İnsan görme sisteminin özellikleri, yüksek kontrastlı sahnelerin ayrıntılarını hem parlak hem de karanlık alanlarda eşit derecede iyi algılamayı mümkün kılar. Ne yazık ki, kamera sensörü her zaman bir görüntüyü bizim gördüğümüz şekilde yakalayamıyor.

Fotoğraflanan sahnedeki parlaklık farkı ne kadar büyük olursa, parlak noktalarda ve/veya gölgelerde ayrıntı kaybı olasılığı da o kadar yüksek olur. Sonuç olarak, yemyeşil bulutların olduğu mavi bir gökyüzü yerine, resim sadece beyazımsı bir noktaya dönüşüyor ve gölgelerde bulunan nesneler belirsiz karanlık silüetlere dönüşüyor veya çevredeki ortamla tamamen birleşiyor.

Klasik fotoğrafçılıkta kavram fotografik enlem(Ayrıntılar için kenar çubuğuna bakın). Teorik olarak, dijital kameraların fotografik enlemi, analogdan dijitale dönüştürücünün (ADC) bit derinliği tarafından belirlenir. Örneğin, 8 bitlik bir ADC kullanıldığında, niceleme hatası dikkate alınarak, fotografik enlemin teorik olarak elde edilebilir değeri, 12 bitlik bir ADC - 11 EV, vb. için 7 EV olacaktır. Ancak gerçek cihazlarda görüntülerin dinamik aralığı ençeşitli gürültü türlerinin ve diğer faktörlerin etkisinden dolayı aynı teorik maksimum.

Parlaklık seviyelerindeki büyük fark ciddi bir durumu temsil eder.
Fotoğraf çekerken sorun. Bu durumda kameranın yetenekleri
çoğunun yeterli iletimi için yetersiz olduğu ortaya çıktı
sahnenin açık alanları ve sonuç olarak mavi bir alan yerine
gökyüzü (bir vuruşla işaretlenmiş) beyaz bir "yama" olarak ortaya çıkıyor

Işığa duyarlı bir sensörün kaydedebileceği maksimum parlaklık değeri, hücrelerinin doygunluk düzeyine göre belirlenir. Minimum değer, matrisin termal gürültüsünün miktarı, yük aktarım gürültüsü ve ADC hatası dahil olmak üzere çeşitli faktörlere bağlıdır.

Aynı dijital kameranın fotoğrafik enleminin ayarlarda belirlenen hassasiyet değerine bağlı olarak değişebileceğini de belirtmekte fayda var. Maksimum dinamik aralığa, temel hassasiyet adı verilen (mümkün olan minimum sayısal değere karşılık gelen) ayarlanarak ulaşılabilir. Bu parametrenin değeri arttıkça gürültü seviyesinin artması nedeniyle dinamik aralık azalır.

Sensörlerle donatılmış modern dijital kamera modellerinin fotoğrafik genişliği büyük beden ve 14 veya 16 bit ADC'ler, 9 ila 11 EV arasında değişir; bu, 35 mm renkli negatif filmlerin (ortalama 4 ila 5 EV) benzer özelliklerine kıyasla önemli ölçüde daha yüksektir. Bu nedenle, nispeten ucuz dijital kameralar bile çoğu tipik amatör çekim sahnesini yeterince aktarmaya yeterli bir fotografik genişliğe sahiptir.

Ancak farklı türden bir sorun var. Dijital görüntülerin kaydedilmesine yönelik mevcut standartların getirdiği sınırlamalarla ilişkilidir. Renk kanalı başına 8 bit içeren JPEG formatını kullanarak (bu, artık bilgisayar endüstrisinde ve dijital teknolojide dijital görüntülerin kaydedilmesi için fiili standart haline gelmiştir), 8 EV'den daha büyük bir fotoğraf enlemine sahip bir görüntüyü kaydetmek teorik olarak imkansızdır.

Kameranın ADC'sinin, hem parlak noktalarda hem de gölgelerde fark edilebilir ayrıntılar içeren, 12 veya 14 bitlik bit derinliğine sahip bir görüntü elde etmenize izin verdiğini varsayalım. Bununla birlikte, bu görüntünün fotografik enlemi 8 EV'yi aşarsa, herhangi bir ek işlem yapmadan (yani, yalnızca "ekstra" bitleri atarak) standart 8 bitlik formata dönüştürme sürecinde, kaydedilen bilgilerin bir kısmı ışığa duyarlı sensör kaybolacaktır.

Dinamik aralık ve fotografik enlem

Basitçe ifade etmek gerekirse dinamik aralık, bir görüntünün maksimum parlaklık değerinin minimum değerine oranı olarak tanımlanır. Klasik fotoğrafçılıkta geleneksel olarak fotografik enlem terimi kullanılır ve bu da esasen aynı anlama gelir.

Dinamik aralık genişliği bir oran olarak ifade edilebilir (örneğin 1000:1, 2500:1 vb.), ancak çoğu zaman bu logaritmik ölçekte yapılır. Bu durumda, maksimum parlaklığın minimum değerine oranının ondalık logaritmasının değeri hesaplanır ve sayıdan sonra büyük harf D (İngiliz yoğunluğundan mı? - yoğunluk) veya daha az sıklıkla? - OD kısaltması (İngiliz optik yoğunluğundan? - optik yoğunluk) yerleştirilir. Örneğin bir cihazın maksimum parlaklık değerinin minimum değerine oranı 1000:1 ise dinamik aralık 3,0 D'ye eşit olacaktır:

Fotoğrafik enlemi ölçmek için geleneksel olarak EV olarak kısaltılan pozlama birimleri kullanılır (pozlama değerleri; profesyoneller bunlara genellikle "duraklar" veya "adımlar" adını verir). Pozlama telafisi değeri genellikle kamera ayarlarında bu birimlerde ayarlanır. Fotografik enlem değerinin 1 EV arttırılması, maksimum ve minimum parlaklık seviyeleri arasındaki farkın iki katına çıkarılmasına eşdeğerdir. Bu nedenle, EV ölçeği de logaritmiktir, ancak bu durumda sayısal değerleri hesaplamak için 2 tabanı logaritması kullanılır. Örneğin, bir cihaz maksimum ila minimum parlaklık oranı 256:1 olan görüntüler yakalayabiliyorsa, o zaman onun fotografik enlem 8 EV olacaktır:

Sıkıştırma makul bir uzlaşmadır

En etkili yol Fotoğraf makinesinin ışığa duyarlı sensörü tarafından kaydedilen görüntü bilgilerinin tamamını korumak için görüntüleri RAW formatında kaydetmek mümkündür. Ancak, tüm kameraların böyle bir işlevi yoktur ve her amatör fotoğrafçı, özenli seçim çalışmasına katılmaya hazır değildir. bireysel ayarlarçekilen her fotoğraf için.

Kameranın içinde 8 bit JPEG'e dönüştürülen yüksek kontrastlı görüntülerin ayrıntılarının kaybolma olasılığını azaltmak için birçok üreticinin cihazları (yalnızca kompakt olanlar değil, aynı zamanda SLR olanlar da) piyasaya sürüldü. özel fonksiyonlar kaydedilen görüntülerin dinamik aralığını kullanıcı müdahalesi olmadan sıkıştırmanıza olanak tanır. Bu tür çözümler, genel kontrastı azaltarak ve orijinal görüntüdeki bilgilerin küçük bir kısmını kaybederek, dinamik aralık olmasa bile cihazın ışığa duyarlı sensörü tarafından 8 bit JPEG formatında kaydedilen parlak noktalar ve gölgelerdeki ayrıntıların korunmasını mümkün kılar. Orijinal görüntünün 8 EV'den daha geniş olduğu ortaya çıktı.

Bu alanın gelişmesinde öncülerden biri de HP şirketi oldu. 2003 yılında piyasaya sürülen HP Photosmart 945 dijital kamera, fotoğrafların karanlık alanlarındaki düşük ışık düzeylerini otomatik olarak telafi eden ve böylece aşırı pozlama riski olmadan (yüksek çözünürlüklü çekimlerde çok önemlidir) gölge ayrıntılarını koruyan dünyanın ilk HP Adaptive Lightling teknolojisine sahipti. kontrast sahneler). HP Uyarlanabilir Işıklandırma algoritması, İngiliz bilim adamı Edwin Land tarafından RETINEX'in insan görsel algısı teorisinde ortaya konulan ilkelere dayanmaktadır.

HP Uyarlanabilir Aydınlatma menüsü

Uyarlanabilir Aydınlatma nasıl çalışır? Görüntünün 12 bitlik bir görüntüsü elde edildikten sonra, bu görüntüden aslında bir ışınım haritası olan yardımcı bir monokrom görüntü çıkarılır. Bir görüntüyü işlerken bu kart, oldukça karmaşık bir dijital filtrenin görüntü üzerindeki etki derecesini ayarlamanıza olanak tanıyan bir maske olarak kullanılır. Böylece, haritanın en karanlık noktalarına karşılık gelen alanlarda, gelecekteki görüntünün görüntüsü üzerindeki etki minimum düzeydedir ve bunun tersi de geçerlidir. Bu yaklaşım, bu alanların seçici olarak aydınlatılması ve buna bağlı olarak ortaya çıkan görüntünün genel kontrastının azaltılması yoluyla gölge ayrıntılarının ortaya çıkarılmasına olanak tanır.

Uyarlanabilir Aydınlatma etkinleştirildiğinde, yakalanan görüntünün, bitmiş görüntü bir dosyaya yazılmadan önce yukarıda açıklanan şekilde işlendiğine dikkat edilmelidir. Açıklanan tüm işlemler otomatik olarak gerçekleştirilir ve kullanıcı, kamera menüsündeki iki Uyarlanabilir Aydınlatma çalışma modundan (düşük veya yüksek pozlama) yalnızca birini seçebilir veya bu işlevi devre dışı bırakabilir.

Genel olarak konuşursak, modern dijital kameraların birçok özel işlevi (önceki makalede tartışılan yüz tanıma sistemleri dahil), başlangıçta askeri müşteriler için yürütülen araştırma çalışmasının bir tür yan ürünü veya dönüşüm ürünüdür. Görüntü dinamik aralık optimizasyon işlevleri söz konusu olduğunda, bu tür çözümlerin en iyi bilinen sağlayıcılarından biri Apical'dir. Özellikle çalışanları tarafından oluşturulan algoritmalar, birçok Olympus dijital fotoğraf makinesi modelinde uygulanan SAT (Gölge Ayarlama Teknolojisi) fonksiyonunun çalışmasının temelini oluşturmaktadır. SAT fonksiyonunun çalışmasını kısaca şu şekilde anlatabiliriz: görüntünün orijinal görüntüsüne göre en karanlık bölgelere karşılık gelen bir maske oluşturulur ve ardından bu alanlar için poz değeri otomatik olarak düzeltilir.

Sony ayrıca Apical'in geliştirmelerini kullanmak için bir lisans da aldı. Cyber-shot serisindeki ve alfa serisindeki DSLR fotoğraf makinelerindeki birçok kompakt fotoğraf makinesi modeli, Dinamik Aralık Optimize Edici (DRO) adı verilen işlevi uygular.

HP Photosmart R927 kapalıyken çekilen fotoğraflar (üstte)
ve Uyarlanabilir Aydınlatma işlevi etkinleştirildi

DRO etkinleştirildiğinde, ilk görüntü işleme sırasında (yani bitmiş JPEG dosyasını kaydetmeden önce) görüntü düzeltme gerçekleştirilir. Temel versiyonda DRO'nun iki aşamalı bir ayarı vardır (menüden standart veya gelişmiş çalışma modunu seçebilirsiniz). Standart modu seçtiğinizde, pozlama düzeyleri fotoğrafın görüntü analizine göre ayarlanır ve ardından genel dengeyi eşitlemek için görüntüye bir ton eğrisi uygulanır. Gelişmiş mod, hem gölgelerde hem de açıktonlarda düzeltmeye olanak tanıyan daha karmaşık bir algoritma kullanır.

Sony geliştiricileri DRO algoritmasını geliştirmek için sürekli çalışıyor. Örneğin a700 SLR fotoğraf makinesinde gelişmiş DRO modu etkinleştirildiğinde beş düzeltme seçeneğinden birini seçmek mümkün. Ek olarak, farklı DRO ayarlarıyla bir görüntünün üç versiyonunu aynı anda (bir tür basamaklama) kaydetmek mümkündür.

Birçok Nikon dijital fotoğraf makinesi modelinde yine Apikal algoritmalara dayanan bir D-Lighting işlevi bulunur. Doğru, yukarıda açıklanan çözümlerin aksine, D-Lighting, daha önce kaydedilmiş görüntüleri bir ton eğrisi kullanarak işlemek için bir filtre olarak uygulanır; bunun şekli, görüntünün diğer alanlarını değiştirmeden gölgeleri daha açık hale getirmenize olanak tanır. Ancak bu durumda hazır 8 bitlik görüntüler işlendiğinden (daha yüksek bit derinliğine ve buna bağlı olarak daha geniş bir dinamik aralığa sahip orijinal çerçeve görüntüsü değil), D-Lighting'in yetenekleri çok sınırlıdır. Kullanıcı, görüntüyü bir grafik düzenleyicide işleyerek aynı sonucu elde edebilir.

Büyütülmüş parçaları karşılaştırırken, orijinal görüntünün karanlık alanlarının (solda) açıkça görülebildiği görülmektedir.
Uyarlanabilir Aydınlatma işlevi açıldığında daha hafif oldular

Diğer ilkelere dayalı bir dizi çözüm de vardır. Bu nedenle, Panasonic'in Lumix ailesinin birçok kamerası (özellikle DMC-FX35, DMC-TZ4, DMC-TZ5, DMC-FS20, DMC-FZ18, vb.), ışık tanıma işlevini (Akıllı Pozlama) uygular. iA akıllı otomatik çekim kontrolü sisteminin ayrılmaz bir parçası. Akıllı Pozlama işlevi, çerçeve görüntüsünün otomatik analizine ve gölgelerdeki ayrıntı kaybını önlemek için görüntünün karanlık alanlarının düzeltilmesine ve ayrıca (gerekirse) yüksek kontrastlı sahnelerin dinamik aralığının sıkıştırılmasına dayanır.

Bazı durumlarda, dinamik aralık optimizasyonu işlevi yalnızca orijinal görüntü görüntüsünün işlenmesine yönelik belirli işlemleri değil aynı zamanda çekim ayarlarının düzeltilmesini de içerir. Örneğin, Fujifilm dijital kameraların yeni modelleri (özellikle FinePix S100FS), geliştiricilere göre fotoğrafik enlemi bir veya bir oranında artırmanıza olanak tanıyan dinamik aralığı (Geniş Dinamik Aralık, WDR) genişletme işlevini uygular. iki adım (ayar terminolojisinde - %200 ve %400).

WDR etkinleştirildiğinde, kamera -1 veya -2 EV pozlama telafisiyle (seçilen ayara bağlı olarak) fotoğraflar çeker. Böylece, çerçevenin görüntüsü az pozlanmış görünüyor - bu, vurgulardaki ayrıntılar hakkında maksimum bilgiyi korumak için gereklidir. Ortaya çıkan görüntü daha sonra genel dengeyi eşitlemenize ve siyah seviyesini ayarlamanıza olanak tanıyan bir ton eğrisi kullanılarak işlenir. Görüntü daha sonra 8 bit formatına dönüştürülür ve JPEG dosyası olarak kaydedilir.

Dinamik aralık sıkıştırması daha fazla ayrıntıyı korur
ışıklarda ve gölgelerde, ancak bu tür bir maruz kalmanın kaçınılmaz bir sonucu
genel kontrastta bir azalmadır. Alttaki resimde
bulutların dokusu çok daha iyi gelişmiştir ancak
düşük kontrast nedeniyle fotoğrafın bu versiyonu
daha az doğal görünüyor

Dinamik Aralık Genişletme adı verilen benzer bir işlev, Pentax'ın bir dizi kompakt ve SLR fotoğraf makinesinde (Optio S12, K200D, vb.) uygulanmaktadır. Üreticiye göre Dinamik Aralık Genişletme işlevinin kullanılması, parlak noktalarda ve gölgelerde ayrıntı kaybı olmadan görüntülerin fotografik enlemini 1 EV artırmanıza olanak tanır.

Vurgu tonu önceliği (HTP) adı verilen benzer bir işlev, bazı Canon DSLR modellerinde (EOS 40D, EOS 450D, vb.) uygulanmaktadır. Kullanım kılavuzuna göre, HTP'nin etkinleştirilmesi vurgu ayrıntılarını iyileştirir (özellikle %0 ila %18 gri aralığında).

Çözüm

Özetleyelim. Yerleşik dinamik aralık sıkıştırması, yüksek dinamik aralıklı kaynak görüntüsünü minimum hasarla 8 bit'e dönüştürmenize olanak tanır JPEG dosyası. Görüntüleri RAW formatında kaydetme seçeneğinin bulunmadığı Dinamik Aralık Sıkıştırma modu, fotoğrafçıların yüksek kontrastlı sahneler çekerken fotoğraf makinelerinin potansiyelinden daha iyi yararlanmalarına olanak tanır.

Elbette, dinamik aralık sıkıştırmanın mucizevi bir tedavi değil, bir uzlaşma olduğunu unutmamak önemlidir. Parlak noktalarda ve/veya gölgelerde ayrıntıların korunması, görüntünün karanlık alanlarındaki gürültü düzeyinin artırılması, kontrastın azaltılması ve yumuşak ton geçişlerinin bir miktar kabalaştırılması pahasına gelir.

Herhangi bir otomatik işlev gibi, dinamik aralık sıkıştırma algoritması da herhangi bir fotoğrafı kesinlikle iyileştirmenize olanak tanıyan tamamen evrensel bir çözüm değildir. Bu nedenle, onu yalnızca gerçekten gerekli olduğu durumlarda etkinleştirmek mantıklıdır. Örneğin, iyi tasarlanmış bir arka plana sahip bir siluet çekmek için dinamik aralık sıkıştırma işlevinin kapatılması gerekir - aksi takdirde muhteşem sahne umutsuzca mahvolur.

Bu konuyu ele aldığımızda, dinamik aralık sıkıştırma işlevlerinin kullanılmasının, sonuçta ortaya çıkan görüntüde, kamera sensörü tarafından yakalanmayan ayrıntıları "çıkarmamıza" izin vermediğine dikkat edilmelidir. Yüksek kontrastlı sahneleri çekerken tatmin edici sonuçlar elde etmek için, ek araçlar (manzara fotoğrafçılığı için degrade filtreleri gibi) veya özel teknikler (poz basamaklamayla birden fazla kare çekmek ve ardından bunları Ton Eşleme teknolojisini kullanarak tek bir görüntüde birleştirmek gibi) kullanmanız gerekebilir. ).

Bir sonraki makale seri çekim işlevine odaklanacak.

Devam edecek

Şimdi şu soruyu düşünelim: Sesi neden açmamız gerekiyor? Koşullarımızda duyulamayan kısık sesleri duymak için (örneğin, yüksek sesle dinleyemiyorsanız, odada yabancı gürültü varsa vb.). Yüksek sesleri yalnız bırakırken alçak sesleri yükseltmek mümkün müdür? Bunun mümkün olduğu ortaya çıktı. Bu tekniğe dinamik aralık sıkıştırması (DRC) adı verilir. Bunu yapmak için, mevcut ses seviyesini sürekli olarak değiştirmeniz gerekir - düşük sesleri, yüksek sesleri yükseltin - değil. Hacim değişiminin en basit yasası doğrusaldır, yani. Ses seviyesi, çıktı_ses yüksekliği = k * giriş_ses yüksekliği yasasına göre değişir; burada k, dinamik aralık sıkıştırma oranıdır:

Şekil 18. Dinamik aralık sıkıştırması.

k = 1 olduğunda hiçbir değişiklik yapılmaz (çıkış hacmi giriş hacmine eşittir). K'da< 1 громкость будет увеличиваться, а динамический диапазон - сужаться. Посмотрим на график (k=1/2) - тихий звук, имевший громкость -50дБ станет громче на 25дБ, что значительно громче, но при этом громкость диалогов (-27дБ) повысится всего лишь на 13.5дБ, а громкость самых громких звуков (0дБ) вообще не изменится. При k >1 - ses seviyesi azalacak ve dinamik aralık artacaktır.

Hacim grafiklerine bakalım (k = 1/2: DD sıkıştırması iki katına çıkar):

Şekil 19. Ses yüksekliği grafikleri.

Orijinalde görebileceğiniz gibi, hem diyalog seviyesinin 30 dB altında çok sessiz sesler, hem de diyalog seviyesinin 30 dB üzerinde çok yüksek sesler vardı. O. dinamik aralık 60dB idi. Sıkıştırmadan sonra, yüksek sesler diyalogdan yalnızca 15 dB daha yüksek, alçak sesler ise 15 dB daha düşüktür (dinamik aralık artık 30 dB'dir). Böylece, yüksek sesler önemli ölçüde azaldı ve alçak sesler de önemli ölçüde arttı. Bu durumda taşma olmaz!