소리를 숫자의 흐름으로 변환합니다. 음성 합성 및 인식. 현대적인 솔루션. 컴퓨터 오디오 장비. 오디오를 숫자 스트림으로 변환 동적 범위 압축 또는 표준

시리즈의 두 번째 부분은 이미지의 동적 범위를 최적화하는 기능에 전념합니다. 여기서는 그러한 솔루션이 필요한 이유를 설명하고 구현을 위한 다양한 옵션과 장점 및 단점을 고려합니다.

광대함을 받아들이세요

이상적으로, 카메라는 사람이 인지하는 대로 주변 세계의 이미지를 포착해야 합니다. 그러나 카메라의 "시각" 메커니즘과 사람의 눈이 크게 다르기 때문에 이 조건을 충족할 수 없는 여러 가지 제한 사항이 있습니다.

이전에 필름 카메라 사용자가 직면했고 현재 디지털 카메라 소유자가 직면하고 있는 문제 중 하나는 특수 장치 및/또는 특수 촬영 기술을 사용하지 않으면 조도 차이가 큰 장면을 적절하게 캡처할 수 없다는 것입니다. 인간 시각 시스템의 특성으로 인해 밝은 부분과 어두운 부분 모두에서 고대비 장면의 세부 사항을 동일하게 잘 인식할 수 있습니다. 안타깝게도 카메라 센서가 항상 우리가 보는 방식대로 이미지를 포착할 수 있는 것은 아닙니다.

촬영된 장면의 밝기 차이가 클수록 하이라이트 및/또는 그림자의 디테일이 손실될 가능성이 높아집니다. 그 결과, 무성한 구름이 있는 푸른 하늘 대신에 사진은 희끄무레한 점으로만 드러나고, 그림자 속에 있는 물체는 불분명한 어두운 실루엣으로 변하거나 주변 환경과 완전히 합쳐집니다.

고전 사진의 개념은 사진 위도(자세한 내용은 사이드바를 참조하세요). 이론적으로 디지털 카메라의 사진 위도는 아날로그-디지털 변환기(ADC)의 비트 심도에 따라 결정됩니다. 예를 들어, 8비트 ADC를 사용하는 경우 양자화 오류를 고려하면 이론적으로 달성 가능한 사진 위도 값은 7EV, 12비트 ADC의 경우 11EV 등입니다. 그러나 실제 장치에서 이미지의 동적 범위는 다음과 같습니다. ~에다양한 유형의 소음 및 기타 요인의 영향으로 인해 동일한 이론상 최대값이 발생합니다.

밝기 수준의 큰 차이는 심각한 문제를 나타냅니다.
사진 찍을 때 문제. 이 경우 카메라의 성능은
대부분의 정보를 적절하게 전송하기에는 부족한 것으로 나타났습니다.
장면의 밝은 영역, 결과적으로 파란색 영역 대신
하늘(획으로 표시됨)은 흰색 "패치"로 밝혀졌습니다.

감광 센서가 기록할 수 있는 최대 밝기 값은 해당 셀의 포화 수준에 따라 결정됩니다. 최소값은 매트릭스의 열 잡음 양, 전하 전달 잡음, ADC 오류 등 여러 요인에 따라 달라집니다.

동일한 디지털 카메라의 사진 위도는 설정에서 설정된 감도 값에 따라 달라질 수 있다는 점도 주목할 가치가 있습니다. 최대 다이내믹 레인지는 소위 기본 감도(가능한 최소 수치에 해당)를 설정하여 달성할 수 있습니다. 이 매개변수의 값이 증가하면 노이즈 레벨 증가로 인해 동적 범위가 감소합니다.

센서가 장착된 최신 디지털 카메라 모델의 사진 폭 큰 사이즈 14비트 또는 16비트 ADC의 범위는 9~11EV이며 이는 35mm 컬러 네거티브 필름의 유사한 특성(평균 4~5EV)에 비해 상당히 높습니다. 따라서 상대적으로 저렴한 디지털 카메라라도 대부분의 일반적인 아마추어 촬영 장면을 적절하게 전달하기에 충분한 사진 관용도를 갖습니다.

그러나 다른 종류의 문제가 있습니다. 이는 디지털 이미지 기록에 대한 기존 표준이 부과하는 제한 사항과 관련이 있습니다. 색상 채널당 8비트의 JPEG 형식(현재 컴퓨터 산업 및 디지털 기술에서 디지털 이미지 기록의 사실상 표준이 됨)을 사용하면 사진 관용도가 8EV보다 큰 이미지를 저장하는 것이 이론적으로 불가능합니다.

카메라의 ADC를 사용하면 하이라이트와 섀도우 모두에서 식별 가능한 세부 정보가 포함된 12비트 또는 14비트의 비트 깊이로 이미지를 얻을 수 있다고 가정해 보겠습니다. 그러나 이 이미지의 사진 관용도가 8EV를 초과하면 추가 작업 없이(즉, 단순히 "추가" 비트를 삭제하여) 표준 8비트 형식으로 변환하는 과정에서 감광성 센서가 손실됩니다.

다이내믹 레인지및 사진 위도

간단히 말하면, 다이나믹 레인지는 이미지의 최대 밝기 값과 최소 값의 비율로 정의됩니다. 고전 사진에서는 사진 위도라는 용어가 전통적으로 사용되었으며 이는 본질적으로 동일한 의미입니다.

동적 범위 폭은 비율(예: 1000:1, 2500:1 등)로 표현될 수 있지만 대부분 로그 척도에서 수행됩니다. 이 경우 최대 밝기 대 최소값 비율의 십진 로그 값이 계산되고 숫자 뒤에는 대문자 D (영어 밀도? - 밀도) 또는 덜 자주? - 약어 OD가 표시됩니다. (영어로 광학 밀도? - 광학 밀도)가 배치됩니다. 예를 들어 장치의 최대 밝기 값과 최소 값의 비율이 1000:1인 경우 동적 범위는 3.0D와 같습니다.

사진 관용도를 측정하기 위해 전통적으로 소위 노출 단위, 약어로 EV(노출 값, 전문가는 이를 "중지" 또는 "단계"라고 함)가 사용됩니다. 노출 보정 값은 일반적으로 카메라 설정에서 설정되는 단위입니다. 사진 위도 값을 1EV만큼 늘리는 것은 최대 밝기 수준과 최소 밝기 수준 간의 차이를 두 배로 늘리는 것과 같습니다. 따라서 EV 스케일도 로그이지만 이 경우 밑이 2인 로그를 사용하여 숫자 값을 계산합니다. 예를 들어 장치가 최대 밝기와 최소 밝기 비율이 256:1인 이미지를 캡처할 수 있는 경우 사진 위도는 8EV입니다.

압축은 합리적인 절충안입니다.

최대 효과적인 방법카메라의 감광 센서로 기록된 이미지 정보 전체를 보존하기 위해 RAW 형식으로 이미지를 기록할 수 있습니다. 그러나 모든 카메라에 이러한 기능이 있는 것은 아니며 모든 아마추어 사진가가 선택이라는 힘든 작업에 참여할 준비가 되어 있는 것은 아닙니다. 개별 설정찍은 모든 사진에 대해.

카메라 내부에서 8비트 JPEG로 변환된 고대비 이미지의 세부 정보가 손실될 가능성을 줄이기 위해 많은 제조업체(소형 제품뿐만 아니라 SLR 제품도 포함)의 장치가 도입되었습니다. 특수 기능, 사용자 개입 없이 저장된 이미지의 동적 범위를 압축할 수 있습니다. 전체 대비를 줄이고 원본 이미지 정보의 작은 부분을 손실함으로써 이러한 솔루션을 사용하면 장치의 감광 센서에 의해 8비트 JPEG 형식으로 기록된 하이라이트와 그림자의 세부 사항을 보존할 수 있습니다. 원본 이미지의 폭이 8EV보다 넓은 것으로 나타났습니다.

이 분야 개발의 선구자 중 하나는 HP 회사였습니다. 2003년에 출시된 HP Photosmart 945 디지털 카메라에는 세계 최초의 HP Adaptive Lightling 기술이 탑재되었습니다. 이 기술은 사진의 어두운 부분의 낮은 조도를 자동으로 보정하여 과다 노출 위험 없이 그림자 세부 묘사를 보존합니다. 대조 장면). HP Adaptive Lightling 알고리즘은 인간의 시각적 인식에 대한 RETINEX 이론에서 영국 과학자 Edwin Land가 정한 원칙을 기반으로 합니다.

HP 적응형 조명 메뉴

적응형 조명은 어떻게 작동하나요? 이미지의 12비트 이미지를 얻은 후 실제로는 조도 맵인 보조 흑백 이미지가 추출됩니다. 이미지를 처리할 때 이 카드는 마스크로 사용되어 다소 복잡한 디지털 필터가 이미지에 미치는 영향 정도를 조정할 수 있습니다. 따라서 지도의 가장 어두운 지점에 해당하는 영역에서는 미래 이미지의 이미지에 미치는 영향이 최소화되고 그 반대의 경우도 마찬가지입니다. 이 접근 방식을 사용하면 해당 영역을 선택적으로 밝게 하고 그에 따라 결과 이미지의 전체 대비를 줄여 그림자 세부 사항을 드러낼 수 있습니다.

적응형 조명이 활성화되면 캡처된 이미지는 완성된 이미지가 파일에 기록되기 전에 위에서 설명한 방식으로 처리됩니다. 설명된 모든 작업은 자동으로 수행되며 사용자는 카메라 메뉴에서 두 가지 적응형 조명 작동 모드(낮은 노출 또는 높은 노출) 중 하나만 선택하거나 이 기능을 비활성화할 수 있습니다.

일반적으로 현대 디지털 카메라의 많은 특정 기능(이전 기사에서 논의한 안면 인식 시스템 포함)은 원래 군용 고객을 위해 수행된 연구 작업의 일종의 부산물 또는 변환 제품입니다. 이미지 동적 범위 최적화 기능과 관련하여 가장 잘 알려진 솔루션 제공업체 중 하나는 Apical입니다. 특히 직원들이 만든 알고리즘은 다양한 Olympus 디지털 카메라 모델에 구현된 SAT(Shadow adjustment Technology) 기능의 작동에 기반을 두고 있습니다. SAT 기능의 작동을 간단히 설명하면 다음과 같습니다. 이미지의 원본 이미지를 기반으로 가장 어두운 영역에 해당하는 마스크가 생성된 다음 해당 영역에 대해 노출 값이 자동으로 보정됩니다.

Sony는 Apical의 개발물을 사용할 수 있는 라이센스도 획득했습니다. Cyber-shot 시리즈의 컴팩트 카메라 모델과 Alpha 시리즈의 DSLR 카메라에는 소위 DRO(Dynamic Range Optimizer) 기능이 구현되어 있습니다.

HP Photosmart R927을 끈 상태에서 촬영한 사진(위)
적응형 조명 기능 활성화

DRO가 활성화되면 초기 이미지 처리 중에(즉, 완성된 JPEG 파일을 기록하기 전) 이미지 보정이 수행됩니다. 기본 버전에서 DRO에는 2단계 설정이 있습니다(메뉴에서 표준 또는 고급 작동 모드를 선택할 수 있음). 표준 모드를 ​​선택하면 사진의 이미지 분석을 바탕으로 노출 수준이 조정된 다음 이미지에 톤 곡선이 적용되어 전체적인 균형이 균일해집니다. 고급 모드는 그림자와 하이라이트 모두를 수정할 수 있는 보다 복잡한 알고리즘을 사용합니다.

Sony 개발자들은 DRO 알고리즘을 개선하기 위해 지속적으로 노력하고 있습니다. 예를 들어 a700 SLR 카메라에서는 고급 DRO 모드가 활성화되면 5가지 보정 옵션 중 하나를 선택할 수 있다. 또한, 서로 다른 DRO 설정을 사용하여 한 이미지의 세 가지 버전(일종의 브라케팅)을 한 번에 저장할 수 있습니다.

많은 Nikon 디지털 카메라 모델에는 Apical 알고리즘을 기반으로 하는 D-Lighting 기능이 있습니다. 사실, 위에서 설명한 솔루션과 달리 D-Lighting은 색조 곡선을 사용하여 이전에 저장된 이미지를 처리하기 위한 필터로 구현됩니다. 이 모양을 사용하면 이미지의 다른 영역을 변경하지 않고 그림자를 더 밝게 만들 수 있습니다. 그러나 이 경우 기성 8비트 이미지가 처리되기 때문에(비트 심도가 더 높고 이에 따라 다이내믹 레인지가 더 넓은 원본 프레임 이미지가 아님) D-Lighting의 기능이 매우 제한됩니다. 사용자는 그래픽 편집기에서 이미지를 처리하여 동일한 결과를 얻을 수 있습니다.

확대된 조각을 비교해 보면 원본 이미지(왼쪽)의 어두운 부분이 뚜렷하게 보입니다.
적응형 조명 기능을 켜면 더 가벼워집니다.

다른 원칙을 기반으로 한 솔루션도 많이 있습니다. 따라서 Panasonic의 Lumix 제품군의 많은 카메라(특히 DMC-FX35, DMC-TZ4, DMC-TZ5, DMC-FS20, DMC-FZ18 등)는 빛 인식 기능(지능형 노출)을 구현합니다. 시스템 iA 지능형 자동 촬영 제어의 필수적인 부분입니다. 지능형 노출 기능은 프레임 이미지의 자동 분석과 이미지의 어두운 영역 수정을 기반으로 하여 그림자의 디테일 손실을 방지하고 (필요한 경우) 고대비 장면의 동적 범위를 압축합니다.

경우에 따라 다이내믹 레인지 최적화 기능에는 원본 이미지 처리를 위한 특정 작업뿐만 아니라 촬영 설정 수정도 포함됩니다. 예를 들어, Fujifilm 디지털 카메라의 새로운 모델(특히 FinePix S100FS)은 동적 범위(WDR) 확장 기능을 구현합니다. 개발자에 따르면 이 기능을 사용하면 사진 위도를 1 또는 1만큼 늘릴 수 있습니다. 두 단계(설정 용어로 - 200 및 400%).

WDR이 활성화되면 카메라는 -1 또는 -2 EV의 노출 보정으로 사진을 촬영합니다(선택한 설정에 따라 다름). 따라서 프레임 이미지는 노출 부족으로 나타납니다. 이는 하이라이트의 세부 사항에 대한 최대 정보를 보존하기 위해 필요합니다. 그런 다음 결과 이미지는 톤 곡선을 사용하여 처리되며, 이를 통해 전체 균형을 균등화하고 블랙 레벨을 조정할 수 있습니다. 그런 다음 이미지는 8비트 형식으로 변환되어 JPEG 파일로 기록됩니다.

다이내믹 레인지 압축으로 더 많은 디테일 유지
빛과 그림자가 있지만 그러한 노출로 인해 불가피한 결과가 발생합니다.
전체적인 대비가 감소합니다. 하단 이미지에는
구름의 질감이 훨씬 더 잘 발달되었지만
대비가 낮기 때문에 이 버전의 사진은
덜 자연스러워 보이는데

Dynamic Range Enlargement라는 유사한 기능이 Pentax의 여러 소형 및 SLR 카메라(Optio S12, K200D 등)에 구현되어 있습니다. 제조업체에 따르면 다이내믹 레인지 확대 기능을 사용하면 하이라이트와 섀도우의 디테일을 잃지 않고 이미지의 사진 관용도를 1 EV 늘릴 수 있습니다.

하이라이트 톤 우선순위(HTP)라는 유사한 기능이 여러 Canon DSLR 모델(EOS 40D, EOS 450D 등)에 구현되어 있습니다. 사용 설명서에 따르면 HTP를 활성화하면 하이라이트 디테일이 향상됩니다(구체적으로 0~18% 회색 범위).

결론

요약해보자. 내장된 동적 범위 압축을 사용하면 손상을 최소화하면서 높은 동적 범위 소스 이미지를 8비트로 변환할 수 있습니다. JPEG 파일. RAW 형식으로 이미지를 저장하는 옵션이 없는 동적 범위 압축 모드를 사용하면 사진작가는 고대비 장면을 촬영할 때 카메라의 잠재력을 더욱 완벽하게 활용할 수 있습니다.

물론 다이나믹 레인지 압축은 기적의 치료법이 아니라 절충안이라는 점을 기억하는 것이 중요합니다. 하이라이트 및/또는 그림자의 디테일을 보존하려면 이미지의 어두운 영역에서 노이즈 수준을 높이고 대비를 낮추며 부드러운 색조 전환을 다소 거칠게 만드는 대가를 치르게 됩니다.

다른 자동 기능과 마찬가지로 동적 범위 압축 알고리즘은 모든 사진을 향상시킬 수 있는 완전히 보편적인 솔루션이 아닙니다. 따라서 꼭 필요한 경우에만 활성화하는 것이 합리적입니다. 예를 들어, 잘 디자인된 배경에서 실루엣을 촬영하려면 다이내믹 레인지 압축 기능을 꺼야 합니다. 그렇지 않으면 멋진 장면이 절망적으로 망가질 것입니다.

이 주제에 대한 고려를 마무리하면서 동적 범위 압축 기능을 사용해도 카메라 센서로 캡처되지 않은 결과 이미지의 세부 정보를 "인출"할 수 없다는 점에 유의해야 합니다. 고대비 장면을 촬영할 때 만족스러운 결과를 얻으려면 추가 도구(예: 풍경 사진의 그래디언트 필터) 또는 특수 기술(예: 노출 브라케팅으로 여러 프레임을 촬영한 다음 톤 매핑 기술을 사용하여 하나의 이미지로 병합)을 사용해야 할 수도 있습니다. ).

다음 기사에서는 버스트 기능에 중점을 둘 것입니다.

계속됩니다

질문에 대해 생각해 봅시다. 볼륨을 높여야 하는 이유는 무엇입니까? 우리 상황에서는 들리지 않는 조용한 소리를 듣기 위해(예를 들어 큰 소리로 들을 수 없는 경우, 방에 외부 소음이 있는 경우 등) 시끄러운 소리는 그대로 두고 조용한 소리만 증폭시킬 수 있나요? 가능하다는 것이 밝혀졌습니다. 이 기술을 DRC(동적 범위 압축)라고 합니다. 이렇게하려면 현재 볼륨을 지속적으로 변경해야합니다. 조용한 소리, 큰 소리는 증폭하지 마십시오. 부피 변화의 가장 간단한 법칙은 선형입니다. 볼륨은 Output_loudness = k * input_loudness 법칙에 따라 변경됩니다. 여기서 k는 동적 범위 압축 비율입니다.

그림 18. 동적 범위 압축.

k = 1이면 변경이 이루어지지 않습니다(출력 볼륨은 입력 볼륨과 같습니다). k에서< 1 громкость будет увеличиваться, а динамический диапазон - сужаться. Посмотрим на график (k=1/2) - тихий звук, имевший громкость -50дБ станет громче на 25дБ, что значительно громче, но при этом громкость диалогов (-27дБ) повысится всего лишь на 13.5дБ, а громкость самых громких звуков (0дБ) вообще не изменится. При k >1 - 볼륨이 감소하고 동적 범위가 증가합니다.

볼륨 그래프를 살펴보겠습니다(k = 1/2: DD 압축이 두 배가 됨).

그림 19. 음량 그래프.

원본에서 볼 수 있듯이 대화 레벨보다 30dB 낮은 매우 조용한 소리와 대화 레벨보다 30dB 높은 매우 큰 소리가 모두 있었습니다. 저것. 다이나믹 레인지는 60dB였습니다. 압축 후 큰 소리는 대화보다 15dB만 더 높고, 조용한 소리는 대화보다 15dB 낮습니다(동적 범위는 이제 30dB임). 따라서 큰 소리는 훨씬 더 조용해졌고, 조용한 소리는 훨씬 더 커졌습니다. 이 경우 오버플로가 발생하지 않습니다!