Związek zakresu dynamiki z rozmiarem słowa danych w dźwięku cyfrowym

Jednym z najważniejszych czynników branych pod uwagę przy projektowaniu systemu audio jest określenie akceptowalnej jakości sygnału dla danego zastosowania. Tabela 1 poniżej przedstawia porównania jakości sygnału dla niektórych aplikacji, urządzeń i sprzętu audio [13].

Sprzedawcy i konsumenci sprzętu audio często używają wyrażenia „dźwięk o jakości CD”. w odniesieniu do dźwięku o wysokim zakresie dynamiki. Porównaj jakość dźwięku odtwarzacza CD z jakością dźwięku emitowanego w radiu AM. W przypadku wyższej jakości dźwięku CD szumy nie są słyszalne, zwłaszcza podczas cichych fragmentów muzyki. Sygnały o niższym poziomie są wyraźnie słyszalne. Jednak słuchacz radia AM może z łatwością usłyszeć hałas o niskim poziomie na bardzo słyszalnym poziomie, który może rozpraszać słuchacza. Wraz ze wzrostem zakresów dynamiki sygnału audio można lepiej rozróżnić sygnały audio o niskim poziomie, podczas gdy poziom szumów jest obniżony i staje się niewykrywalny dla słuchacza („poziom szumów” to termin używany do opisu punkt, w którym nie można odróżnić sygnału audio od białego szumu o niskim poziomie).

„Ostatnie postępy w dziedzinie ludzkiego słuchu, jakie dokonały się w ciągu ostatniej dekady, wskazują, że czułość ludzkiego ucha jest taka, że ​​zakres dynamiczny pomiędzy najcichszym wykrywalnym dźwiękiem a maksymalnym dźwiękiem, który można usłyszeć bez bólu, wynosi około 120 dB. Dalsze badania sugerują, że niezwykle ważne informacje audio znajdują się w częstotliwościach do 40 kHz, a być może 80 kHz”.

Aby osiągnąć jakość sygnału typu CD, panującą w ostatnich latach tendencją było projektowanie systemów przetwarzających sygnały audio cyfrowo przy użyciu 16-bitowych przetworników A/D i D/A, stosunku sygnału do szumu (SNR) i zakresu dynamiki ok. 90-93 dB. Podczas przetwarzania tych sygnałów programista powinien zwykle zaprojektować algorytm z wystarczającą precyzją obliczeń, która jest zwykle większa niż 16 bitów w sygnałach z dysku kompaktowego. Dźwięk o jakości CD to tylko jeden z przykładów. Niezależnie od zastosowania projektant systemu audio musi najpierw określić akceptowalny współczynnik SNR, a następnie zdecydować, jaka precyzja jest wymagana, aby uzyskać akceptowalne wyniki w zamierzonym zastosowaniu.


Jaki jest współczynnik SNR i zakres dynamiki procesora DSP?

W kategoriach analogowych i cyfrowych SNR (stosunek S/N) i zakres dynamiczny są często używane jako synonimy. W kategoriach czysto analogowych SNR definiuje się jako stosunek największego znanego istniejącego sygnału do szumu występującego, gdy sygnał nie istnieje. W terminologii cyfrowej SNR i zakres dynamiczny są używane jako synonimy do opisania stosunku największej możliwej do przedstawienia liczby do błędu kwantyzacji [2]. Dobrze zaprojektowany filtr cyfrowy powinien mieć maksymalny stosunek sygnału do szumu (SNR), który jest większy niż SNR przetwornika. Dlatego projektant DSP musi mieć pewność, że poziom szumów filtra nie jest większy niż minimalna precyzja wymagana dla przetwornika ADC lub DAC.

Rysunek 5 poniżej pokazuje związek pomiędzy zakresem dynamicznym, SNR i zapasem mocy:


Kluczowe pojęcia:

Decibel – używany do opisania stosunku poziomu dźwięku (poziomu ciśnienia akustycznego) lub stosunku mocy do napięcia: 

dBVolts=20log(Vo/Vi), dBWatts=10log(Po/Pi), dBSPL=20log(Po/Pi)

Dynamic Range — różnica między najgłośniejszym i najcichszym reprezentowalnym poziomem sygnału lub, jeśli występuje szum, różnica między najgłośniejszym (maksymalnym poziomem) sygnału w stosunku do poziomu szumów. Mierzone w dB. 
Zakres dynamiki = (poziom szczytowy) – (poziom szumów) dB
 
SNR (stosunek sygnału do szumu lub stosunek sygnału do szumu) – Różnica pomiędzy poziomem nominalnym a poziomem szumów. Mierzone w dB. Inni autorzy definiują to w przypadku systemów analogowych jako stosunek największego reprezentowanego sygnału do poziomu szumów, gdy sygnał nie jest obecny [6], co jest bardziej zbliżone do SNR w systemie cyfrowym. 
 
Headroom – Różnica między nominalnym poziomem linii a poziomem szczytowym, w którym występuje obcięcie sygnału. Mierzone w dB. Im większy zapas, tym lepiej system audio poradzi sobie z bardzo głośnymi szczytami sygnału, zanim pojawią się zniekształcenia. 
 
Peak Operating level – maksymalny reprezentowalny poziom sygnału, przy którym nastąpi obcięcie sygnału.
 
Line Level – Hałas poziom podłogi dla ludzkiego słuchu to średni poziom „tylko słyszalny”; biały szum. Analogowy sprzęt audio może generować szum z komponentów. W przypadku procesora DSP szum może być generowany w wyniku błędów kwantyzacji. [Można założyć, że zapas + stosunek S/N elektrycznego sygnału analogowego jest równy zakresowi dynamiki (choć nie jest to całkowicie dokładne, ponieważ sygnały mogą być nadal słyszalne poniżej poziomu szumów)].
 
Noise Floor – Nominalny poziom operacyjny (0 dB, a dokładniej pomiędzy -10 dB a +4 dB)


Przetwarzanie 110-120 dB, 20-/24-bitowy dźwięk profesjonalnej jakości

Kiedy na początku lat 80. na rynek wprowadzono płytę kompaktową, wybrano format cyfrowy składający się z 16-bitowych słów próbkowanych przy częstotliwości 44,1 kHz ze względów technicznych i komercyjnych. Wybór był ograniczony jakością dostępnych przetworników analogowo-cyfrowych, jakością i kosztem innych komponentów cyfrowych oraz gęstością, z jaką można było przechowywać dane cyfrowe na samym nośniku. Uważano, że format ten będzie wystarczający do nagrywania sygnałów audio z całą wiernością wymaganą dla pełnego zakresu ludzkiego słuchu. Jednakże badania prowadzone od czasu wprowadzenia technologii CD wykazały, że format ten jest pod pewnymi względami niedoskonały.

Nowe badania przeprowadzone w ciągu ostatniej dekady wskazują, że wrażliwość ucha ludzkiego jest taka, że ​​zakres dynamiki pomiędzy najcichszym dźwiękiem, jaki można wykryć, a dźwiękiem maksymalnym, który można usłyszeć bez bólu, wynosi około 120 dB. Dlatego 16-bitowy dźwięk o jakości CD nie jest już uważany za dźwięk najwyższej jakości, który można przechowywać i odtwarzać. Wielu audiofilów twierdziło także, że dźwiękowi o jakości CD brakuje pewnego ciepła, jakie oferuje dźwięk winylowy. Mogło to wynikać z połączenia ograniczenia zakresu dynamiki do 16 bitów oraz wybranej częstotliwości próbkowania wynoszącej 44,1 kHz. 16-bitowe słowa używane w przypadku CD umożliwiają maksymalny zakres dynamiki wynoszący 96 dB, chociaż przy zastosowaniu ditheringu zmniejsza się on do około 93 dB. Technologia konwersji cyfrowej osiągnęła obecnie etap, w którym można dokonywać nagrań o zakresie dynamiki 120 dB lub większym, ale płyta kompaktowa nie jest w stanie ich dokładnie przenieść[14].

Najnowsze osiągnięcia technologiczne i większa wiedza na temat ludzkiego słuchu stworzyły zapotrzebowanie na słowa o większej długości i szybsze częstotliwości próbkowania w sektorach audio profesjonalnego i konsumenckiego. Od dawna zakładano, że ucho ludzkie jest w stanie słyszeć dźwięki o częstotliwości do około 20 kHz i jest całkowicie niewrażliwe na częstotliwości powyżej tej wartości. To założenie było głównym czynnikiem przy wyborze częstotliwości próbkowania 44,1 kHz. Nowe badania sugerują, że wiele osób potrafi rozróżnić jakość dźwięku w zakresie częstotliwości do 25 kHz oraz że ludzie są w pewnym stopniu wrażliwi na częstotliwości nawet powyżej tej wartości. Badania te mają głównie charakter empiryczny, ale oznaczają, że konieczna jest znacznie większa częstotliwość pobierania próbek. D. E. Blackmer [7] sugeruje, że aby w pełni sprostać wymaganiom ludzkiej percepcji słuchowej, system dźwiękowy musi być tak zaprojektowany, aby pokrywał zakres częstotliwości do 40 kHz (ewentualnie do 80 kHz) przy zakresie dynamiki powyżej 120 dB. do obsługi przejściowych szczytów. To wykracza poza wymagania wielu współczesnych cyfrowych systemów audio. W rezultacie powszechnie dostępne są 18, 20, a nawet 24-bitowe przetworniki analogowo-cyfrowe, które są w stanie przekroczyć zakres dynamiki 96 dB dostępny przy 16 bitach.



Posted

in

by

Tags:

Comments

Leave a Reply

Your email address will not be published. Required fields are marked *