Nagyfelbontású zene vs. 16 bit/44.1 kHz

Manapság már online is hallgathatunk nagyfelbontású felvételeket, néha akár többféle nagyfelbontásúnak tekinthető formátum közül választva. Alapismeretek hiányában könnyen eltévedhetünk a mintavételezési frekvenciákhoz és bitekhez kapcsolódó zűrzavarban, pedig a kérdés nem elképesztően bonyolult. - Disztribúciós célú audió fájlok optimális mintavételezési frekvenciájáról és felbontásáról.

Szerkesztve: 2024.02.07.

A "kompakt lemez" (CD) megjelenése óta állandó vitatéma a formátum által biztosított hangzás minősége. Az eleinte félreértett és bizonyos körökben alaptalanul lenézett technológiából később egy "megnemértett" és bizonyos körökben alaptalanul lenézett formátum lett. A sors furcsa fintora, hogy pont egy minőségi zenehallgatásra alkalmas, végletekig optimalizált formátum kapta a legtöbb alaptalan kritikát.

Digitális jelek viselkedése ellentétes a hétköznapi logikával, ami magyarázatként szolgálhat a tévhitek és csalások sokaságára. Igen elterjedt a PCM kódolás megtévesztő ábrázolása, régi téves beidegződések, digitális sztereotípiák, alapvető félreértések reklám célú felhasználása. A "CD minőség" kifejezés szintén félrevezető, mert azt sugallja, hogy egy fájl minősége egyenesen arányos a fájl méretével vagy bitrátával. Mivel 16bit/44,1kHz-en ugyanaz a hangminőség érhető el, mint 24bit/96 kHz-en, ezért 16 bit/44,1 kHz-es változatban is stúdió minőségű felvételeket lehet terjeszteni.

Mintavételezési frekvencia, felbontás (bitmélység)

A mintavételezési frekvencia azt mutatja, hogy másodpercenként hány mintavétel történik a digitális konverzió során. A mintavételezési frekvencia a rögzíthető frekvenciatartományt határozza meg. A legmagasabb frekvencia a mintavételezési frekvencia fele.

Mintavételezés hatására új komponensek (ún. képfrekvenciák, "images") keletkeznek. Amennyiben az eredeti jel nem tartalmaz a mintavételezési frekvencia fele (Nyquist frekvencia) felett harmonikusokat, akkor a keletkezett komponensek a mintavételezési frekvencia fele felett jelennek meg és aluláteresztő szűrővel eltávolíthatók. Amennyiben a mintavételezett jel a mintavételezési frekvencia fele felett is tartalmaz harmonikusokat, bizonyos képkomponensek átkerülnek a mintavételezési frekvencia fele alá ('aliasing' jelensége). (Bővebben: Mintavételezés modellezése a böngészőben.)

Mintavételezés előtt és a mintavételezési konverziók során a jelet meg kell szabadítani a mintavételezési frekvencia fele feletti komponensektől. Erre a feladatra szolgálnak az aluláteresztő szűrök (resampling, anti-aliasing). A DA átalakítás szintén tartalmaz simító szűrőket. Mivel ezeknek a szűröknek van egy minimális sávszélesség igénye, ezért a használható maximális frekvencia valamivel kisebb, mint a mintavételezési frekvencia fele.

A lényeg: 44,1 kHz-es mintavételezési frekvenciát használva az eredeti analóg jel 20 kHz-ig amplitúdó- és fázishelyesen reprodukálható.

A felbontás a zajszintet, azaz a dinamikatartományt határozza meg. A rengeteg konverziós módszernek és annak köszönhetően, ahogy az emberi fül a zajt érzékeli, a hagyományos számítások (pl. DR = n * 6.02 decibel, n = bitek száma) a dinamikatartomány jellemzésére használhatatlanok. Egy digitális rendszer vagy fájl valós dinamikatartománya általában nagyobb, mint az SNR (Signal-to-Noise Ratio, jel -zaj viszony) vagy n * 6,02 decibel számítás eredménye. Bár egy 16 bites rendszerben 2¹⁶ = 65536 'darab' jelszint található, azonban ez nem azt jelenti, hogy 65536 analóg értéket lehet csak pontosan ábrázolni.

Monty Montgomery (Xiph.org) 2012-ben írt egy elég részletes cikket arról, hogy miért nincs értelme a 24bit/96kHz-es és 24bit/192kHz-es fájlletöltéseknek (24/192 Music Downloads... and why they make no sense^➚). Monty készített egy rövid bemutatót a PCM kódolásról is. A videóban műszerek segítségével láthatjuk, hogy az analóg jelből digitalizálás után újra folyamatos analóg jel lesz. Azaz nincsenek lépcsők a visszaalakított jelben, a felbontás - feltéve, ha nem a bitmélységre vonatkozik - értelmetlen fogalom a hangtechnikában. (videó a YouTube-on^➚, a videó szövege a xiph.org oldalon^➚)

Felbontás vagy bitmélység?
Sajnos a 'felbontás' igen félrevezető kifejezés, mivel az sugallja, hogy több bitet használva a reprodukált jel részletesebb vagy folytonosabb lesz. PCM kódolásnál a bitek száma, a bitmélység egyedül a zajszintet, pontosabban a kvantálási zaj szintjét határozza meg. A kvantálási zaj pedig analóg jellegű. A bitmélységet növelve egyedül a zajszint csökken, és felbontásról mint tárolási pontosságról nincs értelme beszélni. A felbontás csak a bitmélység szinonimájaként használható, másként nem értelmezhető.

Az elsődleges kérdés

Az elsődleges kérdés nem az, hogy "van-e hallható különbség 44,1 kHz-es és 96 kHz-es mintavételezési frekvencia között". Ez egy másodlagos kérdés.

Az igazi kérdés a határokra vonatkozik: "meghaladja-e az emberi hallás határa a 16 bit / 44,1 kHz-es digitális audió korlátait?". Ez a kérdés pontosítható irreálisan magas hangnyomásszintek kizárásával és korcsoportok bevonásával.

Mivel a mintavételezés, szűrés és kvantálás hatása egyértelmű és ismert, ezért nem nehéz összeszedni a vizsgálandó paramétereket. A választ megkapjuk frekvenciaválasz (frekvenciatartomány), zajszint és csoportkésés (futásidő torzítás) elemzésével.

Tévhitek (PCM kódolás)

Érdemes röviden áttekinteni azokat az érveket, amelyek látszólag a nagyfelbontású formátumok mellett állnak, valójában a PCM kódolás működésének félreértéséből származnak.

"DA konverterek kimenetén a jel szögletes, lépcsős ezért a felbontást és a mintavételezési frekvenciát növelve a jel egyre 'analógabb', a hangzás egyre részletesebb lesz";
"mintavételezési frekvenciát növelve az időbeli felbontás javul";
"16 bit dinamikatartománya 96 decibel";
"44,1 kHz-es mintavételezési frekvencián a digitális szűrők hallható torzítást okoznak (az impulzusválaszban látható rezgés (pre-ringing) hallható)";

A fenti állítások mindegyike téves, hiszen a DA konverterek kimenetén a jel analógnak tekinthető, mintavételezés az időbeli felbontást nem befolyásolja, a kvantálás (ideális) pedig csak zajt ad a jelhez. A digitális szűrők impulzusválaszában látható rezgés frekvenciája 44,1kHz-es mintavételezésnél kb. 22 kHz (mindig magasabb mint 21 kHz).

Az emberi hallás felső határa

Mindenképpen tisztázni kell az emberi hallás felső határát, hiszen ez befolyásolja a rögzítendő frekvenciasávot.

Bár találhatunk olyan embereket, akik kísérleti körülmények között képesek 20 kHz-nél magasabb frekvenciájú hangokat is meghallani, arányuk igencsak elenyésző. A 20 kHz feletti hallás nagyon ritka, szinte csak 25 év alatt fordul elő és ami a legfontosabb: nincs jelentősége.

A hallás felső határa nemcsak egyénenként és életkor szerint változik, hanem a vizsgált jel amplitúdójától (hangnyomásától) is függ: 100 decibelhez magasabb felső határfrekvencia tartozik, mint 80 decibelhez. A hallás felső tartományát érintő halláskutatásokban a vizsgálójel hangnyomása a hallásküszöb környékén jóval meghaladja az élő zenében és filmekben előforduló hangnyomás értékeket. A vizsgálójel elérheti a 110 decibelt, míg a hangnyomás maximális értéke zenében 20 kHz-en kb. 85 decibel (cintányér). A cintányér normál szintje 20 kHz-en kb. 60 dBSPL, hangszerek (rézfúvósok, hegedű) alig produkálnak 60 dBSPL-nél többet ebben a tartományban. Összegezve: még ha találunk is valakit, aki rendelkezik azzal a ritka képességgel, hogy tesztkörülmények között képes egy 26 kHz-es frekvenciájú tiszta hangot meghallani, nem fogja hallani a zenében előforduló harmonikusokat 20-22 kHz felett.

16bit/44,1kHz jellemzői

Dinamikatartomány
16 bit dinamikatartománya óriási és teljesen lefedi azt a tartományt, ami bármilyen jellegű hangreprodukcióhoz szükséges. Egy hifi rendszerben a hangnyomás maximális értéke kb. 110 decibel, míg a tipikus csúcsérték 100-105 dBSPL. 16 biten a kvantálási zaj akkor válik hallhatóvá, amikor az erősítést úgy állítjuk be, hogy a maximális szinuszhoz tartozó (full-scale sinusoid, 0 dBFS) hangnyomás meghaladja a 105 dBSPL-t. Zajformálással, alakított ditherrel az erősítést (hangerőt) körülbelül 18 decibellel magasabbra lehet állítani.

Frekvenciaválasz
Egyenletes frekvenciaválasz legalább 20 kHz-ig.

Transiensátvitel, fázismenet
Lineáris fázismenet, zeró futásidő torzítás (csoportkésés változás) legalább 21 kHz-ig. (Lineáris fázis csak lineáris fázisú szűrökkel és oversampling DAC-okkal érhető el, DAC-ok többsége ilyen típusú.)

16bit/44.1kHz tökéletesen megfelel stúdió minőségű felvételek terjesztésére.

16bit/44.1kHz még túlzásnak is tekinthető

16bit/44.1kHz nem csak tökéletes disztribúciós formátum, hanem - figyelembe véve a hangszeres zene jellegzetességeit és a tipikus hangerő értékeket - túlzásnak is tekinthető és szerencsére rengeteg tartalékkal rendelkezik. Zenét kiváló minőségben akár 14bit/32 kHz-es formátumban is lehetne terjeszteni.

16 bit dinamikatartománya óriási
Kompresszált pop és rockzenével a kvantálási zaj még 8-10 bites felbontásnál se hallható. Zaj és dinamikatartomány szempontjából a professzionális analóg felvételi technika egy 12-13 bites digitális rendszernek felel meg. Ez azért fontos, mert 13 biten már nagyon jó minőséget kapunk műfajtól függetlenül: például egy akkordbontás 10 biten még általában zajos, míg a 13 bites változata ugyanúgy szól, mint a 16 bites vagy 24 bites változata. 10 bit és 13 bit között még hatalmas a különbség élő zenével, de 13 bit és 16 bit között? 13 biten a hosszú lecsengéseknél, lekeveréseknél és nagyon halk részeknél a zaj éppen hallható, de más hibája nincs.

Sokféle zenét akár 32 kHz-es mintavételezési frekvencián ki lehetne adni anélkül, hogy változna a minősége
Csak kevés hangszer képes számottevően magas hangnyomást előállítani 16 kHz felett. Hangszerek, amelyek 16 kHz felett is 'hangosak': cintányér (és a különféle cinek), kasztanyetta, rézfúvósok egy része, fémhúros akusztikus gitár és ritkán a hegedű (játékmód, hangmagasság sokat számít). A többi hangszer gyakorlatilag néma 16 kHz felett. Cselló és zongoraművekhez, kamarazenéhez még 32 kHz-es mintavételezési frekvencia is elegendő.

Hallás és életkor
Ahogy öregszünk, egyre kevésbé halljuk a magas frekvenciájú hangokat. Negyven év környékén a felső határ mindenkinél lecsökken 16 kHz-re, tehát negyventől felfelé már a 32 kHz-es mintavételezési frekvencia is tökéletesnek számítana.

Visszatérve a dinamikatartományra és bitekre, amikor egy analóg felvétel digitális változatát hallgatjuk (CD, FLAC, MP3... vagy YouTube videó), a dinamikatartomány szempontjából egyenértékű azzal, mintha egy 12 -13 bites digitális rendszert hallgatnánk.

24 bites felvételek zajszintje

Audiofájlokban található zaj a kvantálási zaj és a felvételben már jelenlévő (vagy a felvétel során rögzített) zaj „összege”. Az "egyéb zaj" lehet a felvételi helységből származó zaj, más rendszer kvantálási zaja (pl. AD konverter belső zaja), vagy analóg felvételek digitális változata esetén a magnó zaja. Ha ezek szintje eltérő, a zajszintet a magasabb határozza meg.

Egy felvétel "effektív" (vagy valódi) bitmélysége úgy határozható meg, hogy összehasonlítjuk a felvételi zajspektrumot egy 16 bites / 44,1 kHz-es digitális rendszer zajszintjével. A kijelölésnek legalább 100 ms hosszúnak kell lennie, és csak felvételi zajt szabad tartalmaznia.

A felvételek effektív bitmélysége gyakran nem éri el a 16 bitet, a fennmaradó bitek pedig csak zajt kódolnak. Ez az állítás 24 bites felvételekre is érvényes. Nem létezik 24 bites felbontású felvétel, se 20 bites, se 19 bites. Van egy-két ritka felvétel, ami 18 és 17 bites, ezek azonban zajalakítással elférnek 16 biten (zajalakítással (noise shaping) 19 bit-es dinamika elfér 16 biten). Az összes többi 16 bites vagy még kevesebb.

24 bites audiofil felvételek zajszintje
A kék vonal jelöli a 16 bit/44,1 kHz-hez tartozó zajszintet (standard dither, zajalakítás nélkül) A fül 4 kHz-en legérzékenyebb a zajra, és érzékenysége gyorsan csökken 13 kHz felett.

Alternatív tesztmódszerek

Szerencsére az összehasonlító vakteszteknél léteznek sokkal hatékonyabb tesztmódszerek. "Felbontás" teszteléséhez elegendő a különböző bitmélységekhez tartozó alapzajt meghallgatni és ezzel meg is válaszoltuk a "mennyi bit kell" kérdést.

Mintavételezéshez, újramintavételezéshez kapcsolódó jelenségek legegyszerűbben felüláteresztő szűrő alkalmazásával tesztelhetők. Ha azt szeretnénk megtudni, hogy mennyit hallunk egy felvételből 12 kHz felett, akkor egy 12 kHz-es törésponti frekvenciával rendelkező meredek felüláteresztő szűrőt érdemes alkalmazni. Ez egy közvetett módszer, ugyanakkor tökéletes, hiszen egy mintavételezett és sávhatárolt rendszer megfelel egy analóg sávhatárolt rendszernek.

Alkalmazhatunk nulltesztet is. Nullteszt során a két összehasonlítandó fájl közötti különbséget hallgatjuk meg. Nullteszt ugyanakkor nem mindig praktikus: például nagyon bonyolulttá válik, amikor a mintavételezési frekvenciák aránya nem egész szám.

Rossz minőségű újramintavételezési konverzió meghamisíthatja a teszteket, ezért érdemes megvizsgálni a mintavételezési konverzió minőségét, bár manapság már a legegyszerűbb Android rendszer újramintavételezése is tökéletes. (Régi szoftvereknél, operációs rendszereknél, speciális mixereknél fordulhat elő ilyen probléma.) Mintavételezési konverzió minősége nagyon egyszerűen, egy 10 kHz-nél magasabb frekvenciájú szinuszjel meghallgatásával megállapítható. Egy 12 kHz-es szinuszjelnek szépen kell szólnia, a 20 kHz-es szinuszjelnek pedig némának kell lennie (jelszintet érdemes -20 dBFS-re állítani). Ha egy 20 kHz-es szinuszjel lejátszása során érdes hangot hallunk, akkor az aktuális mintavételezési frekvenciáról egy másik mintavételezési frekvenciára konvertál a rendszerünk nem megfelelő konverziós algoritmust alkalmazva.

Kapcsolódó:
Tesztoldal felbontás és kvantálási zaj vizsgálatához

Zene extra mennyiségű zajjal

Nagyfelbontású letöltéseknek nincs értelme, azonban akad egy másik probléma is a nagyfelbontású változatokkal. Egy felvétel 24 bites / 88.2 kHz-es WAV fájlban tárolva háromszor nagyobb, mint 16 bit/44.1 kHz-es formában. FLAC tömörítésű fájloknál az arány még rosszabb. És mi az a plusz, amit egy igazi nagyfelbontású felvétel tartalmaz? Zaj. Méghozzá hatalmas mennyiségű, nem hallható, funkció nélküli zaj.

Felvételi zaj aránya FLAC fájlokban - 24 bit-es felbontás a semmiért
(a narancssárga a zaj, a kék a zajszint feletti "jel")

16 bites felbontásnál a felvételi zaj mennyisége a fájl méretéhez képest elenyésző. Egy 24/88.2 felvételben a nem hallható és teljesen funkció nélküli felvételi zaj mérete nagyjából megegyezik egy ugyanilyen hosszú 16 bit/44.1 kHz-es WAV fájl méretével. Ez azért elég nagy pazarlás. További problémát jelent, hogy a zaj nem tömöríthető veszteségmentes eszközökkel, ami meg is látszik a nagyfelbontású FLAC fájlok óriási méretén. Egy 24/96-os felvétel átlagos bitrátája FLAC-ban kb. 2,5 Mbps (Megabit per szekundum), ebből 1.4 Mbps felesleges felvételi zaj. Azaz egy 24/96-os FLAC fájlnak több mint a fele nem hallható zajból áll...

Horváth Csaba

Lábjegyzet #1 - hallásküszöb mérések 16 kHz feletti frekvenciatartományban:

‘‘Ultrahigh-frequency auditory thresholds in young adults: Reliable responses up to 24 kHz with a quasi-free-field technique‘‘, K. R. Henry and G. A. Fast, 1984
‘‘Extended high-frequency (9 – 20 kHz) audiometry reference thresholds in 645 healthy subjects‘‘, A. Rodríguez Valiente et al., April 2014, Int J Audiol.
‘‘Threshold of hearing in free field for high-frequency tones from 1 to 20 kHz‘‘, Kaoru Ashihara et al, 2003
‘‘Hearing threshold for pure tones above 20 kHz‘‘, Kaoru Ashihara et al, 2005
‘‘Hearing threshold for pure tones above 16 kHz‘‘, Kaoru Ashihara, 2007

Lábjegyzet #2 - bitmélység, dither, zajalakítás, zaj érzékelhetősége:

‘‘Dither in Digital Audio‘‘, John Vanderkooy, Stanley Lipshitz, 1987
‘‘Optimal Noise Shaping and Dither of Digital Signals‘‘, Michael Gerzon, Peter G. Craven, 1989
‘‘Minimally Audible Noise Shaping‘‘, S. P. Lipshitz, J. Vanderkooy, and R. A. Wannamaker, 1991
‘‘Noise: Methods for Estimating Detectability and Threshold‘‘, R. Stuart, 1994

Kapcsolódó cikkek:
Mintavételezés modellezése a böngészőben
Tesztoldal felbontás és kvantálási zaj vizsgálatához
A két legnagyobb tévhit a digitális audió működéséről és a CD formátumról