Nagyfelbontású zene vs. 16 bit/44.1 kHz


Disztribúciós célú audió fájlok optimális mintavételi frekvenciájáról és felbontásáról.


2021.10.28.

Rengeteg félrevezető cikk és téves információ található a neten a disztribúciós célú audió fájlok optimális mintavételi frekvenciájáról és felbontásáról (bitmélységéről). Lassan negyven éve debütált a CD, a digitális technika mégis egy kaotikus, tévhitek által uralt terület maradt, pedig régóta rendelkezésre állnak azok a módszerek és eszközök, amelyek segítségével el lehetne oszlatni a tévhiteket.

Egyre több online zene szolgáltató kínál felvételeket 24 bit/96 kHz-es vagy más 'hi-res' formátumban (MQA, DSD). Az utóbbi években a felhajtás is egyre nagyobb lett a nagyfelbontású felvételek körül. Persze hiába a szép ígéret, ha 16 bitnél nagyobb felbontást vagy 44,1 kHz-nél magasabb mintavételezési frekvenciát alkalmazva a hangminőség nem lesz jobb.

A nagyfelbontású zenék és lejátszók népszerűsítése szinte mindenhol félrevezető leírások (néhol látszattanulmányok) segítségével történik. Igen elterjedt a PCM kódolás megtévesztő ábrázolása, a régi hamis beidegződések, digitális sztereotípiák, alapvető félreértések reklám célú felhasználása. A "CD minőség" kifejezés szintén félrevezető. A "CD minőség" kifejezésnek azért sincs értelme, mert valami olyasmit sugall, mintha a fájl minősége egyenesen arányos lenne a fájl méretével. Mivel 16bit/44,1kHz-en ugyanaz a hangminőség érhető el, mint 24bit/96 kHz-en, ezért 16 bit/44,1 kHz-es változatban is stúdió minőségű felvételeket lehet terjeszteni. Vagy mondhatjuk úgy is, hogy a 16b/44k stúdió minőségű.


Általános tévedések, rossz beidegződések

Azt hiszem az a legnagyobb probléma az egész digitális technikával, hogy könnyű olyan elméleteket gyártani, amelyek formailag helyes következtetésekből állnak, ezáltal igaznak tűnnek, rendkívül meggyőzőek és könnyen terjeszthetők, ugyanakkor még sincs semmi közük a valósághoz. Az érvelések logikájában nincs hiba, csak az alapfeltevések (premisszák) hibásak, és ha a kiinduló állítások hibásak, akkor az egész elmélet romba dől (az ilyen rossz alapokra felépített 'logikus' elméleteket nevezik szalmabáb érvelési hibának). Ez igaz a hanglemez kultuszra, a DSD-re, a nagyfelbontású zenére és az MQA kódolásra. Mindegyik kiindulópontja téves (digitális jelek szögletesek; digitális szűrők rezonanciája hallható stb.).

A tévedések másik nagy csoportját a hamis analógiák alkotják (például azok a félrevezető diagramok, amelyek a PCM kódolást ábrázolják a nagyfelbontású zenéket népszerűsítő oldalakon). Az eltorzított elméletek és hamis analógiák igazi vonzerejét az egyszerűségük jelenti, hiszen a valódi válaszoknál mindig egyszerűbb magyarázatokkal szolgálnak. Az igazi veszély azonban az önmegerősítés és az önigazolás, ami csak úgy kerülhető el, ha időben felismerjük a tévedéseket. Tévedni emberi dolog, senki sem születik tökéletes tudással, azonban megfelelő módszerek ('Baloney Detection Kit') segítségével korán ki lehet szűrni a téves információt és a félrevezető magyarázatokat.

A hifiben igen gyakori a szubjektív és objektív közötti határvonal eltorzítása, azaz olyan jelenségekről vagy jellemzőkről azt állítani, hogy szubjektívek, amelyek valójában nem azok. Szintén gyakori trükk egyszerű akusztikai, hangtechnikai jelenségeket úgy bemutatni, mintha nem lenne rájuk racionális magyarázat. Erősítőknél, DAC-oknál, audió formátumoknál a problémák eléggé körülhatárolhatóak, és nem igazán találni szubjektív összetevőket, hiszen csak meg kell vizsgálni, hogyan és mennyit változik a jel, miután áthaladt a komponensen, és a változást összevetni az ismert határértékekkel. Ennél egyszerűbb és tökéletesebb módszer nem létezik.


Mintavételezési frekvencia, felbontás (bitmélység)

A mintavételezési frekvencia azt mutatja, hogy másodpercenként hány mintavétel történik a digitális konverzió során. A mintavételezési frekvencia a rögzíthető frekvenciatartományt határozza meg. A legmagasabb frekvencia a mintavételezési frekvencia fele.

Mintavételezett értékekből az eredeti analóg jel visszaállítható, ha a mintavételezési frekvencia az eredeti jel legmagasabb frekvenciájú komponensének legalább a kétszerese. Ez azt jelenti, hogy a 0-20 kHz-es tartomány 'digitalizálásához' 40 kHz-es mintavételezési frekvenciára van szükség. A mintavételezés előtt és a mintavételezési konverziók során a jelet meg kell szabadítani a mintavételezési frekvencia fele feletti komponensektől. Erre a feladatra szolgálnak az aluláteresztő szűrök (resampling, anti-aliasing). A DA átalakítás szintén tartalmaz simító szűrőket. Mivel ezeknek a szűröknek van egy minimális sávszélesség igénye, ezért a valós mintavételezési frekvencia magasabb az elméleti értéknél.

A lényeg: 44,1 kHz-es mintavételezési frekvenciát használva az eredeti analóg jel 20 kHz-ig amplitúdó- és fázishelyesen reprodukálható.

A felbontás a zajszintet, azaz a dinamikatartományt határozza meg. A rengeteg konverziós módszernek és annak köszönhetően, ahogy az emberi fül a zajt érzékeli, a hagyományos számítások (pl. DR = n * 6.02 decibel, n = bitek száma) a dinamikatartomány jellemzésére használhatatlanok. Egy digitális rendszer vagy fájl valós dinamikatartománya általában nagyobb, mint az SNR (Signal-to-Noise Ratio, jel -zaj viszony) vagy n * 6,02 decibel számítás eredménye. Bár egy 16 bites rendszerben 216 = 65536 darab jelszint található, azonban ez nem azt jelenti, hogy 65536 analóg értéket lehet csak pontosan ábrázolni.

Monty Montgomery (Xiph.org) 2012-ben írt egy elég részletes cikket arról, hogy miért nincs értelme a 24bit/96kHz-es és 24bit/192kHz-es fájlletöltéseknek (24/192 Music Downloads ...and why they make no sense). A cikk pár éve lekerült a Xiph.org oldaláról, a webarchívumban azonban megtalálható a teljes írás (link). Monty készített egy rövid bemutatót a PCM kódolásról is. A videóban műszerek segítségével láthatjuk, hogy az analóg jelből digitalizálás után újra folyamatos analóg jel lesz. Azaz nincsenek lépcsők a visszaalakított jelben, a felbontás - feltéve, ha nem a bitmélységre vonatkozik - értelmetlen fogalom a hangtechnikában. (videó a YouTube-on, a videó szövege a xiph.org oldalon)

Felbontás vagy bitmélység?
Sajnos a 'felbontás' igen félrevezető kifejezés, mivel az sugallja, hogy több bitet használva a reprodukált jel részletesebb vagy folytonosabb lesz. PCM kódolásnál a bitek száma, a bitmélység egyedül a zajszintet, pontosabban a kvantálási zaj szintjét határozza meg. A kvantálási zaj pedig analóg jellegű. A bitmélységet növelve egyedül a zajszint csökken, és felbontásról mint tárolási pontosságról nincs értelme beszélni. A felbontás csak a bitmélység szinonimájaként használható, másként nem értelmezhető.


A nagyfelbontású audió formátumok eredete

16 bitnél nagyobb felbontás és 44,1 kHz-nél magasabb mintavételezési frekvencia használata nem számít újnak. A legősibb fájlformátumok (WAV, AIFF) a kezdetektől fogva képesek nagyfelbontású felvételek tárolására. Zeneszerkesztő szoftverek a 90-es évek eleje óta lehetőséget biztosítanak a felvételek nagyfelbontású formában történő tárolására. A nagyfelbontású formátumok elterjedését a háttértárak kis mérete, a driverek és hardver hiánya hátráltatta és persze 2000 környékén a DSD divatőrület is beütött.

Nagyfelbontású formátumok tehát a zeneszerkesztő szoftverekből származnak. Stúdiófelvételeknél leggyakrabban használt párosítások: 24bit/44.1kHz, 24bit/48kHz és 24bit/96kHz. A 88,2 kHz (pl. 24bit/88.2kHz) DSD forrásra utal.


Bizonyításról, tesztelési módszerekről

Nagyfelbontású zenei formátumok mellett álló "érvek" cáfolata sokkal egyszerűbb, mint elsőre gondolnánk. Először is össze kell gyűjteni az összes érvet, amely a nagyfelbontású zene mellett szól, majd ki kell válogatni azokat, amelyek a PCM kódolás működésének félreértéséből származnak. Az érvek többsége nem más, mint egyfajta félreértés, tévhit (formailag a szalmabáb érvelési hibák körébe tartoznak). A következő lépés: megnézni, hogy valóban mire képes a 16bit/44,1kHz. Frekvenciaátvitel, zaj (dinamikatartomány), tranziensátvitel (fázismenet). Nemlineáris torzítással nem kell foglalkozni. Rossz minőségű mintavételezési konverzió okozhat hallható torzítást, azonban manapság már az alsó kategóriás okostelefonok újramintavételezése is transzparens. Utolsó lépésként össze kell vetni a kapott határértékeket az emberi hallás határértékeivel. Ennyi.

Ez a módszer megfelel az igazi bizonyításnak, szemben a zenei tesztek 'fekete doboz' jellegű megközelítésével. Az igazi bizonyításnak mindig érvekre kell épülnie, nem pedig puszta korrelációkra, hiszen a korreláció nem feltétlenül jelent okozatiságot. A zenei tesztek a statisztika ősrégi problémáit hordozzák magukban (hamis okozat, azaz a korreláció és az okozatiság összetévesztése; rejtett változó problémája; hibás általánosítás fals pozitív tesztekből).

Ez azért is fontos, mert sokan úgy tekintenek a tesztekre, mint a végső válaszok forrásaira. A tesztek csak adatokat szolgáltatnak, de igazi válaszokat (érveket) nem adnak. A tesztek sosem árulják el, hogyan kell értelmezni az adatokat, vagy hogyan lehet eldönteni egy tesztről, hogy nem hibás (nem véletlenül nevezik a tesztet tesztnek és nem bizonyításnak). A teszteket tovább lehet fejleszteni, hogy valóban bizonyítás legyen belőlük, ekkor azonban kilépünk a zenei tesztek birodalmából.


Tévhitek (PCM kódolás)

Következzenek azok az érvek, amelyek látszólag a nagyfelbontású formátumok mellett állnak, valójában a PCM kódolás működésének félreértéséből származnak.

A fenti állítások mindegyike téves, hiszen a DA konverterek kimenetén a jel teljesen analóg, egy digitális rendszer időbeli felbontása a mintavételezési frekvenciától független, 16 bit dinamikatartománya zajformálással 120 decibelt is elérheti (a 96 decibel is óriási). A lineáris fázisú szűrők átviteli sávjában a fázismenet lineáris, tehát a fáziskülönbség 20 Hz és 20 kHz között nulla. A digitális szűrők impulzusválaszban látható rezgés frekvenciája 44,1kHz-es mintavételezésnél kb. 22 kHz (mindig nagyobb mint 21 kHz).


Az emberi hallás felső határa

Mindenképpen tisztázni kell az emberi hallás felső határát, hiszen ez befolyásolja a rögzítendő frekvenciasávot.

Bár találhatunk olyan embereket, akik kísérleti körülmények között képesek 20 kHz-nél magasabb frekvenciájú hangokat is meghallani, arányuk igencsak elenyésző. A 20 kHz feletti hallás nagyon ritka, szinte csak 25 év alatt fordul elő és ami a legfontosabb: nincs jelentősége.

A hallás felső határa nemcsak egyénenként és életkor szerint változik, hanem a vizsgált jel amplitúdójától (hangnyomásától) is függ: 100 decibelhez magasabb felső határfrekvencia tartozik, mint 80 decibelhez. A hallás felső tartományát érintő halláskutatásokban a vizsgálójel hangnyomása a hallásküszöb környékén jóval meghaladja az élő zenében és filmekben előforduló hangnyomás értékeket. A vizsgálójel elérheti a 110 decibelt, míg a hangnyomás maximális értéke zenében 20 kHz-en kb. 85 decibel (cintányér). A cintányér normál szintje 20 kHz-en kb. 60 dBSPL, hangszerek (rézfúvósok, hegedű) alig produkálnak 60 dBSPL-nél többet ebben a tartományban. Összegezve: még ha találunk is valakit, aki rendelkezik azzal a ritka képességgel, hogy tesztkörülmények között képes egy 26 kHz-es frekvenciájú tiszta hangot meghallani, nem fogja hallani a zenében előforduló harmonikusokat 20-22 kHz felett.


16bit/44,1kHz jellemzői

Dinamikatartomány
16 bit dinamikatartománya óriási és teljesen lefedi azt a tartományt, ami bármilyen jellegű hangreprodukcióhoz szükséges. Egy hifi rendszerben a hangnyomás maximális értéke kb. 110 decibel, míg a tipikus érték 100-105 dBSPL. 16 biten a kvantálási zaj akkor válik hallhatóvá, amikor az erősítést úgy állítjuk be, hogy a maximális szinuszhoz tartozó (full-scale sinusoid, 0 dBFS) hangnyomás meghaladja a 105 dBSPL-t. Zajformálással, alakított ditherrel az erősítést (hangerőt) körülbelül 18 decibellel magasabbra lehet állítani.

Frekvenciaválasz
Teljesen egyenletes frekvenciaátvitel minimum 20 kHz-ig, ha pedig megengedünk pár decibel csillapítást, akkor a felső határ 21 kHz.

Transiensátvitel, fázismenet
Lineáris fázismenet, zeró futásidő torzítás (csoportkésés változás) legalább 21 kHz-ig. (A lineáris fázis csak lineáris fázisú szűrökkel és oversampling DAC-okkal érhető el, a 80-as évek közepe óta a DAC-ok ilyen típusúak)

Az emberi hallás tartományában tökéletes frekvenciaátvitel, fázismenet és tranziensátvitel érhető el 44,1 kHz-es mintavételezési frekvenciával. 16 biten a kvantálási zaj nem hallható. 16bit/44.1kHz tökéletesen megfelel stúdió minőségű felvételek terjesztésére.


16bit/44.1kHz még túlzásnak is tekinthető

16bit/44.1kHz nem csak tökéletes disztribúciós formátum, hanem - figyelembe véve a hangszeres zene jellegzetességeit és a tipikus hangerő értékeket - túlzásnak is tekinthető és szerencsére rengeteg tartalékkal rendelkezik. Zenét kiváló minőségben akár 14bit/32 kHz-es formátumban is lehetne terjeszteni.

16 bit dinamikatartománya óriási
Kompresszált pop és rockzenével a kvantálási zaj még 8-10 bites felbontásnál se hallható. Zaj és dinamikatartomány szempontjából a professzionális analóg felvételi technika egy 12-13 bites digitális rendszernek felel meg. Ez azért fontos, mert 13 biten már nagyon jó minőséget kapunk műfajtól függetlenül: például egy akkordbontás 10 biten még általában zajos, míg a 13 bites változata ugyanúgy szól, mint a 16 bites vagy 24 bites változata. 10 bit és 13 bit között még hatalmas a különbség élő zenével, de 13 bit és 16 bit között? 13 biten a hosszú lecsengéseknél, lekeveréseknél és nagyon halk részeknél a zaj éppen hallható, de más hibája nincs.

Sokféle zenét akár 32 kHz-es mintavételezési frekvencián ki lehetne adni anélkül, hogy változna a minősége
Csak nagyon kevés hangszer képes viszonylag magas hangnyomást előállítani 16 kHz felett. Hangszerek, amelyek 16 kHz felett is 'hangosak': cintányér (és a különféle cinek), kasztanyetta, rézfúvósok egy része, fémhúros akusztikus gitár és ritkán a hegedű (játékmód, hangmagasság sokat számít). A többi hangszer gyakorlatilag néma 16 kHz felett. Cselló és zongoraművekhez, kamarazenéhez még a 32 kHz-es mintavételezési frekvencia is tökéletes.

Hallás és életkor
Ahogy öregszünk, egyre kevésbé halljuk a magas frekvenciájú hangokat. Negyven év környékén a felső határ mindenkinél lecsökken 16 kHz-re, tehát negyventől felfelé már a 32 kHz-es mintavételezési frekvencia is tökéletesnek számít.

Visszatérve a dinamikatartományra és bitekre, amikor egy analóg felvétel digitális változatát hallgatjuk (CD, FLAC, MP3... vagy YouTube videó), a dinamikatartomány szempontjából egyenértékű azzal, mintha egy 12 -13 bites digitális rendszert hallgatnánk.


Stúdiókban használt formátumokról

16 bit /44,1 kHz elég disztribúciós célra, de mi a helyzet a felvételi formátumokkal? Felvételi formátumoknál ma már alap a 24 bit-es felbontás és a 96 kHz-es mintavételezési frekvencia.

A nagyobb felbontásra az effektek miatt van szükség, ugyanis az effektek használata során torzítás és zaj keletkezik, ami 24 bites felbontás használatával a 16 bites fájlok zajszintje alatt tartható. 24 bites fájloknál a kvantálási zaj 48 decibellel alacsonyabb, így bőven van hely több ezer szerkesztés műveletből származó zaj 'elhelyezésére'.

Bár a stúdiófelvételeket 24 bites felbontásban tárolják, a hangfelvételek valódi felbontása sokszor nem éri el a 16 bitet és a többi bit csak zajt tartalmaz. Nem létezik 24 bites felbontású felvétel, se 20 bites, se 19 bites. Van egy-két ritka felvétel, ami 18 és 17 bites (2L, BIS Records, AIX Records), ezek azonban zajformálással elférnek 16 biten (zajformálással 19 bit-es dinamika elfér 16 biten). Az összes többi 16 bites vagy még rosszabb. Az analóg felvételek valódi felbontása épphogy eléri a 13 bitet. Csak azért tárolják stúdióban 24 biten a felvételeket, hogy az effektek használata során keletkező zaj halmozódása kisebb legyen.

24 bites audiofil felvételek zajszintje (2L, BIS és AIX Records)
A kék vonal jelöli a 16 bit/44,1 kHz-hez tartozó zajszintet (standard dither, zajalakítás nélkül)
A fül 4 kHz-en legérzékenyebb a zajra, és érzékenysége gyorsan csökken 13 kHz felett.

Stúdiófelvételeknél a 48 kHz feletti mintavételezési frekvenciák használata általában feleslegesnek számít. Egy-két speciális effekt tisztábban szól magasabb mintavételezési frekvencián (modulációs effektek: kórus, flanger), azonban ezeket leszámítva a 44,1 kHz-es vagy 48 kHz-es mintavételezési frekvencia ugyanolyan jó szerkesztéshez, mint a 96 kHz.

Mintavételezési frekvencia és effektek
Az effektek egyik nagy csoportjába azok tartoznak, amelyek csak lineáris műveleteket alkalmaznak (összeadás, kivonás, szorzás, osztás). Lineáris effektek: ekvalizer, hangerő változtatás, fade-in, fade-out, reverb, visszhang (delay). Lineáris effektek és lineáris szerkesztési műveletek minőségét a mintavételezési frekvencia nem befolyásolja. A nemlineáris effektek (pl. gitár torzító) érzékenyek a mintavételezési frekvenciára, azonban ezek mind belső túlmintavételezést használnak, ezért felesleges a magasabb mintavételezési frekvencia használata. A modulációs effekteknél (kórus, flanger) a lejátszási sebesség periodikusan változik és magasabb mintavételezési frekvencián a hullámforma kiszámítása pontosabb. Mivel a modulációs effektek nem használnak belső túlmintavételezést, ezért ilyen effektek használatakor célszerű 96kHz-es mintavételezési frekvenciát használni. A 96 kHz-es mintavételezési frekvenciának még egy másik apró előnye van: precízebb minta alapú szerkesztést tesz lehetővé, azonban általában erre nincs szükség.

Összegezve, nincs értelme azt állítani, hogy a 24b/96k jobb felvételi formátum, mint a 16b/44k vagy a 24b/44k. Élő felvételhez a 16b/44k is elegendő, míg egy effektekkel telezsúfolt többsávos felvételnél a 24b/44k alacsonyabb végső zajszintet biztosíthat.


Zene extra mennyiségű zajjal

A nagyfelbontású letöltéseknek nincs értelme, azonban akad egy másik probléma is a nagyfelbontású változatokkal. Egy felvétel 24 bites / 88.2 kHz-es WAV fájlban tárolva háromszor nagyobb, mint 16 bit/44.1 kHz-es formában. A FLAC tömörítésű fájloknál az arány még rosszabb. És mi az a plusz, amit egy igazi nagyfelbontású felvétel tartalmaz? Zaj. Méghozzá hatalmas mennyiségű, nem hallható, funkció nélküli zaj.

Felvételi zaj aránya FLAC fájlokban - 24 bit-es felbontás a semmiért
(a narancssárga a zaj, a kék a zajszint feletti "jel")

16 bites felbontásnál a felvételi zaj mennyisége a fájl méretéhez képest elenyésző. Egy 24/88.2 felvételben a nem hallható és teljesen funkció nélküli felvételi zaj mérete nagyjából megegyezik egy ugyanilyen hosszú 16 bit/44.1 kHz-es WAV fájl méretével. Ez azért elég nagy pazarlás. További problémát jelent, hogy a zaj nem tömöríthető veszteségmentes eszközökkel, ami meg is látszik a nagyfelbontású FLAC fájlok óriási méretén. Egy 24/96-os felvétel átlagos bitrátája FLAC-ban kb. 2,5 Mbps (Megabit per szekundum), ebből 1.4 Mbps felesleges felvételi zaj. Azaz egy 24/96-os FLAC fájlnak több mint a fele nem hallható zajból áll...

Horváth Csaba

Facebook    Google


Lábjegyzet #1 - hallásküszöb mérések 16 kHz feletti frekvenciatartományban:

‘‘Ultrahigh-frequency auditory thresholds in young adults: Reliable responses up to 24 kHz with a quasi-free-field technique‘‘, K. R. Henry and G. A. Fast, 1984
‘‘Extended high-frequency (9 – 20 kHz) audiometry reference thresholds in 645 healthy subjects‘‘, A. Rodríguez Valiente et al., April 2014, Int J Audiol.
‘‘Threshold of hearing in free field for high-frequency tones from 1 to 20 kHz‘‘, Kaoru Ashihara et al, 2003
‘‘Hearing threshold for pure tones above 20 kHz‘‘, Kaoru Ashihara et al, 2005
‘‘Hearing threshold for pure tones above 16 kHz‘‘, Kaoru Ashihara, 2007

Lábjegyzet #2 - bitmélység, dither, zajalakítás, zaj érzékelhetősége:

‘‘Dither in Digital Audio‘‘, John Vanderkooy, Stanley Lipshitz, 1987
‘‘Optimal Noise Shaping and Dither of Digital Signals‘‘, Michael Gerzon, Peter G. Craven, 1989
‘‘Minimally Audible Noise Shaping‘‘, S. P. Lipshitz, J. Vanderkooy, and R. A. Wannamaker, 1991
‘‘Noise: Methods for Estimating Detectability and Threshold‘‘, R. Stuart, 1994



Főoldal