Nagyfelbontású zene vs. 16 bit/44.1 kHz


Disztribúciós célú audió fájlok optimális mintavételi frekvenciájáról és felbontásáról.


2021.10.28.

Rengeteg félrevezető cikk és téves információ található a neten a disztribúciós célú audió fájlok optimális mintavételi frekvenciájáról és felbontásáról (bitmélységéről). Lassan negyven éve debütált a CD, a digitális technika mégis egy kaotikus, tévhitek által uralt terület maradt, pedig régóta rendelkezésre állnak azok a módszerek és eszközök, amelyek segítségével el lehetne oszlatni a tévhiteket.

Egyre több online zene szolgáltató kínál felvételeket 24 bit/96 kHz-es vagy más 'hi-res' formátumban (MQA, DSD). Az utóbbi években a felhajtás is egyre nagyobb lett a nagyfelbontású felvételek körül. Persze hiába a szép ígéret, ha 16 bitnél nagyobb felbontást vagy 44,1 kHz-nél magasabb mintavételezési frekvenciát alkalmazva a hangminőség nem lesz jobb.

A nagyfelbontású zenék és lejátszók népszerűsítése szinte mindenhol félrevezető leírások (néhol látszattanulmányok) segítségével történik. Igen elterjedt a PCM kódolás megtévesztő ábrázolása, a régi hamis beidegződések, digitális sztereotípiák, alapvető félreértések reklám célú felhasználása. A "CD minőség" kifejezés szintén félrevezető. A "CD minőség" kifejezésnek azért sincs értelme, mert valami olyasmit sugall, mintha a fájl minősége egyenesen arányos lenne a fájl méretével. Mivel 16bit/44,1kHz-en ugyanaz a hangminőség érhető el, mint 24bit/96 kHz-en, ezért 16 bit/44,1 kHz-es változatban is stúdió minőségű felvételeket lehet terjeszteni. Vagy mondhatjuk úgy is, hogy a 16b/44k stúdió minőségű.


Általános tévedések, rossz beidegződések

Azt hiszem az a legnagyobb probléma az egész digitális technikával, hogy könnyű olyan elméleteket gyártani, amelyek formailag helyes következtetésekből állnak, ezáltal igaznak tűnnek, rendkívül meggyőzőek és könnyen terjeszthetők, ugyanakkor még sincs semmi közük a valósághoz. Az érvelések logikájában nincs hiba, csak az alapfeltevések (premisszák) hibásak, és ha a kiinduló állítások hibásak, akkor az egész elmélet romba dől (az ilyen rossz alapokra felépített 'logikus' elméleteket nevezik szalmabáb érvelési hibának). Ez igaz a hanglemez kultuszra, a DSD-re, a nagyfelbontású zenére és az MQA kódolásra. Mindegyik kiindulópontja téves (digitális jelek szögletesek; digitális szűrők rezonanciája hallható stb.).

A tévedések másik nagy csoportját a hamis analógiák alkotják (például azok a félrevezető diagramok, amelyek a PCM kódolást ábrázolják a nagyfelbontású zenéket népszerűsítő oldalakon). Az eltorzított elméletek és hamis analógiák igazi vonzerejét az egyszerűségük jelenti, hiszen a valódi válaszoknál mindig egyszerűbb magyarázatokkal szolgálnak. Az igazi veszély azonban az önmegerősítés és az önigazolás, ami csak úgy kerülhető el, ha időben felismerjük a tévedéseket. Tévedni emberi dolog, senki sem születik tökéletes tudással, azonban megfelelő módszerek ('Baloney Detection Kit') segítségével korán ki lehet szűrni a téves információt és a félrevezető magyarázatokat.

A hifiben igen gyakori a szubjektív és objektív közötti határvonal eltorzítása, azaz olyan jelenségekről vagy jellemzőkről azt állítani, hogy szubjektívek, amelyek valójában nem azok. Szintén gyakori trükk egyszerű akusztikai, hangtechnikai jelenségeket úgy bemutatni, mintha nem lenne rájuk racionális magyarázat. Erősítőknél, DAC-oknál, audió formátumoknál a problémák eléggé körülhatárolhatóak, és nem igazán találni szubjektív összetevőket, hiszen csak meg kell vizsgálni, hogyan és mennyit változik a jel, miután áthaladt a komponensen, és a változást összevetni az ismert határértékekkel. Ennél egyszerűbb és tökéletesebb módszer nem létezik.


Mintavételezési frekvencia, felbontás (bitmélység)

A mintavételezési frekvencia azt mutatja, hogy másodpercenként hány mintavétel történik a digitális konverzió során. A mintavételezési frekvencia a rögzíthető frekvenciatartományt határozza meg. A legmagasabb frekvencia a mintavételezési frekvencia fele.

Mintavételezett értékekből az eredeti analóg jel visszaállítható, ha a mintavételezési frekvencia az eredeti jel legmagasabb frekvenciájú komponensének legalább a kétszerese. Ez azt jelenti, hogy a 0-20 kHz-es tartomány 'digitalizálásához' 40 kHz-es mintavételezési frekvenciára van szükség. A mintavételezés előtt és a mintavételezési konverziók során a jelet meg kell szabadítani a mintavételezési frekvencia fele feletti komponensektől. Erre a feladatra szolgálnak az aluláteresztő szűrök (resampling, anti-aliasing). A DA átalakítás szintén tartalmaz simító szűrőket. Mivel ezeknek a szűröknek van egy minimális sávszélesség igénye, ezért a valós mintavételezési frekvencia magasabb az elméleti értéknél.

A lényeg: 44,1 kHz-es mintavételezési frekvenciát használva az eredeti analóg jel 20 kHz-ig amplitúdó- és fázishelyesen reprodukálható.

A felbontás a zajszintet, azaz a dinamikatartományt határozza meg. A rengeteg konverziós módszernek és annak köszönhetően, ahogy az emberi fül a zajt érzékeli, a hagyományos számítások (pl. DR = n * 6.02 decibel, n = bitek száma) a dinamikatartomány jellemzésére használhatatlanok. Egy digitális rendszer vagy fájl valós dinamikatartománya általában nagyobb, mint az SNR (Signal-to-Noise Ratio, jel -zaj viszony) vagy n * 6,02 decibel számítás eredménye. Bár egy 16 bites rendszerben 216 = 65536 darab jelszint található, azonban ez nem azt jelenti, hogy 65536 analóg értéket lehet csak pontosan ábrázolni.

Monty Montgomery (Xiph.org) 2012-ben írt egy elég részletes cikket arról, hogy miért nincs értelme a 24bit/96kHz-es és 24bit/192kHz-es fájlletöltéseknek (24/192 Music Downloads ...and why they make no sense). A cikk pár éve lekerült a Xiph.org oldaláról, a webarchívumban azonban megtalálható a teljes írás (link). Monty készített egy rövid bemutatót a PCM kódolásról is. A videóban műszerek segítségével láthatjuk, hogy az analóg jelből digitalizálás után újra folyamatos analóg jel lesz. Azaz nincsenek lépcsők a visszaalakított jelben, a felbontás - feltéve, ha nem a bitmélységre vonatkozik - értelmetlen fogalom a hangtechnikában. (videó a YouTube-on, a videó szövege a xiph.org oldalon)

Felbontás vagy bitmélység?
Sajnos a 'felbontás' igen félrevezető kifejezés, mivel az sugallja, hogy több bitet használva a reprodukált jel részletesebb vagy folytonosabb lesz. PCM kódolásnál a bitek száma, a bitmélység egyedül a zajszintet határozza meg, ami teljesen analóg zajból áll. A bitmélységet növelve egyedül a zajszint csökken, és felbontásról mint tárolási pontosságról nincs értelme beszélni. A felbontás csak a bitmélység szinonimájaként használható, másként nem értelmezhető.


A nagyfelbontású audió formátumok eredete

A 16 bitnél nagyobb felbontás és 44,1 kHz-nél magasabb mintavételezési frekvencia használata nem számít újnak. A legősibb fájlformátumok (WAV, AIFF) a kezdetektől fogva képesek nagyfelbontású felvételek tárolására. A nagyfelbontású formátumok elterjedését a háttértárak kis mérete, a driverek és hardver hiánya hátráltatta és persze 2000 környékén a DSD divatőrület is beütött.

16 bitnél nagyobb felbontást és 44,1 kHz-nél magasabb mintavételezési frekvenciákat felvételkészítéséhez találták ki. Stúdiófelvételeknél leggyakrabban használt párosítások: 24b/44.1k , 24b/48k és 24b/96k. Ha a mintavételezési frekvencia 88,2 kHz (24b/88.2k), akkor valószínű, hogy egy DSD felvétel PCM konverziójával állunk szemben.


Bizonyításról, tesztelési módszerekről

A nagyfelbontású zenei formátumok mellett álló "érvek" cáfolata sokkal egyszerűbb, mint elsőre gondolnánk. Először is össze kell gyűjteni az összes érvet, amely a nagyfelbontású zene mellett szól, majd ki kell válogatni azokat, amelyek a PCM kódolás működésének félreértéséből származnak. Az érvek többsége nem más, mint egyfajta félreértés, tévhit (formailag a szalmabáb érvelési hibák körébe tartoznak). A következő lépés: megnézni, hogy valóban mire képes a 16bit/44,1kHz. Frekvenciaátvitel, zaj (dinamikatartomány), tranziensátvitel (fázismenet). Nemlineáris torzítással nem kell foglalkozni, mivel megfelelően megtervezett újramintavételezéshez használt digitális szűrők és megfelelő kvantálás nem okoz hallható torzítást. Utolsó lépésként össze kell vetni a kapott határértékeket az emberi hallás határértékeivel. Ennyi.

Ez a módszer megfelel az igazi bizonyításnak, szemben a zenei tesztek 'fekete doboz' jellegű megközelítésével. Az igazi bizonyításnak mindig érvekre kell épülnie, nem pedig puszta korrelációkra. A zenei tesztek nem a megértést szolgálják, hanem csak arra a kérdésre adnak választ, hogy van-e valamilyen korreláció X és Y között, azonban a korreláció nem feltétlenül jelent okozatiságot. A zenei tesztek a statisztika ősrégi problémáit hordozzák magukban (hamis okozat, azaz a korreláció és az okozatiság összetévesztése; rejtett változó problémája; hibás általánosítás fals pozitív tesztekből).


Tévhitek (PCM kódolás)

Következzenek azok az érvek, amelyek látszólag a nagyfelbontású formátumok mellett állnak, valójában a PCM kódolás működésének félreértéséből származnak.

A fenti állítások mindegyike téves, hiszen a DA konverterek kimenetén a jel teljesen analóg, egy digitális rendszer időbeli felbontása a mintavételezési frekvenciától független, 16 bit dinamikatartománya zajformálással 120 decibelt is elérheti (a 96 decibel is óriási). A lineáris fázisú szűrők átviteli sávjában a fázismenet lineáris, tehát a fáziskülönbség 20 Hz és 20 kHz között nulla. A digitális szűrők impulzusválaszban látható rezgés frekvenciája 44,1kHz-es mintavételezésnél kb. 22 kHz (mindig nagyobb mint 21 kHz).


Az emberi hallás felső határa

Mindenképpen tisztázni kell az emberi hallás felső határát, hiszen ez befolyásolja a rögzítendő frekvenciasávot.

Bár találhatunk olyan embereket, akik kísérleti körülmények között képesek 20 kHz-nél magasabb frekvenciájú hangokat is meghallani, arányuk igencsak elenyésző. A 20 kHz feletti hallás nagyon ritka, szinte csak 25 év alatt fordul elő és ami a legfontosabb: nincs jelentősége. A hallás felső határa nemcsak egyénenként és életkor szerint változik, hanem a vizsgált jel amplitúdójától (hangnyomásától) is függ: 100 decibelhez magasabb felső határfrekvencia tartozik, mint 80 decibelhez.

A hallás felső tartományát érintő halláskutatásokban a vizsgálójel hangnyomása a hallásküszöb környékén jóval meghaladja az élő zenében és filmekben előforduló hangnyomás értékeket. A vizsgálójel elérheti a 110 decibelt, míg a hangnyomás maximális értéke zenében 20 kHz-en kb. 85 decibel (cintányér). A cintányér normál szintje 20 kHz-en kb. 60 dBSPL, hangszerek (rézfúvósok, hegedű) alig produkálnak 60 dBSPL-nél többet ebben a tartományban. Összegezve: hiába hall valaki akár 26 kHz-ig, nem fogja hallani a zenében előforduló harmonikusokat 20-22 kHz felett.

  1. A legmagasabb frekvencia, amit a legélesebb hallású emberek tesztkörülmények között meghallanak: 24-26 kHz.
  2. A legmagasabb frekvencia, amit a legélesebb hallású emberek a cintányér harmonikusaiból hallanak: 20-22 kHz.
  3. A legmagasabb frekvencia, amit az átlag hallású emberek tesztkörülmények között meghallanak: 20 kHz.
  4. A legmagasabb frekvencia, amit az átlag hallású emberek a cintányér harmonikusaiból hallanak: 16-18 kHz.

16 bit/44,1 kHz jellemzői

Dinamikatartomány
Zajformálás nélkül kb. 103, zajformálással 120 decibel perceptuális dinamikatartomány (nem azonos az SNR-rel) érhető el. 16 bit dinamikatartománya óriási és teljesen lefedi azt a tartomány, ami bármilyen jellegű hangreprodukcióhoz szükséges. Egy hifi rendszerben a hangnyomás és ezáltal a dinamika maximális értéke kb. 110 decibel.

Frekvenciaválasz
Teljesen egyenletes frekvenciaátvitel minimum 20 kHz-ig, ha pedig megengedünk pár decibel csillapítást, akkor a felső határ 21 kHz.

Transiensátvitel, fázismenet
Lineáris fázismenet, zeró futásidő torzítás (csoportkésés változás) legalább 21 kHz-ig. (A lineáris fázis csak lineáris fázisú szűrökkel és oversampling DAC-okkal érhető el, a 80-as évek közepe óta a DAC-ok ilyen típusúak)

Az emberi hallás tartományában tökéletes frekvenciaátvitel, fázismenet és tranziensátvitel érhető el 44,1 kHz-es mintavételezési frekvenciával. 16 biten a kvantálási zaj nem hallható. 16 bit / 44.1 kHz tökéletesen megfelel stúdió minőségű felvételek terjesztésére.


Stúdiókban használt formátumokról

16 bit /44,1 kHz elég disztribúciós célra, de mi a helyzet a felvételi formátumokkal? Felvételi formátumoknál ma már alap a 24 bit-es felbontás és a 96 kHz-es mintavételezési frekvencia.

A nagyobb felbontásra az effektek miatt van szükség, ugyanis az effektek használata során torzítás és zaj keletkezik, ami 24 bites felbontás használatával a 16 bites fájlok zajszintje alatt tartható. 24 bites fájloknál a kvantálási zaj 48 decibellel alacsonyabb, így bőven van hely több ezer szerkesztés műveletből származó zaj 'elhelyezésére'.

Bár a stúdiófelvételeket 24 bites felbontásban tárolják, a hangfelvételek valódi felbontása sokszor nem éri el a 16 bitet és a többi bit csak zajt tartalmaz. Nem létezik 24 bites felbontású felvétel, se 20 bites, se 19 bites. Van egy-két ritka felvétel, ami 18 és 17 bites (2L, BIS Records, AIX Records), ezek azonban zajformálással elférnek 16 biten (zajformálással 19 bit-es dinamika elfér 16 biten). Az összes többi 16 bites vagy még rosszabb. Az analóg felvételek valódi felbontása épphogy eléri a 13 bitet. Csak azért tárolják stúdióban 24 biten a felvételeket, hogy az effektek használata során keletkező zaj halmozódása kisebb legyen.

Stúdiófelvételeknél a 48 kHz feletti mintavételezési frekvenciák használata általában feleslegesnek számít. Egy-két speciális effekt tisztábban szól magasabb mintavételezési frekvencián (modulációs effektek: kórus, flanger), azonban ezeket leszámítva a 44,1 kHz-es vagy 48 kHz-es mintavételezési frekvencia ugyanolyan jó szerkesztéshez, mint a 96 kHz.

Mintavételezési frekvencia és effektek
Az effektek egyik nagy csoportjába azok tartoznak, amelyek csak lineáris műveleteket alkalmaznak (összeadás, kivonás, szorzás, osztás). Lineáris effektek: ekvalizer, hangerő változtatás, fade-in, fade-out, reverb, visszhang (delay). Lineáris effektek és lineáris szerkesztési műveletek minőségét a mintavételezési frekvencia nem befolyásolja. A nemlineáris effektek (pl. gitár torzító) érzékenyek a mintavételezési frekvenciára, azonban ezek mind belső túlmintavételezést használnak, ezért felesleges a magasabb mintavételezési frekvencia használata. A modulációs effekteknél (kórus, flanger) a lejátszási sebesség periodikusan változik és magasabb mintavételezési frekvencián a hullámforma kiszámítása pontosabb. Mivel a modulációs effektek nem használnak belső túlmintavételezést, ezért ilyen effektek használatakor célszerű 96kHz-es mintavételezési frekvenciát használni. A 96 kHz-es mintavételezési frekvenciának még egy másik apró előnye van: precízebb minta alapú szerkesztést tesz lehetővé, azonban általában erre nincs szükség.

Összegezve, nincs értelme azt állítani, hogy a 24b/96k jobb felvételi formátum, mint a 16b/44k vagy a 24b/44k. Élő felvételhez a 16b/44k is elegendő, míg egy effektekkel telezsúfolt többsávos felvételnél a 24b/44k alacsonyabb végső zajszintet biztosíthat.


Zene extra mennyiségű zajjal

A nagyfelbontású letöltéseknek nincs értelme, azonban akad egy másik probléma is a nagyfelbontású változatokkal. Egy felvétel 24 bites / 88.2 kHz-es WAV fájlban tárolva háromszor nagyobb, mint 16 bit/44.1 kHz-es formában. A FLAC tömörítésű fájloknál az arány még rosszabb. És mi az a plusz, amit egy igazi nagyfelbontású felvétel tartalmaz? Zaj. Méghozzá hatalmas mennyiségű, nem hallható, funkció nélküli zaj.

Felvételi zaj aránya FLAC fájlokban - 24 bit-es felbontás a semmiért
(a narancssárga a zaj, a kék a zajszint feletti "jel")

16 bites felbontásnál a felvételi zaj mennyisége a fájl méretéhez képest elenyésző. Egy 24/88.2 felvételben a nem hallható és teljesen funkció nélküli felvételi zaj mérete nagyjából megegyezik egy ugyanilyen hosszú 16 bit/44.1 kHz-es WAV fájl méretével. Ez azért elég nagy pazarlás. További problémát jelent, hogy a zaj nem tömöríthető veszteségmentes eszközökkel, ami meg is látszik a nagyfelbontású FLAC fájlok óriási méretén. Egy 24/96-os felvétel átlagos bitrátája FLAC-ban kb. 2,5 Mbps (Megabit per szekundum), ebből 1.4 Mbps felesleges felvételi zaj. Azaz egy 24/96-os FLAC fájlnak több mint a fele nem hallható zajból áll...

Horváth Csaba


Szakirodalom (hallás):

K. R. Henry and G. A. Fast, ‘‘Ultrahigh-frequency auditory thresholds in young adults: Reliable responses up to 24 kHz with a quasi-free-field technique‘‘, 1984
A. Rodríguez Valiente et al., ‘‘Extended high-frequency (9 – 20 kHz) audiometry reference thresholds in 645 healthy subjects‘‘, April 2014, Int J Audiol.
Kaoru Ashihara et al, ‘‘Threshold of hearing in free field for high-frequency tones from 1 to 20 kHz‘‘, 2003
Kaoru Ashihara et al, ‘‘Hearing threshold for pure tones above 20 kHz‘‘, 2005
Kaoru Ashihara, ‘‘Hearing threshold for pure tones above 16 kHz‘‘, 2007


Facebook    Google



Főoldal