Hullámformájú
digitalizált hangállományok
-
hang jellemzõi
-
a hang fizikai fogalma és jellemzõi (a hang rugalmas közegben
terjedõ longitudinális hullám, vagyis a közeg
részecskéinek rezgése a hullám terjedési
irányába esik; pl. egy gitár megszólaltatásakor
a húr(ok) rezgése a levegõ periodikus sûrüsödését,
ill. ritkulását váltja ki)
-
periodikusság
-
amplitúdó (A)
-
periódusidõ (T)
-
frekvencia vagy rezgésszám (f = 1/T)
-
hullámhossz (L)
-
terjedési sebesség (c = L/T vagy c = L*f)
-
hangmagasság (az abszolút hangmagasság a hanghullám
frekvenciája)
-
fontosabb frekvenciatartományok
-
infrahangok (0 ... 20 Hz)
-
hallható hangok (20 Hz ... 20 kHz)
-
beszédhangok (80 Hz ... 1300 Hz)
-
zenei hangok (30 Hz ... 3000 Hz)
-
"egyvonalas" A hang (a1 = 440 Hz)
-
ultrahangok (20 kHz ... 1 GHz)
-
hangskálák, hangközök (zenehallgatáskor
az emberi fül nem az abszolút hangmagasságot, hanem
inkább a hangok közötti arányokat érzékeli)
-
diatonikus (21 hang), és temperált kromatikus (12 hang) dúrskálák
-
temperált hangközök
-
oktáv (pl. a2 = 2 * a1)
-
félhangköz, kis szekund (pl. f1 = dt * e1,
ahol dt12 = 2; dt = 2^(1/12) ~ 1.059463 > 25/24)
-
nagy szekund (pl. g1 = dt2 * f1)
-
kis terc (pl. g1 = dt3 * e1)
-
...
-
kvart (pl. f1 = dt5 * c1)
-
...
-
kvint (pl. f1 = dt7 * c1)
-
-
hangerõ
-
fizikai (abszolút) hangerõsség vagy hangintenzitás
(I; a hanghullám terjedési irányára merõleges,
egységnyi felületen idõegység alatt áthaladó
hangenergia közepes / átlagos értéke; [I] = W/m2;
a még éppen hallható 1000Hz-es hang intenzitása,
az ún. hallásküszöb kb. I0 = 10-12
W/m2 hangintenzitásnak felel meg; az intenzitás
az amplitúdó négyzetével arányos)
-
relatív hangintenzitás (Irel = I / I0;
[log Irel] = dB)
-
szubjektív hangerõsség, hangérzet vagy hangosság
(H; [H] = phon; a hangérzet függ a hang magasságától
vagy frekvenciájától; definíció szerint
1000Hz-es frekvenciájú hangra I = H)
-
alkalmazkodó hallásküszöb (a hallásküszöb
a leghangosabb hanghoz igazodik; közel hasonló hangmagasságok
esetén egy erõs hang "elnyomja" a mellette szóló
halkabb hangot)
-
hangszín vagy hangszínezet (a zenei hangok színezetét
az alaphanghoz keveredõ felhangok száma és viszonylagos
/ relatív erõssége vagy intenzitása határozza
meg; a felhangok az alaphang rezgésszámának egész
számú többszörösei)
-
hang(hullám) spektruma (a hanghullámban elõforduló
frekvenciaösszetevõk relatív intenzitása, az
egyes felhangok amplitúdójának ábrázolása
a frekvencia függvényében)
-
vonalas spektrum (zenei hangok)
-
folytonos spektrum (zörejek, zajok)
-
vegyes spektrum (pl. lecsengõ zenei hangok)
-
lecsengés (a hanghullám intenzitásának idõbeli
változása / csökkenése; az amplitúdó
idõbeli változását leíró grafikon
burkológörbéjének idõbeli változását
a dAhDSR modellel szokás leírni)
-
egyéb jellemzõk (dallamosság, ritmus, tempó,
stb.)
-
analóg hangjelek digitalizálása: PCM (Pulse Code Modulation)
kódolás
-
mintavételezés (az analóg jel nagyságát
adott idõközönként megmérjük)
-
mintavételezési frekvencia
-
PAM jel (Pulse Amplitude Modulation; értékfolytonos, idõszakaszos
jel)
-
torzítás
-
alulmintavételezés (aliasing, "hamis jel" képzõdése
túl alacsony mintavételezési frekvencia esetén)
-
kvantálás (a mintavételezéssel kapott értékek
kódolása egy k bites ún. adatszóval)
-
két lehetséges kódolási függvény
nemnegatív jel esetén: y = [s/(Smax+eps)*(Z(k)max+1)]
vagy y = [s/Smax*(Z(k)max+eps)] ahol
-
s az értékfolytonos jel egy adott (digitalizálandó)
értéke
-
Smax az értékfolytonos jel legnagyobb lehetséges
értéke
-
0<eps<1 egy kis érték; célja, hogy az s/(Smax+eps)
hányados értéke mindig valamivel kisebb legyen 1-nél
(ekkor 0<eps<<1), ill. a (Z(k)max+eps) szorzat értéke
nagyobb legyen Z(k)max -nál, de valamivel kisebb, mint
Z(k)max+1 (ekkor 0<<eps<1)
-
Z(k)max = 2k-1, a k bites adatszóval ábrázolható
legnagyobb érték
-
y az s digitalizált értéke
-
[] a tizedesjegyek levágásával kapott egész
érték (alsó egész rész képzése)
-
egy lehetséges kódolási függvény
egy olyan jel esetén, amely negatív és pozitív
értéket egyaránt felvehet: y = [(s-Smin)/(-Smin+Smax+eps)*(Z(k)max+1)]
ahol
-
Smin az értékfolytonos jel legkisebb (negatív)
értéke
-
kvantálási mélység
-
torzítás
-
kerekítési hibák (minél nagyobb a kvantálási
mélység, a relatív hiba annál kisebb)
-
mintavételezési frekvencia (Shannon - Nyquist tétel:
a minimális mintavételezési frekvenciának legalább
a hangban elõforduló legmagasabb frekvenciakomponens kétszeresének
kell lennie)
-
digitális telefonhálózaton: 8 kHz (8000 mintavétel
másodpercenként; mivel a beszédhangok frekvenciatartománya
kb. 80 - 1300 Hz, azaz jóval kisebb, mint 4000 Hz = 4 kHz, a Shannon-Nyquist
tétel értelmében a 8 kHz mintavételezési
frekvencia megfelelõ minõségû hangvisszaadást
tesz lehetõvé; de ha énelekni vagy zenélni
akarunk, akkor sem kerülünk nagy bajba, mivel a zenei hangok
frekvenciatartománya is csak kb. 30 - 3000 Hz; megjegyzés:
az "egyvonalas" a hang frekvenciája a1 = 440 Hz)
-
HiFi CD minõségben: 44.1 kHz
-
még jobb minõségben (pl. Dolby Digital): 48 kHz
-
digitalizálási vagy kvantálási mélység
(az adatszó digitális számjegyeinek száma)
-
digitális telefonhálózaton: 8 bit (28 =
256 lehetséges érték)
-
HiFi CD minõségben: 16 bit (216 = 65,536 lehetséges
érték)
-
még jobb minõségben (pl. Dolby Digital): 24 bit (216
= 16,777,216 lehetséges érték)
-
csatornák száma
-
digitális telefonhálózaton: 1 csatorna (mono)
-
HiFi CD minõségben: 2 csatorna (sztereo)
-
még jobb minõségben (pl. Dolby Digital): 5.1 csatorna
(az élethû térhangzás érdekében
5 teljes sávszélességû csatorna - bal és
jobb elsõ csatorna, bal és jobb hátsó csatorna,
valamint egy un. középcsatorna - és egy csökkentett
sávszélességû, mély hangokat visszaadó
"szubbasszus" csatorna)
-
tömörítés (hangállományok esetén
többnyire veszteséges)
-
fontosabb hangformátumok
-
PCM (audio/basic; tömörítetlen digitális
adatfolyam, pl. audio CD-k vagy digitális telefonálás
esetén)
-
WAV (audio/x-wav; tömörítetlen digitális
hangállomány)
-
MP3 (audio/x-mpeg2; veszteségesen, nagy hatékonysággal
tömörített állomány; lehetõség
van különbözõ minõségû kódolásra
az MP3 állományok lejátszásához szükséges
sávszélesség, un. bitráta meghatározásával;
a veszteséges tömörítés az emberi fül
"tökéletlenségét" használja ki - amit
amúgy sem hallanánk meg, elvileg elhagyhatjuk az állományból)
-
konstans bitráta (CBR; viszonylag gyors kódolás)
-
gyenge minõség, inkább csak beszédhangokra:
96 kbps (kbit/s) alatt
-
közel CD minõség: 128 kbps (az Interneten ez a legelterjedtebb)
-
CD minõség: 160 kbps vagy ennél magasabb bitráta
-
változó bitráta (VBR; lassabb kódolás,
de nagyobb hatékonyság)
Boda István, 2005. március
21