A videózás alapjai 2 - A Videó, mint digitális adat


Adatfolyam (Data rates):
Minél nagyobb az adatfolyam sebessége valaminek, annál jobb minőséget tudunk elérni. Vegyünk néhány szokványos értéket.
Kezdjük a hétköznapi, digitális CD audioval, melynek 16-os bitmélysége van és 176Kbyte/másodperces adatfolyam sebessége. Azonban, ha adat CD-ként használjuk, az adatfolyam sebessége 153Kbyte/másodperc; tehát jóval lassabb, mint az audio esetében. Ha egy videó hangot is tartalmaz, akkor a hang adatfolyam sebessége tehát 176Kbyte/másodperc. Az audiot Kbyte-okban, byte-ok százaiban mérjük, azonban a videó adatfolyamát MByte-ban, byte-ok millióiban mérjük. Tehát ezerszer nagyobb.
A DV 3.75 MB/másodperces adatfolyamú. A 8-bites, tömörítetlen SD videóé 20.2 MB/másodperc; a 10-bites tömörítetlen SD videóé pedig 26.7 MB/másodperc. A HDV-nek, az új alsó kategóriás HD formátumnak 2 különböző adatfolyam sebessége van, attól függően, hogy 720p, vagy 1080i formában hozzuk őket létre. A 720p-nek 2.4MB/s, a 1080i-nek 3.2MB/s. Így valójában a HDV adatfolyama lassabb a HD-nál, de HD jelnek minősül. Erről még később beszélünk. Az adatfolyamok királya minden bizonnyal a tömörítetlen 1080i HD, amelynek 160 MB/s-os adatfolyam sebessége van. Ez egy óriási szám. És ennél csak nagyobb számok jönnek, mikor rátérünk arra is, hogy mindehhez mennyi helyre is van szükség.

Adattárolás:
Most, hogy már tudjuk, hogy másodpercenként mennyi adat „folyik” át a számítógépünkön; fordítsuk le érhetőbbre, azaz, hogy mennyi helyre is van szükségünk 1 óra adat tárolásához, a különböző formátumoktól függően.
1 óra DV anyag 13 GB helyet foglal el a merevlemezünkön. Érdekes, hogy ugyan a PAL képmérete nagyobb, de 1 óra NTSC formátumú videó mérete is körülbelül ugyanekkora, mivel az NTSC 5-tel több képkockát jelenít meg másodpercenként, így nagyjából ugyanannyival nagyobb helyet foglal, a több képkocka miatt, mint amennyivel kevesebb, a kisebb képméret miatt.
1 óra HDV mérete attól függ, hogy milyen felbontású a videónk. 1 óra 720p = 8.7GB, 1 óra 1080i = 11.5GB helyet foglal. 1 óra 8bit-es tömörítetlen SD videó - amit pl. egy BetaCam SP-vel rögzíthetünk - 72.7GB. 1 óra 10bit-es tömörítetlen SD videó – amit mondjuk DigiBetacam-el vehetünk fel - 96GB. Az 1080i HD videó pedig 560GB helyet foglal óránként. Ez óriási mennyiség, ezért érdemes megemlítenünk a „RAID” funkciót; hogy miért is jó ez, miért nem veszünk inkább egyszerűen egy nagyobb winchestert? A probléma az, hogy egy egyszerű merevlemez nem képes olyan gyors adatátviteli sebességre, hogy a videók többségét képesek legyünk szerkeszteni, vagy akár lejátszani. Leszámítva a DV-t természetesen, a maga alig 4MB/s-os adatfolyamával. Ugyanis, egy belső IDE-s merevlemez - ami megegyező a PC illetve Macintosh számítógépeken - 20-25MB/s-os adatátviteli sebességre képes. Amíg ezen az értéken belül maradunk, végső soron nincs is gond. De gondoljunk csak a 10bit-es, tömörítetlen SD-re, ami már 25 és 30 MB/s közötti adatfolyamot igényel. Ez már több, mint amit egy merevlemez közölni képes. Egyes modernebb merevlemezek képesek akár a 40-45MB/s-os sebességre is, azonban jobban járhatunk, ha a winchestereinket RAID-be kötjük.

A RAID a Redundant Array of Independent Disks szavakból áll össze, jelentése: különálló merevlemezek redundáns tömbje. A RAID fő jellemzője, hogy noha több winchester alkotja, azonban a számítógép számára egyetlen merevlemezként jelenik meg, függetlenül attól, hogy a kötetet hány meghajtó alkotja.

RAID módból többféle van, attól függően, hogy hány merevlemezt használunk, illetve, hogy milyen struktúrába rendezettek a biztonsági (redundáns) adatok. A RAID 0 vagy Stripping –ben, az adatok egyenlő arányban oszlanak meg a merevlemezeken. A kapacitás alapját a legkisebb, a sebességét pedig a leglassabb adattároló határozza meg. Tehát érdemes megegyező tulajdonságú merevlemezeket vásárolni RAID céljára, hogy ne legyen veszteségünk. Ellenkező esetben hiába gyorsabb vagy nagyobb egyik winchesterünk, mindig a leglassabb, illetve legkisebb értéket veszi alapul és többszörözi meg a HDD-k számával. Elvégre a nagyobból lehet kisebbet készíteni, de a kisebből nagyobbat nem tudunk csinálni. A RAID 0 tömb kapacitása a HDD-k kapacitásának összege, a folyamatos adatátviteli sebesség pedig elvileg egyenes arányban nő az adattárolók számával. Ugyan nem ez a legjobb szó rá, de gyakorlatilag párhuzamosan használjuk a meghajtóinkat, így nagyobb sebességet elérve. Ezzel akár a tömörítetlen HD 160MB/s-os adatátviteli sebességét és helyigényét is teljesíteni tudja a számítógépünk, hiszen a RAID miatt meg van a megfelelő sebesség, a több merevlemezzel pedig kielégíthetjük óriási helyigényét is. A RAID 0-n kívül van még a RAID 1, amelynél a tömbbe kötött merevlemezek mindegyikén ugyanazok az információk találhatók meg. Így, ha az egyik winchester tönkremegy, az adatok még a többi meghajtón megmaradnak. Illetve a RAID 0+1, mely előző kettőnek a kombinációja; azaz két vagy több RAID 0 tömböt rakunk egy RAID 1 tömbbe.

Szín-mintavételezés (Color Sampling):
A szín-mintavételezés, vagyis a color sampling, arra szolgál, hogy csökkentsük a szín-információk mennyiségét, ezzel csökkentve a videónk fájlméretét. Mivel, ha tömörítetlen formátumban hagynánk, akkor nem sok számítógép lenne képes lejátszani valós időben ezt az óriási mennyiségű adatot. Az emberi szem nagyon érzékeny a szürkeárnyalat változására, azaz a szemünk nagyon könnyen észreveszi a fényerőváltozásokat. Azonban kevésbé érzékeny a színek változására. Nézzünk meg egy DV képet, aminek a felbontása 720x480. Minden egyes pixelnek a 345600-ból egyedi Luminance, vagyis „fénysűrűség” értéke van, ami megmutatja hogy az adott pixel mennyire világos, illetve sötét. Ez az egyes pixelek Y-értéke. Mivel a szemünk kevésbé érzékeny a színek változására, ahelyett, hogy minden egyes pixel szín-információját külön-külön eltárolnánk 2, vagy 4 pixelt egybevonunk, szín-információjuk átlagát vesszük, így rengeteg adattól megszabadulva sok helyet spórolhatunk; és természetesen a számítógép is könnyebben kezeli a kevesebb információt. Ez a szín-mintavételezés.
Több fajta Color Sampling eljárás létezik, de a legnépszerűbbek a: DV, DVD, PAL és SD. A szín mintavételezésnél tehát 4-es csoportokba, 2x2 pixeles mezőkbe rendezzük a képet, ezért fontos a képméretek 4-el való oszthatósága is. A mintavételezést számarányokkal tudjuk leírni. A számítógépen lévő, tömörítetlen videónál ez 4:4:4. Az első 4-es azt jelöli, hogy hány pixelnek van saját Luminance értéke egy 4-es mezőn belül. A második és harmadik szám azt jelzi, hogy hány pixelnek van saját színinformációja, ugyan ezen a 4-es mezőn belül. Tehát a 4:4:4 arány azt jelzi, hogy egy 4-es mezőn belül mind a 4 pixelnek van saját Luminance értéke, valamint első és második színértéke is. Ez a 4:4:4 a YUV. 4:4:4-es arányt azonban sehol sem használnak, legyen az sugárzott adás, kábelTV, vagy kazetta, egyszerűen túl nagy, túl sok információt tartalmaz ahhoz, hogy kezelni tudjuk.
A Digibeta 4:2:2-es aránnyal dolgozik. Tehát minden pixelnek van Y-értéke, de 2-2 pixel szín információját átlagoljuk. Így az első és második pixelek színinformációit átlagoljuk és egy érték vonatkozik mindkettőre. Ugyanez érvényes a 3. és 4. pixelre. Ezzel nem történik különösebb minőségbeli romlás, azonban a fájlméret jelentősen lecsökken. De a DigiBetacam adatátviteli sebessége még így is 27MB/s, ami még mindig igen magas. A BetaCam SP-nél normálisan 4:2:2, mint a DigiBeta-nál, de egyesek szerint közelebb áll a DV 4:1:1-es arányához. Sok vita alakult ki már emiatt, hogy egy olyan analóg formátum, mint a Betacam SP valóban elérheti-e a DigiBeta minőségét, a 4:2:2-t, ezért általában inkább azt mondjuk, hogy nem. Azonban a DV-nél jobb… és ez az a pont, ahol a vita elkezdődik…
Szóval: DV 4:1:1-es mintavételezéssel dolgozik. Tehát mind a 4 pixelnek van saját Luminance értéke, de egy közös színértéken osztoznak. Ez különösen nehézzé teszi a ChromaKey-ezést, vagy a színekkel való részletes munkát, hiszen a színinformációk 80%-a elveszik, nincs benne a videóban. Ezen okból a DV nem a legalkalmasabb nagy minőségű videózáshoz, mint a Betacam, vagy még inkább a DigiBeta. A
DVD illetve a PAL 4:2:0-s aránnyal dolgozik. Tehát minden pixelnek saját Luminance értéke van, a 4 pixel 2 színinformáción osztozik meg, váltakozva. Például kék-piros, kék-piros. Tehát a képminőségünk jobb lesz, de a színértékünknek, csak a fele marad.
Összegezzük az eddig hallottakat: A számítógépünkön a tömörítetlen állomány 4:4:4-es aránnyal, a DigiBeta 4:2:2-essel, DV 4:1:1-el, míg a DVD és a PAL 4:2:0-al.
A HD-nál 2 szín mintavételezési arány van. A 4:2:2-es a sugárzáshoz és a 4:4:4 a digitális mozihoz. A HDV 4:2:0-t használ.
Ezek az értékek fontosak-e nekünk? Miért beszélünk róluk? Ha az utómunkálatok során komolyabban szeretnénk a színekkel variálni, mint például a már említett ChromaKey-t alkalmazni, vagy komoly színkorrekciókat végezni, akkor egy 4:1:1-es, vagy 4:2:0-s kép, nem felel meg nekünk. Jobban ajánlott pl. egy DigiBeta, 4:2:2-es mintavételezéssel. De ha ilyesmi nem áll szándékunkban, akkor fontos ügyelnünk a jó megvilágításra, de elegendő lehet a 4:1:1-es, vagy 4:2:0-s felvétel is.
Beszéljünk egy kicsit az előbb már emlegetett ChromaKey-ről. A Blue, vagy GreenBox technika neve talán már ismerősebben hangzik. A Chromakey feladata, hogy bizonyos színeket „eltüntessen” a képről, azaz azokat ne vegye figyelembe, átlátszóvá téve őket a szerkesztéskor. Tehát a BlueBox-nál a kék hátteret ezzel tudjuk eltüntetni. Több fajta ChromaKey eljárás létezik. Nézzük a szoftware-es megoldásokat:
Az Ultimate: 3D-s térben meghatározza és elkülöníti a nem kívánatos színeket. Valamivel gyengébb a primatte, amely a színek jellegzetes frekvenciáját keresi, és így kulcsolja őket. Az alsó szintű chromakeyezésnél, mint pl. ami az Adobe Premiere-ben, vagy a Final Cut pro-ban található, manuálisan kell kiválasztanunk 1-1 színt és próbálni beállítani a határait, hogy milyen árnyalatokon belül tüntesse el az adott színt. Tehát a chromakey-nek különböző szintjei vannak. Ha egy programmal nem sikerül megvalósítani pontosan azt, amit akarunk, akkor lehet, hogy egy másik képes rá.

Tehát, ha nem akarunk a színekkel variálni, nem akarunk chromakey-ezni, akkor gyakorlatilag bármelyik videó formátum megfelelhet nekünk. De ha nagy színkorrekciókra, vagy ne adj Isten chromakeyezésre lenne szükségünk, akkor a jobb minőség szabadabb kezet ad nekünk.

Képtömörítés:
Eddig a videónál filmkockákról, frame-ekről beszéltünk. Egy kocka, egy kép. Vagyis a különböző megjelenítő eszközökön különálló képeknek látjuk mind. Azonban a tömörített állományoknál, mint pl. a DVD, ez nem feltétlenül igaz. A filmek tömörítettsége 2 féle lehet: A képkocka alapú, vagyis frame-based, illetve a GOP, Group Of Pictures, magyarul képek csoportja, felépítésű. A képkocka alapúnál minden egyes kép önálló, minden információ megvan benne a megjelenítéshez. Azonban a GOP-nál kis, 12 vagy 15 képből álló csoportok vannak. Minden csoport első képkockája egy teljes kép, minden információ meg van benne; a többi kép csak a referenciaképhez, az I-frame-hez képesti eltéréseket tartalmazza. Ezek a B és P-framek. Tehát ezek a képek a GOP-unkban lévő I-frame-ből egészítik ki magukat, illetve a B-framek a későbbi framekből is szerezhetnek információkat. Ezek a GOP-ok egymást követve alkotják a videót. Erre a módszerre tökéletes példa a DVD is. Ugyan bonyolult eljárás, de roppant mód gazdaságos, hiszen így a töredékére csökkenthetjük a fájlméretet.
A DVD 15 képet tartalmazó GOP-okkal dolgozik, és így az adatátviteli sebessége 200kb/s; míg pl. a DigiBeta frame alapú, és 27MB/s a sebessége. Tehát több mint százszorosa! Hatalmas eltérés. A GOP eljárással nem feltétlenül vesztünk a minőségből, de óriási méretcsökkenést érhetünk el. De jól tudjuk: „valamit valamiért”. Ugyanis elvesztjük a független képkockákat, ami szerkesztéshez nem ideális, sőt, kifejezetten hátrányos. Ez a példaként említett DVD-nél nem zavaró, hiszen általában nem szerkesztésre haszánjuk.
Mindennek ellentmondva, a HDV GOP alapú tömörítési rendszerre épül. Ezeket a GOP-okat ki kell kódolnunk és újra független képeket kell belőlük létrehoznunk, hogy pontosan tudjuk szerkeszteni a videónkat valamilyen program segítségével. A DV képkocka alapú, így a HDV, a DV és a DVD közötti hibridnek mondható.

Timecode:
A timecode, vagyis az időkód a videózás egyik fontos alapeleme. Mi is pontosan az időkód? Az időkód egy címke, amellyel a videó minden egyes képkockáját egyedileg azonosíthatjuk. Az időkód 4 számból áll. Az első mutatja az órát, a második a perceket, a harmadik a másodperceket, a negyedik pedig azt, hogy az aktuális másodperc hányadik képkockáján állunk éppen. Az időkód csak azért szükséges, hogy azonosíthassuk vele a képkockákat. Ahogy tesszük azt az emberi nevekkel. Kati, Isti, stb. Tehát időkód nélkül is van kép, hisz az csak egy címke, de a képkockák egyedi azonosítása kulcsfontosságú tényező lehet. Ezzel könnyedén összehangolhatjuk vágáskor a különböző kamerákkal készített képeket, hogy a képek közti váltás mindig pontos legyen, ne legyen semmilyen elcsúszás. Az időkódok használata olyasmi, mint ahogy egy térképen, koordináták alapján tájékozódunk.
Az időkódnak 2 típusa van. A non-drop frame és a drop frame. Ezekre, ahogy sok más angol kifejezésre sem, nincs jó magyar megfelelő; nagyjából azt jelentik, hogy nem-eldobott képkocka és eldobott-képkocka. A kettő között minőségbeli különbség nincs, hiszen ahogy korábban említettük, az időkód nem a kép tényleges része, csak egy címke. Ha megváltoztatom a nevemet Róbertről Gáborra, a személyem nem változik, csak a „címkém”. Tehát a drop és non-drop a címkézés két eltérő módja a videón.
A drop-nál nem képkockákat hagyunk ki, csak az időkód azon részét, amely a képkocka leírásáért felelős. Egy non-drop időkódnál a negyedik szám mutatja meg, hogy az adott képkocka hányadik az aktuális másodpercben. Tehát egy PAL videónál 0-tól indul és 24-ig megy. Mikor átváltana 25-re, újra 0-tól indul, elkezdődött a következő másodperc. Ez NTSC-nél 0-tól 29-ig, Film-nél 0-tól 23-ig. Itt a gond. Ha felveszek egy műsort, és az időkódom pontosan 0-tól indul és kereken egy óra anyagot veszek fel, akkor lejátszásnál az hosszabb lesz, mint egy óra. 1 óra, 4 perc, 20 másodperc. Az ok a másodpercenként megjelenített képkockák számánál keresendő. Itt bukik ki, pl. az NTSC-nél, a 30 és a 29.97 közötti különbség. Ez a 3 század képkockával kevesebb 4 perc 20 másodpercet számít. Ez sokakat meglep. De a hálózati Televíziók ebből pénzt csinálnak. Eladják a használhatatlan másodperceket.
Ezért a mérnökök elkészítették ezt a két féle időkódot. A non-drop minden egyes képkockát egyedi címkével lát el. Ez használatos általában a kereskedelmi adóknál, filmeknél, animációs filmeknél. A Drop frame pedig a lejátszás idejét igazítja a valós időhöz. A legtöbb sugárzott adásnál, ami hosszabb 1 percnél, általában ezt használják. A Drop frame-nél alapvetően minden képkockának van időkódja. Azonban minden percben 2 képkocka időkódját „eldobjuk”; leszámítva a 10. percet, ahol nem dobunk el egyetlen képkockát sem. Nézzünk egy gyakorlati példát:
00:00:59:24-es időkód után (PAL-ban) non-drop-nál 00:01:00:00 következik, míg drop frame-nél 00:01:00:02. Azaz a nulladik és első képkocka időkódját eldobtuk. Így kiküszöböljük az elcsúszást és az időkód megfelel a valós időnek. Összegezve: A drop frame arra szolgál, hogy az időkód a valóságosan eltelt időt mutassa, míg a non-drop frame arra szolgál, hogy minden képkockának egyedi azonosítója legyen. Minőségbeli különbség a kettő között nincs, és a drop frame-nél valójában nem dobunk el képkockákat, csak a hozzájuk tartozó címkét.
Egy DV specifikus alapfogalom a timecode break, azaz az időkód törése. Amikor egy DV kamerával kezdünk meg egy felvételt, teljesen üres kazettára, akkor az időkód 00:00:00:00-ról indul. Tehát nincs első képkocka, mindig csak nulladik. A DV szabvány szerint, ha a felvétel megkezdésének pillanatában az adott ponton nincs időkód, akkor újra 00:00:00:00-ról indul. Azaz ahol befejeztük előzőleg a felvételt, ott az időkódunk magasabb értékű, mint miután folytatjuk azt. Emberi nyelven ez azt jelenti, hogy mindig, mikor leállítjuk a felvételt és újra megnyomjuk a felvétel gombot, az időkód újra nullától indul. Tehát egy órás kazettán például 5-10x, vagy akár 50-100x is nullázódhat az időkód, így a számítógépnek elég nehéz kitalálnia, hogy valójában, most akkor hol is tart a videó. Az időkód-törés kiküszöbölése lehetséges, ha például nem szakítjuk meg a felvételt, ezzel nem nullázzuk az időkódot. Az időkód megváltoztatható, úgy is, hogy a kazettát átmásoljuk egy magnón egy másik szalagra. A magnó figyelmen kívül hagyja az eredeti időkódot és újat oszt ki, így megmarad a folytonosság. Tehát vigyázzunk az időkódra, segít a videóvágó programunknak a képkockák azonosításában.