A számítástechnika alapjai

Szöveg tárolása

A szöveges információ karakterekből áll. A karakter a kódolásra használt jelrendszer legkisebb (tovább nem bontható) eleme. A karakterekhez egyértelműen rendelünk egy-egy számot, amely majd a memóriában az adott karaktert képviseli. A karakterek kódolására különböző szabványok születtek.

Szövegek tárolásához a számítógépnek egy kódtáblázatra van szüksége, amelyben meg tudja „nézni”, hogy melyik karakternek milyen számkód felel meg. A leggyakrabban használt ilyen táblázat az ún. ASCII (American Standard Code for Information Interchange) kódtábla.

ASCII

Az ASCII (American Standard Code for Information Interchange) 1 bájton ábrázolja a karaktereket. Mivel 1 bájton 256 féle szám tárolható, így 256 kód áll rendelkezésünkre. Ebből az első 128 jel az ún. standard ASCII, amely mindig ugyanaz. Ebben az első 32 jel vezérlőkód (pl. lapdobás, enter, escape), továbbá az angol ábécé nagy- és kisbetűi, számjegyek, írásjelek és egyéb jelek találhatók benne.

ASCII tábla - 1

ASCII kód táblázat 1.
(Nagyításhoz kattints a képen!)

A másik 128 féle jel tartalma kódlapoktól függően változik. A magyarok a 852-es kódlapot használják. Ez tartalmazza a magyar ékezetes karaktereket is.

ASCII tábla - 2

ASCII kód táblázat 2.
(Nagyításhoz kattints a képen!)

Az ASCII kódokat a numerikus billentyűzet segítségével irathatjuk ki. Az Alt és (a numerikus billentyűzeten leütött) kód kombinációjával.

A szöveg karakterekből áll. Számítástechnikában a több karaktert tartalmazó szöveget sztringnek nevezzük. A szöveg letárolása lényegében a szöveget alkotó karakterek letárolását jelenti. Így a szöveget alkotó karakterek számától fog függni, hogy az adott szöveg mekkora helyet foglal a memóriában. Sajnos, ez az érték előre nem mindig mondható meg. Ezért a programozási nyelvek legtöbbször igénylik, hogy a szöveg számára történő helyfoglaláskor (deklaráció során) adjunk meg egy maximális szöveghosszt, amitől biztos nem lesz hosszabb szöveg eltárolva az adott változóban.

UNICODE

A Unicode 16 biten tárolja a karaktereket, így 65.536 karakter leírására alkalmas. A Unicode alsó 128 karaktere egybeesik az ASCII kódolással. Az e fölötti részekben pedig szegmensekben helyezkednek el a különböző nyelvcsoportokat leíró karakterek.

A jelenleg használt kódolási formák közül a legelterjedtebb az UTF-8, ami változó hosszúságú kódolással jeleníti meg a Unicode jeleit.

ASCII tábla - 2

Karakterkódolás