Wat is Unicode

Unicode is een codepage, een begrip uit de informatica dat betekent dat letters, cijfers, leestekens en symbolen een vaste, digitale code hebben. Unicode betekent niets minder dan dat alle tekens, nieuw of antiek, uit een dode of levende taal, standaard of minderheidstaal, zijn op genomen. Universeel dus, vandaar de naam Unicode.

Op dit moment (juni 2020) zijn bijna 144.000 tekens opgenomen, uit 154 ‘scripts’ (schriftsystemen). Dat omvat dus het antieke spijkerschrift, Dives Akuru (tot voor kort op de Maladiven gebruikt), Jezidi (minderheidstaal), Latijn (ons schrift, het alfabet) tot en met de emoji’s (emoticons). Naast leestekens zijn ook symbolen opgenomen, zoals valutatekens, sterrenbeelden of de recyclesymbolen. Vrijwel alle tekens die ooit zijn gebruikt of die men dagelijks gebruikt zijn in Unicode opgenomen, en de lijst wordt regelmatig uitgebreid.

Alle tekens hebben in de code een uniek nummer (code point). Daardoor zijn ze altijd identificeerbaar. Deze nummers worden voor het gemak als een hexadecimaal nummer weergegeven en niet als rijtje eentjes en nulletjes. Van belang is dat de code alleen de vorm van het teken omschrijft, dat wordt character genoemd, niet zijn uiteindelijke vorm, de glyph. Neem bijvoorbeeld de Latijnse, Cyrillische en Griekse hoofdletter A. Hoewel de drie letters er hetzelfde uitzien zijn het wezenlijk andere characters, want ze behoren tot drie verschillende schriftsystemen. Of neem de Latijnse kleine letter a, die er als glyph in ‘Times’ anders uitziet dan in ‘Comic sans’, maar wel hetzelfde character is.

Unicode is niet alleen een lijst met characters, maar bevat ook ‘gebruiksaanwijzingen’ voor softwareontwikkelaars. Deze hebben zich verenigd in het Unicode Consortium. Wat aldaar bekokstoofd wordt eindigt uiteindelijk als de internationale norm ISO/IEC 10646. Iedere laatste versie van een Operating System (OS) bevat de laatste versie van deze ISO/IEC-norm.


Of u, als gebruiker (schrijver, redacteur, vormgever of lay-outer) hier iets aan heeft, hangt af van een ander onmisbaar onderdeel van digitale tekstverwerking: het font. Daar komt ik nog op terug.

Unicode bestaat uit 17 zogenaamde ‘planes’ (lagen) met ieder 65.635 characters. Voor ons is vooral laag 0, BMP (Basic Multilingual Plane) van belang. De emoji’s bevinden zich in laag 1, SMP (Supplementary Multilanguage Plane).

De ‘BMP’. In West-Europa worden vooral characters uit de eerste twee ‘blocs’ gebruikt (blauw, linksboven), enkele leestekens uit blok 68 en het euro-teken uit blok 70. De meeste ruimte gaat naar CJK-tekens (China-Japan-Korea), hier groen aangegeven.