Unicode

Basic Multilingual Plane (BMP)

Unicode ist in insgesamt 17 Codebereiche mit jeweils 65.536 Zeichen (16 Bit) eingeteilt, von denen momentan erst etwa 10 Prozent verwendet werden. Die erste und wichtigste Ebene ist die Basic Multilingual Plane (Plane 0, BMP), die nahezu alle gebräuchlichen Schriftsysteme und Symbole enthält. Sie beherbegt die Zeichen U+0000 bis U+FFFF.

Unter anderem befinden sich in der BMP die lateinischen Schriften und Symbole, Lautschriften, andere europäische Schriften wie die griechisch Schrift und kyrillische Schrift, afrikanische und asiatische Schriften wie Hiragana und Katakana, Diakritika, kanadische Silben, Chinesische-Japanische und Koreanische Ideogramme, Symbole und verschiedene andere Zeichen. Darüber hinaus ist auch Platz für den privaten Gebrauch eigener definierter Zeichen reserviert.

Die zweite Ebene (U+10000 bis U+1FFFF) ist die Supplementary Multilingual Plane (Plane 1, SMP), der ergänzende mehrsprachige Bereich. Diese Plane enthält historische Schriftsysteme und Zeichen, die sehr selten benutzt werden, beispielsweise Zeichen für Dominosteine.

In der dritten Ebene (U+20000 bis U+2FFFF) sind ausschließlich Japanische, Chinesische und Koreanische Zeichen, die selten benutzt werden. Diese Ebene wird als Supplementary Ideographic Plane (Plane 2, SIP) oder als ergänzender ideographischer Bereich bezeichnet.

Der Codebereich U+30000 bis U+DFFFF und damit die vierte bis vierzehnte Ebene (Plane 3 bis 13) ist bislang nicht belegt oder vergeben. Selbst wenn weltweit alle bekannten Zeichensysteme, die bislang noch nicht kodiert wurden, noch kodiert werden würden, würde noch Platz für weitere Zeichen übrig bleiben. Allerdings gibt es unbegrenzt viele Möglichkeiten für Zeichen, die außerhalb der Schriftsysteme auftreten können, die eventuell irgendwann kodiert werden könnten.

Die fünfzehnte Ebene (Plane 14) im Codebereich U+E0000 bis U+EFFFF nennt sich Supplementary Special-purpose Plane (SSP), also der ergänzende Bereich für spezielle Verwendungen. Dieser Bereich enthält nicht graphische Zeichen wie einige wenige Kontrollzeichen zur Sprachmarkierung für den Fall dass die Sprache nicht durch andere Protokolle wie zum Beispiel XML angegeben wurde sowie alternative Glyph Sektoren. Diese können dazu verwendet werden, eine alternative Glyphe für ein Zeichen, das nicht durch den Kontext bestimmt werden kann, anzugeben.

Die letzten beiden Ebenen (U+F0000 U+10FFFF sind für den privaten Gebrauch reserviert und können individuell verwendet werden. Diese Zeichen sind nicht vom Unicode Konsortium eindeutig definiert, so dass sie nicht einheitlich verwendet werden können.