Unicode

UTF-16

Das Kodierungsformat UTF-16 ist das älteste aller Unicode-Kodierungsformate und ist optimiert für die am häufigsten gebrauchten Zeichen der Basic Multilingual Plane (BMP). Unicode Zeichen, deren Code sich im Bereich U+0000 bis U+FFFF befindet, liegen in der Basic Multilingual Plane. Dies sind lateinische und andere europäische Schriften und deren Symbole, afrikanische und asiatische Schriften. Die Zeichen in diesem Bereich werden direkt auf die zwei Bytes (16 Bits) einer UTF-16 Code-unit abgebildet.

Damit ist die Kodierung UTF-16 am Besten für Zeichen dieses Bereichs geeignet, auch wenn sie bei reinen ASCII oder ANSI Texten gegenüber einer ANSI oder auch UTF-8 Kodierung doppelt so viel Speicherplatz benötigt, da für die ASCII Zeichen in beiden Fällen jeweils nur ein statt zwei Byte verwendet werden.

UTF-16 Little Endian ist die in Windows 2000/XP/2003/Vista und so weiter genutzte interne Representation von Text und das Format, was im Windows Editor unter der Kodierung "Unicode" verstanden wird. Auch andere Betriebssysteme wie Mac OS X oder Symbian nutzen UTF-16 als Standard Kodierung.

Sowohl Big Endian als auch Little Endian kann verwendet werden, um UTF-16 kodierte Texte abzuspeichern. Die Byte Order Mark (BOM) bei UTF-16 Big Endian ist FE FF und bei UTF-16 Little Endian FF FE. Siehe dazu Endianness und Byte Order Mark.