Unicode Byte Order Mark (BOM)

Byte Order Mark (BOM)

Die Byte Order Mark ist ein Unicode Zeichen, dass die Byte-Reihenfolge (Endianness) einer Unicode-Datei oder eines Unicode-Streams anzeigt. Dieses Zeichen hat die Unicode Position U+FEFF und kann auch dazu verwendet werden, die Kodierung einer Textdatei zu bestimmen. Das Zeichen steht immer an erster Stelle in der Datei und wird von der Software, die das entsprechende Format unterstützt, nicht als Bestandteil des Textes interpretiert. Ein Vorteil dieser Handhabung ist, dass keine weiteren Informationen zu der Datei mitgeliefert werden müssen und sich der Interpretations-Schlüssel damit direkt in der Datei befindet.

Byte Order Mark verschiedener Kodierungen
Interpretation der Byte Order Mark
Byte Order Mark von Dateien ändern, entfernen oder hinzufügen

Byte Order Mark verschiedener Kodierungen

Je nachdem, in welcher Kodierung eine Datei abgespeichert wird, ergeben sich unterschiedliche Byte-Folgen für das Zeichen U+FEFF. Die Bytefolgen für die gängigsten Kodierungen sind in dieser Tabelle zusammen gefasst:

Kodierung	Byte Order Mark	ASCII
ANSI	Keine BOM	-
UTF-1	F7 64 4C	÷dL
UTF-7	2B 2F 76 ( 38 \| 39 \| 2B \| 2F )	+/v 89+/
UTF-8	EF BB BF	ï»¿
UTF-16 Big Endian	FE FF	þÿ
UTF-16 Little Endian	FF FE	ÿþ
UTF-32 Big Endian	00 00 FE FF	??þÿ
UTF-32 Little Endian	FF FE 00 00	ÿþ??
UTF-EBCDIC	DD 73 66 73	Ýsfs
GB 18030	84 31 95 33	„1•3

In der letzten Spalte (ASCII) sieht man wie die Byte-Sequenz der Byte Order Mark aussehen würde, würde man sie in einem Texteditor als ASCII-Zeichen (beziehungsweise als typische Single Byte Code Page / Latin-1 / Win-CP) interpretieren.

Zwingend erforderlich, um eine entsprechende Datei eindeutig lesen zu können, ist die Byte Order Mark in den Kodierungen UTF-16 und UTF-32, da in diesen Kodierungen ein Zeichen mehrere Bytes belegt und die Byte Order Mark anzeigt, in welcher Reihenfolge die Bytes zu interpretieren sind (siehe zur Byte Reihenfolge Big Endian und Little Endian). Bei den Kodierungen UTF-8 und UTF-7 dagegen ist die BOM nicht zwingend erforderlich, führt aber dennoch zu eindeutigeren Ergebnissen, da Programme entsprechende Texte ansonsten auch als ANSI interpretieren könnten.

Dass durch die BOM die Reihenfolge gekennzeichnet wird, lässt sich leicht beim Vergleich der Bytefolgen zwischen Big Endian (Beginn bei höchstwertigem Bit) und Little Endian (Beginn bei niederwertigstem Bit) erkennen, da diese beiden Kodierungen eine gegenläufige Byte Reihenfolge haben. Einmal ist die Byte Reihenfolge FE FF und einmal mit FF FE genau anders herum. Da bei UTF-32 generell vier Bytes pro Zeichen verwendet werden, ist ebenfalls ersichtlich, wieso die Kodierungen hier bei 00 00 FE FF und FF FE 00 00 liegen.

Interpretation der Byte Order Mark

Zu Problemen und falschen Darstellung unter Verwendung der Byte Order Mark kann es kommen, wenn Programme die BOM nicht interpretieren können und stattdessen ANSI Zeichen anzeigen, zum Beispiel ï»¿ für die BOM von UTF-8 (EF BB BF). Hier gibt es eine kleine Problematik, da auch in ANSI Dateien die Byte Sequenz EF BB BF erlaubt ist und die entsprechende Datei dann fälschlicherweise, sofern diese Sequenz am Anfang steht, als UTF-8 interpretiert werden könnte. Mit Software wie dem TextKonverter oder dem TextEncoder können Sie problemlos sowohl Dateien mit als auch ohne Byte Order Marke einlesen und schreiben. Außerdem ist es mit diesem Programm möglich das Format einer Datei zu ändern oder eine Byte Order Mark hinzuzufügen oder zu entfernen.

Kommt das Zeichen U+FEFF an einer anderen Stelle als an der ersten Position in einer Datei vor, so ist es als ein Zeichen mit einer Breite von 0 und keinem Umbruch zu werten. Allerdings ist die absichtliche Verwendung dieses Zeichens für diesen Zweck veraltet, da das Zeichen nun nur noch als Byte Order Mark verwendet werden sollte. Stattdessen sollte nun das Zeichen U+2060 für diesen Zweck verwendet werden.

Byte Order Mark von Dateien ändern, entfernen oder hinzufügen

Mit dem Programm TextEncoder können Sie die Byte Order Mark von Dateien ändern, entfernen oder hinzufügen. Nachdem Sie den TextEncoder gestartet haben, können Sie dafür folgendermaßen vorgehen:

Ziehen Sie die Dateien, die Sie bearbeiten möchten aus einem beliebigen Ordner auf den TextEncoder.
Aktivieren Sie auf der rechten Seite unter "Änderungen" die Option "Kodierung".
Stellen Sie unter "Byte Order Mark (BOM) in die Dateien schreiben" ein, ob die Dateien eine Byte Order Mark bekommen sollen oder nicht.
Stellen Sie in den Speicheroptionen unten rechts ein, ob Sie die Dateien überschreiben oder unter einem neuen Namen als neue Dateien abspeichern möchten.
Klicken Sie auf den Button "Konvertieren".

Die Dateiliste im TextEncoder enthält eine Spalte "BOM". Hier können Sie ablesen, ob Ihre hinzugefügten Dateien aktuell eine Byte Order Mark haben oder nicht.