Unicode

UTF-7

UTF-7 ist eine Kodierung, die sich zum Kodieren von Unicode Zeichen lediglich der ASCII Zeichen bedient. Damit hat diese Kodierung den Vorteil, dass auch in Umgebungen, Editoren oder Betriebssystemen, die nur 7-Bit ASCII verstehen, Unicode Zeichen dargestellt und übertragen werden können.

Zum Beispiel erlauben einige Protokolle im Internet wie beispielsweise SMTP für E-Mails nur die 128 Zeichen im Bereich von ASCII, alle anderen größeren Bytes sind nicht erlaubt. Alle anderen UTF-Kodierungen verwenden mindestens 8 Bit, so dass diese für derartige Zwecke nicht zu gebrauchen sind.

Die Zeichen A bis Z, a bis z und die Sonderzeichen '(),./:?- bleiben bei der Kodierung so wie sie sind. Damit bleiben Texte, die überwiegend aus ASCII Buchstaben stehen weitestgehend lesbar. Die ASCII Zeichen !"#$%&*;<=>@[]^_`{|} können auch so stehen bleiben, wie sie sind, sollten aber kodiert werden, da sie eventuell nicht von allen Programmen so verstanden werden. Alle anderen Zeichen werden kodiert und ebenfalls in ASCII Zeichen umgewandelt. Das Zeichen + markiert den Beginn einer derartigen Kodierung, das - Zeichen oder jedes andere nicht durch die Kodierung auftretbare Zeichen das Ende.

Das deutsche Wort Käse würde beispielsweise kodiert K+AOQ-se lauten. Die normalen ASCII Zeichen K, s und e blieben stehen, während das ä als AOQ in anderen ASCII Zeichen kodiert würde. Anfang und Ende dieser Kodierung sind mit - und + markiert.

Obwohl UTF-7 eine große Kodierungseffizienz aufzuweisen hat, konnte es sich nicht durchsetzen, da die Kodierung und Encodierung vergleichsweise umständlich ist, in der Regel Kodierungen wie UTF-8 verstanden werden und fast immer auch die 7-Bit Beschränkung keine große Rolle spielt.