Unterstützte Formate
Mit dem TextEncoder können Sie sowohl die Kodierung als auch den Typ des verwendeten Zeilenumbruchs von Textdateien ändern. Auf dieser Seite haben wir für Sie zusammengestellt, welche Kodierungen und Zeilenumbrüche der TextEncoder lesen, schreiben und ändern kann.
Kodierungen
Die folgenden Kodierungen können mit dem TextEncoder gelesen und geschrieben werden. In der Spalte "BOM" sehen Sie, ob die Kodierung eine Byte Order Mark unterstützt. In der Spalte Parameter sehen Sie, welchen Parameter Sie in der Batch Version verwenden können, um Dateien über ein Skript in das entsprechende Format zu konvertieren.
Kodierung | Beschreibung | BOM | Parameter |
ASCII | 7-Bit Kodierung mit 128 Zeichen (00 bis 7F) | nein | ascii |
Latin-1 | 8-Bit Kodierung nach ISO 8859-1 | nein | latin1 |
Latin-2 | 8-Bit Kodierung nach ISO 8859-2 | nein | latin2 |
WIN-ANSI | Sprachabhängige ANSI Codepage Ihrer Windows-Installation | nein | win-ansi |
WIN-1250 | Windows Codepage 1250 (Mitteleuropäisch) | nein | win-1250 |
WIN-1251 | Windows Codepage 1251 (Kyrillisch) | nein | win-1251 |
WIN-1252 | Windows Codepage 1252 (Westeuropäisch) | nein | win-1252 |
WIN-1253 | Windows Codepage 1253 (Griechisch) | nein | win-1253 |
CP437 | Code Page 437 (CP437, IBM437, OEM-US) | nein | cp437 |
UTF-7 | Für die Verwendung von Unicode in nicht 8-Bit festen Umgebungen | ja | utf7 |
UTF-8 | Unicode-Kodierung mit variablen 1 bis 4 Byte pro Zeichen | ja | utf8 |
UTF-16 LE | Unicode-Kodierung mit variablen 2 oder 4 Byte pro Zeichen, Little Endian | ja | utf16le |
UTF-16 BE | Unicode-Kodierung mit variablen 2 oder 4 Byte pro Zeichen, Big Endian | ja | utf16be |
UTF-32 LE | Unicode-Kodierung mit festen 4 Byte pro Zeichen, Little Endian | ja | utf32le |
UTF-32 BE | Unicode-Kodierung mit festen 4 Byte pro Zeichen, Big Endian | ja | utf32be |
In der Einführung zu Unicode-Textdateiformaten erfahren Sie mehr über die einzelnen Enkodierungen.
Zeilenumbrüche
Die folgenden Zeilenumbruch-Typen können mit dem TextEncoder gelesen und geschrieben werden. In der Spalte "Parameter" sehen Sie, welchen Parameter Sie in der Batch Version verwenden können, um den Zeilenumbruch von Dateien über ein Skript in den jeweiligen Typ zu ändern.
Zeilenumbruch | System / Bezeichnung | Code Point | Parameter |
CRLF | Windows, DOS, OS/2, CP/M, Symbian, Palm, Atari | U+000D + U+000A | crlf |
LF | Unix, Linux, macOS, Mac OS X, Android, AmigaOS, BSD | U+000A | lf |
CR | Classic Mac OS, Apple II, Commodore C64, OS-9 | U+000D | cr |
NL | EBCDIC New Line - IBM Mainframe Systems | U+0015 | nl |
RNL | EBCDIC Require New Line | U+0006 | rnl |
LF | EBCDIC Line Feed | U+0025 | lf_ebcdic |
EOL | ATASCII End Of Line | U+009B | eol |
GS | Group Separator | U+001D | gs |
RS | Record Separator | U+001E | rs |
US | Unit Separator | U+001F | us |
FF | Unicode Form Feed | U+000C | ff |
NEL | Unicode Next Line | U+0085 | nel |
LS | Unicode Line Separator | U+2028 | ls |
PS | Unicode Paragraph Separator | U+2029 | ps |
VT | Vertical Tab | U+000B | vt |
TAB | Horizontal Tab | U+0009 | tab |
FIXED | Fixe Zeilenlänge (x = Anzahl von Zeichen) | - | fixedlength-x |
NOCHAR | Kein Zeichen | - | nochar |
- | Zeilenumbruch am benutzerdefinierten Zeichen x | - | customstr-x |
- | Zeilenumbruch am benutzerdefinierten Codepoint x | - | customcp-x |
- | Zeilenumbruch an einem der Zeichen x, y oder z | - | customstrs-x,y,z |
- | Zeilenumbruch an einem der Codepoints x, y oder z | - | customcps-x,y,z |
In der Einführung zu Zeilenumbrüchen erfahren Sie mehr über die verschiedenen Arten von Zeilenumbrüchen. Außerdem empfehlen wir Ihnen das AskingBox-Tutorial über das Umschreiben von Textdateien mit fixer Zeilenlänge für die Zeilenumbruchtypen FIXED und NOCHAR.
Benutzerdefinierte Zeilenumbrüche
Neben den voreingestellten Zeilenumbruchtypen, die in der vorstehenden Tabelle aufgeführt sind, können auch beliebige benutzerdefinierte Zeichen und Zeichenketten als Zeilenumbruch verwendet werden. Diese Zeichen können als Text oder in Form von Codepoints im TextEncoder definiert werden. In der graphischen Benutzeroberfläche können Sie dafür unter "Einlesen als" und "Speichern als" die Optionen "Benutzerdefiniertes Zeichen" oder "Benutzerdefinierter Codepoint" nutzen und Ihre gewünschten Zeichen oder Codepoints in das Eingabefeld darunter eintragen. Codepoints können dabei in drei verschiedenen Arten angegeben werden: Hexadezimal (zum Beispiel #0D#0A), dezimal (zum Beispiel 13 10) oder in der Form U+X (zum Beispiel U+0D U+0A oder U+000D U+000A).
Bei einer Steuerung des TextEncoders über die Kommandozeile können Sie die Parameter customstr-x und customcp-x für benutzerdefinierte Zeilenumbrüche verwenden. Das x steht dabei für das oder die jeweiligen benutzerdefinierten Zeichen oder Codepoints, also zum Beispiel: customstr-a (Zeilenumbruchzeichen ist der Buchstaben a) oder customcp-#0D#0A (Zeilenumbruch an dem durch die Codepoints #0D#0A definierten String = Windows Zeilenumbruch CR LF).
Zeilenumbrüche an mehreren Zeichen
Für Zeilenumbrüche an mehreren Zeichen können die Optionen "Zeilenumbruch an jedem dieser Zeichen (kommagetrennt)" sowie "Zeilenumbruch an jedem dieser Codepoints (kommagetrennt)" beziehungsweise die Parameter customstrs-x und customcps-x genutzt werden.
Alle Zeichen, die als Zeilenumbruch interpretiert werden sollen, können mit einem Komma getrennt definiert werden. Also zum Beispiel "a,b" für Zeilenumbrüche sowohl an jedem "a" als auch an jedem "b". Ähnlich geht es bei der Steuerung über die Kommandozeile, also zum Beispiel customstrs-",",";" (Zeilenumbruch sowohl an jedem Komma als auch an jedem Semikolon) oder customcps-#0A,#0D (Zeilenumbruch an den Codepoints #0A oder #0D = LF oder CR gemischt).
Mehr Informationen über dieses Thema erhalten Sie in dem AskingBox-Tutorial über Textdateien mit gemischten Zeilenumbrüchen.