TextKonverter | Unterstützte Formate

Unterstützte Formate

Mit dem TextKonverter können beliebige Texte und Textdateien unabhängig von deren Format bearbeitet werden. Also zum Beispiel Plain-Text-Dateien, die typischerweise die Dateiendung TXT haben, CSV-Dateien, die typischerweise eine der Dateiendungen CSV oder TSV haben, Dateien in XML basierten Formaten, die zum Beispiel die Dateiendungen XML, XHTML, HTML, HTM, RSS oder SVG haben können, Sourcecode-Dateien wie beispielsweise PHP, JS, BAT, CMD, SH, VBS, C, CPP, CS, PAS, PY oder R sowie beliebige andere Textformate wie beispielsweise JSON, SQL, DIF, CSS oder INI - nur um eine Auswahl zu nennen.

PDF-Dokumente oder Office-Dokumente wie beispielsweise Microsoft Word Dokumente (DOC, DOCX), Microsoft Excel Spreadsheets (XLS, XLSX) oder andere Office-Dateien wie ODT, ODS, PPT oder PPTX können mit dem TextKonverter dagegen nicht bearbeitet werden, da diese Formate intern keine Textdateien sind. Jedoch ist es möglich Textdateien und CSV-Dateien mit dem TextKonverter in die Formate DOCX, ODT, XLSX, ODS sowie als Bild (JPG, PNG, BMP) zu exportieren.

Zur Bearbeitung von Texten und Textdateien bietet der TextKonverter zahlreiche Aktionen an. Mit den Aktionen zur Bearbeitung des gesamten Textes und mit den Aktionen für die zeilenweise Bearbeitung von Texten können alle Texte und Textdateien beliebiger Formate bearbeitet werden. Darüber hinaus stellt der TextKonverter einige formatsspezifische Aktionen für die Bearbeitung von CSV-Dateien und die Bearbeitung von XML-Dateien zur Verfügung.

Unabhängig vom Format einer Textdatei kann eine Textdatei in verschiedenen Kodierungen und unter Verwendung verschiedener Zeilenumbruchtypen gespeichert sein. In den beiden nachfolgenden Tabellen erfahren Sie, welche Kodierungen und Zeilenumbruchtypen der TextKonverter unterstützt.

Kodierungen

In der folgenden Tabelle sehen Sie eine Übersicht über alle vom TextKonverter unterstützten Kodierungen. Diese Kodierungen können vom TextKonverter gelesen, geschrieben und geändert werden.

Wenn Sie den TextKonverter in seinen Grundeinstellungen verwenden - also ohne irgendwelche Einstellungen zu ändern - wird der TextKonverter versuchen, die Kodierung einer Datei automatisch zu ermitteln. Diese Kodierung wird der TextKonverter dann auch für die Speicherung derselben Datei verwenden. Wenn Sie also nur den Inhalt einer Textdatei bearbeiten möchten (zum Beispiel durch Ersetzungen von Text), brauchen Sie sich um die Kodierungseinstellungen nicht zu kümmern.

Wenn Sie die Kodierung von Dateien ändern möchten oder Dateien unter Verwendung einer bestimmten Kodierung einlesen möchten, können Sie dafür die Einstellungen unter "Aktionen > Dateien > Kodierung" verwenden. Hier finden Sie neben den Optionen für das Lesen und Schreiben auch eine Option bezüglich der Frage, ob eine Byte Order Mark in die Datei hineingeschrieben werden soll oder nicht. Ob eine Kodierung Byte Order Marks ermöglicht, sehen Sie in der Spalte "BOM" in der Tabelle.

Auch wenn Sie den TextKonverter über die Kommandozeile oder ein Skript steuern, wird ohne Angabe einer expliziten Kodierung für das Einlesen oder für das Speichern der Datei die Kodierung beim Lesen automatisch ermittelt und auch wieder für das Schreiben verwendet. Wenn Sie von diesem Default-Verhalten abweichen möchten, können Sie dafür die Werte aus der Spalte "Parameter" aus der Tabelle verwenden. Eine Einführung und Beispiele für die Verwendung der Parameter finden Sie im Artikel über die Skriptsteuerung des TextKonverters im Abschnitt Parameter für Kodierungen.

Kodierung	Beschreibung	BOM	Parameter
ASCII	7-Bit Kodierung mit 128 Zeichen (00 bis 7F)	nein	ascii
Latin-1	8-Bit Kodierung nach ISO 8859-1	nein	latin1
Latin-2	8-Bit Kodierung nach ISO 8859-2	nein	latin2
WIN-ANSI	Sprachabhängige ANSI Codepage Ihrer Windows-Installation	nein	win-ansi
WIN-1250	Windows Codepage 1250 (Mitteleuropäisch)	nein	win-1250
WIN-1251	Windows Codepage 1251 (Kyrillisch)	nein	win-1251
WIN-1252	Windows Codepage 1252 (Westeuropäisch)	nein	win-1252
WIN-1253	Windows Codepage 1253 (Griechisch)	nein	win-1253
CP437	Code Page 437 (CP437, IBM437, OEM-US)	nein	cp437
UTF-7	Für die Verwendung von Unicode in nicht 8-Bit festen Umgebungen	ja	utf7
UTF-8	Unicode-Kodierung mit variablen 1 bis 4 Byte pro Zeichen	ja	utf8
UTF-16 LE	Unicode-Kodierung mit variablen 2 oder 4 Byte pro Zeichen, Little Endian	ja	utf16le
UTF-16 BE	Unicode-Kodierung mit variablen 2 oder 4 Byte pro Zeichen, Big Endian	ja	utf16be
UTF-32 LE	Unicode-Kodierung mit festen 4 Byte pro Zeichen, Little Endian	ja	utf32le
UTF-32 BE	Unicode-Kodierung mit festen 4 Byte pro Zeichen, Big Endian	ja	utf32be

Mehr über die jeweiligen Kodierungen und deren Unterschiede erfahren Sie in der Einführung in die Unicode-Textdateiformate.

Zeilenumbruchtypen

In der folgenden Tabelle sehen Sie eine Übersicht über alle vom TextKonverter angebotenen Zeilenumbruchtypen. Da der TextKonverter auch Zeilenumbrüche an benutzerdefinierten Zeichen und Codepoints unterstützt, sind Sie nicht an diese Auswahl gebunden sondern können auch Ihre eigenen Zeilenumbrüche an einem oder an mehreren Zeichen oder Codepoints definieren und verwenden.

Wird der TextKonverter verwendet ohne explizit einen Zeilenumbruchtyp für das Lesen oder für das Schreiben zu definieren, wird der TextKonverter in seinen Grundeinstellungen versuchen, den Zeilenumbruchtyp einer Datei oder eines Textes automatisch zu ermitteln. Dieser Zeilenumbruchtyp wird dann auch für die Speicherung der Datei wiederverwendet. Möchten Sie den Zeilenumbruchtyp einer Datei ändern oder Dateien unter Verwendung eines bestimmten Zeilenumbruchs einlesen, können Sie dafür die Einstellungen unter "Aktionen > Dateien > Zeilenumbruchtyp" verwenden.

Wenn Sie den Zeilenumbruchtyp von Dateien über ein Skript oder über die Kommandozeile mit dem TextKonverter ändern möchten oder einen bestimmten Zeilenumbruchtyp für das Lesen von Dateien verwenden möchten, können Sie dafür die Werte aus der Spalte "Parameter" verwenden. Wie Sie den TextKonverter mit Parametern für den Zeilenumbruchtyp im Batch Modus steuern können, erfahren Sie im Artikel über die Scriptsteuerung des TextKonverters im Abschnitt Parameter für den Zeilenumbruchtyp.

Zeilenumbruch	System / Bezeichnung	Code Point	Parameter
CRLF	Windows, DOS, OS/2, CP/M, Symbian, Palm, Atari	U+000D + U+000A	crlf
LF	Unix, Linux, macOS, Mac OS X, Android, AmigaOS, BSD	U+000A	lf
CR	Classic Mac OS, Apple II, Commodore C64, OS-9	U+000D	cr
NL	EBCDIC New Line - IBM Mainframe Systems	U+0015	nl
RNL	EBCDIC Require New Line	U+0006	rnl
LF	EBCDIC Line Feed	U+0025	lf_ebcdic
EOL	ATASCII End Of Line	U+009B	eol
GS	Group Separator	U+001D	gs
RS	Record Separator	U+001E	rs
US	Unit Separator	U+001F	us
FF	Unicode Form Feed	U+000C	ff
NEL	Unicode Next Line	U+0085	nel
LS	Unicode Line Separator	U+2028	ls
PS	Unicode Paragraph Separator	U+2029	ps
VT	Vertical Tab	U+000B	vt
TAB	Horizontal Tab	U+0009	tab
FIXED	Fixe Zeilenlänge mit x Zeichen	-	fixedlength-x
NOCHAR	Kein Zeichen	-	nochar
-	Zeilenumbruch am Zeichen x	-	customstr-x
-	Zeilenumbruch am Codepoint x	-	customcp-x
-	Zeilenumbruch an einem der Zeichen x, y oder z	-	customstrs-x,y,z
-	Zeilenumbruch an einem der Codepoints x, y oder z	-	customcps-x,y,z

Mehr über die unterschiedlichen Arten von Zeilenumbrüchen erfahren Sie im Artikel über Zeilenumbrüche.

Benutzerdefinierte Zeilenumbrüche

Wenn Sie im TextKonverter mit Zeilenaktionen arbeiten oder den Zeilenumbruchtyp von Dateien oder Texten ändern möchten, sind Sie nicht auf die in der Tabelle gezeigten Zeilenumbruchtypen beschränkt. Es handelt sich bei dieser Auswahl lediglich um die voreingestellten Zeilenumbruchtypen, die Sie in der Auswahlliste im TextKonverter direkt auswählen können.

Um einen beliebigen benutzerdefinierten Zeilenumbruch an einem oder mehreren beliebigen Zeichen oder Codepoints zu definieren, können Sie im Bereich "Aktionen > Dateien > Zeilenumbruchtyp > Einlesen als" oder "Aktionen > Dateien > Zeilenumbruchtyp > Speichern als" entweder "Benutzerdefiniertes Zeichen" oder "Benutzerdefinierter Codepoint" aus der Liste auswählen - je nachdem ob Sie den Zeilenumbruch für das Lesen und/oder Schreiben als Zeichen oder als Codepoint angeben möchten. Nach dieser Auswahl erscheint ein Eingabefeld, in das Sie Ihren gewünschten Zeilenumbruch schreiben können.

Wenn Sie "Benutzerdefiniertes Zeichen" auswählen, können Sie in das Eingabefeld direkt das oder die Zeichen eintragen, die beim Lesen oder Schreiben als Zeilenumbruch interpretiert werden sollen. Also zum Beispiel "|" oder "--".

Wenn Sie "Benutzerdefinierter Codepoint" auswählen, haben Sie die Möglichkeit, Ihren Zeilenumbruch in Form eines oder mehrerer Codepoints einzugeben. Dies hat den Vorteil gegenüber der Angabe als Zeichen, dass Sie auch unsichtbare oder nicht darstellbare Zeichen problemlos angeben können. Codepoints können entweder hexadezimal, dezimal oder in der Form U+X geschrieben werden. Um den Windows-Zeilenumbruch CR LF als benutzerdefinierten Codepoint zu definieren könnten Sie also zum Beispiel die Formate "#0D#0A" (hexadezimal), "13 10" (dezimal), "U+0D U+0A" oder "U+000D U+000A" verwenden.

Falls Sie den TextKonverter über die Kommandozeile oder ein Skript steuern, lassen sich die benutzerdefinierten Zeilenumbrüche über die Parameter customstr-x und customcp-x übergeben. Mit customstr-x können Sie Zeichen übergeben und mit customcp-x Codepoints, wobei das x für die jeweiligen Zeichen oder Codepoints steht. Also zum Beispiel customstr-ab (Zeilenumbruch an der Zeichenkette "ab") oder customcp-#0D#0A (Zeilenumbruch am Windows-Zeilenumbruch CR LF definiert durch die Codepoints #0D#0A in hexadezimaler Notation). Weitere Beispiele für die Verwendung der Parameter für benutzerdefinierte Zeilenumbrüche finden Sie im Tutorial zur Skriptsteuerung des TextEncoders im Abschnitt "Benutzerdefinierte Zeichen für Zeilenumbrüche". Auch wenn dieses Tutorial vom TextEncoder handelt, können Sie die dort gezeigten Beispiele auch für den TextKonverter verwenden.

Zeilen mit fixer Zeilenlänge

Neben den Zeilenumbrüchen an einem oder an mehreren Zeichen unterstützt der TextKonverter auch das Einlesen und Speichern von Texten und Textdateien mit fixer Zeilenlänge. Das heißt, das Ende einer Zeile ist nicht durch ein bestimmtes Zeichen oder einen bestimmten Codepoint definiert sondern durch eine festgelegte Anzahl von Zeichen. Zum Beispiel durch die Definition dass eine Zeile immer aus 10 Zeichen besteht.

Im TextKonverter können Sie unter "Aktionen > Dateien > Zeilenumbruchtyp > Einlesen als" die Option "Zeilenumbruch nach dieser Anzahl von Zeichen (Feste Zeilenlänge)" wählen und Ihre gewünschte Anzahl von Zeichen eingeben. Unter "Speichern als" können Sie "Kein Zeichen" auswählen, wenn Sie diese Art von Zeilenumbruch beibehalten möchten. Wenn nicht, wählen Sie hier einfach einen anderen Zeilenumbruchtyp, um den Zeilenumbruchtyp Ihres Textes zu ändern.

Eine ausführlichere Erklärung für das Arbeiten mit Dateien mit einer fixen Zeilenlänge finden Sie im Tutorial über das Umschreiben von Textdateien mit fester Zeilenlänge. Dieses Tutorial dreht sich zwar um den TextEncoder, Sie können aber alles auch genauso für den TextKonverter verwenden.

Zeilenumbrüche an mehreren Zeichen

Typischerweise werden Zeilenumbrüche durch ein einziges festes Zeichen beziehungsweise durch einen einzigen festen String definiert. Also zum Beispiel durch das feste Zeichen LF (Unix, Linux, macOS) oder die feste Zeichenkette CR LF (Windows). Dieser Zeilenumbruch bleibt über die gesamte Datei oder den gesamten Text konstant und kein anderes Zeichen wird als Zeilenumbruch interpretiert.

Mit dem TextKonverter können Sie jedoch von dieser starren Regel abweichen und auch mehrere Zeichen oder Zeichenketten definieren, die unabhängig voneinander als Zeilenumbruch interpretiert werden. Also zum Beispiel sowohl CR LF als auch LF. Nützlich kann diese Funktion zum Beispiel dann sein, wenn Textdateien verschiedener Systeme in eine Datei hinein kopiert wurden und diese Datei nun repariert werden soll. Das heißt der TextKonverter könnte an dieser Stelle dazu benutzt werden, die Datei unter Berücksichtigung beider Zeilenumbruchtypen einzulesen und die Datei anschließend mit einem festen einheitlichen Zeilenumbruchtyp abzuspeichern.

Wenn Sie den TextKonverter über die grafische Benutzeroberfläche verwenden und Zeilenumbrüche an mehreren Zeichen definieren möchten, gehen Sie auf "Aktionen > Dateien > Zeilenumbruchtyp > Einlesen als" und wählen Sie entweder "Zeilenumbruch an jedem dieser Zeichen (kommagetrennt)" oder "Zeilenumbruch an jedem dieser Codepoints (kommagetrennt)". Diese beiden Optionen bieten die Möglichkeit, mehrere Zeichen als Zeilenumbruch entweder direkt über die Zeichen oder in Form von Codepoints zu definieren. Die einzelnen Zeichen sind mit einem Komma zu trennen. Also zum Beispiel "a,bc" für einen Zeilenumbruch sowohl an jedem "a" als auch an jedem "bc" im Text. Wenn Sie das Komma selbst als Zeilenumbruch verwenden möchten, können Sie dieses in Anführungszeichen setzen, also zum Beispiel "",",." für einen Zeilenumbruch an jedem Komma und jedem Punkt in der Datei. Codepoints können in den Formaten hexadezimal ("#0D#0A"), dezimal ("13 10") oder in der Form U+X ("U+0D U+0A" oder "U+000D U+000A") angegeben werden.

Wenn Sie den Textkonverter über die Kommandozeile oder über ein Skript steuern, können Sie die Parameter customstrs-x und customcps-x für Zeilenumbrüche an mehreren Zeichen verwenden. Das x ist durch die gewünschten Zeilenumbrüche zu ersetzen, also zum Beispiel customstrs-a,bc und customcps-#0D#0A für die beiden zuvor genannten Beispiele. Im Tutorial über die Scriptsteuerung des TextEncoders im Abschnitt "Zeilenumbruch an mehreren Zeichen" finden Sie weitere Erläuterungen und Beispiele für die Anwendung der Parameter customstrs-x und customcps-x. Alles in diesem Tutorial genannte gilt auch für den TextKonverter.

Weitere Informationen und Beispiele zu dem Thema erhalten Sie darüber hinaus auch in dem AskingBox-Tutorial "Textdateien mit gemischten Zeilenumbrüchen reparieren". Die dortigen Beispiele beziehen sich zwar abermals auf den TextEncoder, können aber wieder genauso auch mit dem TextKonverter angewendet werden.