Wie gehe ich mit Stücklistenmarkierungen in UTF-8-kodierten Dateien um?-javaLernprogramm-php.cn

Wie gehe ich mit Stücklistenmarkierungen in UTF-8-kodierten Dateien um?

Barbara Streisand

Freigeben： 2024-11-19 04:47:02

Original

649 Leute haben es durchsucht

How to Handle BOM Markers in UTF-8 Encoded Files?

BOM-Markierung in UTF-8-codierten Dateien

Beim Lesen einer UTF-8-codierten Datei mit einer BOM (Byte Order Mark) kann die BOM-Markierung unbeabsichtigt enthalten sein in der Ausgabezeichenfolge. Um dieses Problem zu beheben, führen Sie die folgenden Schritte aus:

FileReader fr = new FileReader(file);
BufferedReader br = new BufferedReader(fr);
String tmp = null;
String content = "";

while ((tmp = br.readLine()) != null) {
    String text;
    if (tmp.startsWith("\uFEFF")) {
        // Skipping the BOM marker
        text = tmp.substring(1);
    } else {
        text = tmp;
    }

    content += text + System.getProperty("line.separator");
}

Nach dem Login kopieren

In diesem aktualisierten Code:

Wir verwenden String.startsWith("uFEFF"), um zu überprüfen, ob die aktuelle Zeile mit dem beginnt Stücklistenmarkierung.
Wenn dies der Fall ist, entfernen wir die Stücklistenmarkierung mithilfe von String.substring(1).
Wenn dies nicht der Fall ist, verwenden wir die ursprüngliche Zeile wie sie ist.
Wir hängen dann die geänderte Zeile an die Inhaltszeichenfolge an.

Indem wir die Stücklistenmarkierung entfernen, bevor wir sie an die Ausgabezeichenfolge anhängen, können wir verhindern, dass sie im Endergebnis erscheint.

Das obige ist der detaillierte Inhalt vonWie gehe ich mit Stücklistenmarkierungen in UTF-8-kodierten Dateien um?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!