Heim > Backend-Entwicklung > Golang > Wie entferne ich ungültige UTF-8-Zeichen aus Zeichenfolgen in Go?

Wie entferne ich ungültige UTF-8-Zeichen aus Zeichenfolgen in Go?

Patricia Arquette
Freigeben: 2024-12-16 21:02:11
Original
524 Leute haben es durchsucht

How to Remove Invalid UTF-8 Characters from Strings in Go?

Ungültige UTF-8-Zeichen aus Zeichenfolgen in Go entfernen

Beim Versuch, eine Liste von Zeichenfolgen mit json.Marshal zu marshalieren, ist dies möglich Es tritt ein Fehler auf, der auf das Vorhandensein ungültiger UTF-8-Zeichen hinweist. Dieser Artikel befasst sich mit diesem Problem und bietet Lösungen zum Entfernen oder Ersetzen solcher Zeichen in Go.

In Python bietet das Unicode-Modul Methoden wie unicode.replace und unicode.strict zur Behandlung ungültiger Zeichen. Allerdings gibt es für Go keine direkten Entsprechungen. Stattdessen basiert es auf einem anderen Ansatz:

Verwendung von strings.ToValidUTF8 in Go 1.13

Um ungültige UTF-8-Zeichen aus einem String zu entfernen, können Sie die Strings verwenden .ToValidUTF8-Funktion eingeführt in Go 1.13. Es benötigt zwei Parameter: die Eingabezeichenfolge und ein Ersatzzeichen für ungültige Bytes. Wenn das Ersatzzeichen eine leere Zeichenfolge ist, werden ungültige Bytes stillschweigend entfernt:

invalidString := "a\xc5z"
validString := strings.ToValidUTF8(invalidString, "")
// validString will now be "az"
Nach dem Login kopieren

Verwendung von strings.Map und utf8.RuneError in Go 1.11

Eine Alternative Die Lösung besteht darin, strings.Map zusammen mit utf8.RuneError zu verwenden. strings.Map wendet eine Funktion auf jede Rune in einer Zeichenfolge an, während utf8.RuneError ein ungültiges UTF-8-Zeichen darstellt. Hier ist ein Beispiel:

invalidString := "a\xc5z"

fixUtf := func(r rune) rune {
    if r == utf8.RuneError {
        return -1 // Replace invalid characters with -1
    }
    return r
}

validString := strings.Map(fixUtf, invalidString)
fmt.Println(validString) // Output: "az"
Nach dem Login kopieren

Das obige ist der detaillierte Inhalt vonWie entferne ich ungültige UTF-8-Zeichen aus Zeichenfolgen in Go?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Quelle:php.cn
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Neueste Artikel des Autors
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage