Ungültige UTF-8-Zeichen aus Zeichenfolgen in Go entfernen
Beim Versuch, eine Liste von Zeichenfolgen mit json.Marshal zu marshalieren, ist dies möglich Es tritt ein Fehler auf, der auf das Vorhandensein ungültiger UTF-8-Zeichen hinweist. Dieser Artikel befasst sich mit diesem Problem und bietet Lösungen zum Entfernen oder Ersetzen solcher Zeichen in Go.
In Python bietet das Unicode-Modul Methoden wie unicode.replace und unicode.strict zur Behandlung ungültiger Zeichen. Allerdings gibt es für Go keine direkten Entsprechungen. Stattdessen basiert es auf einem anderen Ansatz:
Verwendung von strings.ToValidUTF8 in Go 1.13
Um ungültige UTF-8-Zeichen aus einem String zu entfernen, können Sie die Strings verwenden .ToValidUTF8-Funktion eingeführt in Go 1.13. Es benötigt zwei Parameter: die Eingabezeichenfolge und ein Ersatzzeichen für ungültige Bytes. Wenn das Ersatzzeichen eine leere Zeichenfolge ist, werden ungültige Bytes stillschweigend entfernt:
invalidString := "a\xc5z" validString := strings.ToValidUTF8(invalidString, "") // validString will now be "az"
Verwendung von strings.Map und utf8.RuneError in Go 1.11
Eine Alternative Die Lösung besteht darin, strings.Map zusammen mit utf8.RuneError zu verwenden. strings.Map wendet eine Funktion auf jede Rune in einer Zeichenfolge an, während utf8.RuneError ein ungültiges UTF-8-Zeichen darstellt. Hier ist ein Beispiel:
invalidString := "a\xc5z" fixUtf := func(r rune) rune { if r == utf8.RuneError { return -1 // Replace invalid characters with -1 } return r } validString := strings.Map(fixUtf, invalidString) fmt.Println(validString) // Output: "az"
Das obige ist der detaillierte Inhalt vonWie entferne ich ungültige UTF-8-Zeichen aus Zeichenfolgen in Go?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!