Go の文字列から無効な UTF-8 文字を削除する
json.Marshal を使用して文字列のリストをマーシャリングしようとすると、次のことが可能です。無効な UTF-8 文字の存在を示すエラーが発生します。この記事では、この問題に対処し、Go でそのような文字を削除または置換するための解決策を提供します。
Python では、unicode モジュールは、無効な文字を処理するための unicode.replace や unicode.strict などのメソッドを提供します。ただし、Go には直接相当するものはありません。代わりに、別のアプローチに依存しています。
Go 1.13 で strings.ToValidUTF8 を使用する
文字列から無効な UTF-8 文字を削除するには、次の文字列を使用できます。 Go 1.13 で導入された .ToValidUTF8 関数。これには、入力文字列と無効なバイトに使用する置換文字という 2 つのパラメータが必要です。置換文字が空の文字列の場合、無効なバイトはサイレントに削除されます。
invalidString := "a\xc5z" validString := strings.ToValidUTF8(invalidString, "") // validString will now be "az"
Go 1.11 での strings.Map と utf8.RuneError の使用
代替案解決策は、utf8.RuneError とともに strings.Map を使用することです。 strings.Map は文字列内の各ルーンに関数を適用しますが、utf8.RuneError は無効な UTF-8 文字を表します。以下に例を示します:
invalidString := "a\xc5z" fixUtf := func(r rune) rune { if r == utf8.RuneError { return -1 // Replace invalid characters with -1 } return r } validString := strings.Map(fixUtf, invalidString) fmt.Println(validString) // Output: "az"
以上がGo の文字列から無効な UTF-8 文字を削除するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。