ホームページ > バックエンド開発 > Golang > Go の文字列から無効な UTF-8 文字を削除するにはどうすればよいですか?

Go の文字列から無効な UTF-8 文字を削除するにはどうすればよいですか?

Patricia Arquette
リリース: 2024-12-16 21:02:11
オリジナル
522 人が閲覧しました

How to Remove Invalid UTF-8 Characters from Strings in Go?

Go の文字列から無効な UTF-8 文字を削除する

json.Marshal を使用して文字列のリストをマーシャリングしようとすると、次のことが可能です。無効な UTF-8 文字の存在を示すエラーが発生します。この記事では、この問題に対処し、Go でそのような文字を削除または置換するための解決策を提供します。

Python では、unicode モジュールは、無効な文字を処理するための unicode.replace や unicode.strict などのメソッドを提供します。ただし、Go には直接相当するものはありません。代わりに、別のアプローチに依存しています。

Go 1.13 で strings.ToValidUTF8 を使用する

文字列から無効な UTF-8 文字を削除するには、次の文字列を使用できます。 Go 1.13 で導入された .ToValidUTF8 関数。これには、入力文字列と無効なバイトに使用する置換文字という 2 つのパラメータが必要です。置換文字が空の文字列の場合、無効なバイトはサイレントに削除されます。

invalidString := "a\xc5z"
validString := strings.ToValidUTF8(invalidString, "")
// validString will now be "az"
ログイン後にコピー

Go 1.11 での strings.Map と utf8.RuneError の使用

代替案解決策は、utf8.RuneError とともに strings.Map を使用することです。 strings.Map は文字列内の各ルーンに関数を適用しますが、utf8.RuneError は無効な UTF-8 文字を表します。以下に例を示します:

invalidString := "a\xc5z"

fixUtf := func(r rune) rune {
    if r == utf8.RuneError {
        return -1 // Replace invalid characters with -1
    }
    return r
}

validString := strings.Map(fixUtf, invalidString)
fmt.Println(validString) // Output: "az"
ログイン後にコピー

以上がGo の文字列から無効な UTF-8 文字を削除するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ソース:php.cn
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
著者別の最新記事
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート