Go의 문자열에서 잘못된 UTF-8 문자 제거
json.Marshal을 사용하여 문자열 목록을 마샬링하려고 할 때 다음이 가능합니다. 잘못된 UTF-8 문자가 있음을 나타내는 오류가 발생합니다. 이 문서에서는 이 문제를 다루고 Go에서 이러한 문자를 제거하거나 바꾸는 솔루션을 제공합니다.
Python에서 유니코드 모듈은 유효하지 않은 문자를 처리하기 위해 unicode.replace 및 unicode.strict와 같은 메서드를 제공합니다. 그러나 Go에는 직접적으로 동등한 기능이 없습니다. 대신 다른 접근 방식을 사용합니다.
Go 1.13에서 strings.ToValidUTF8 사용
문자열에서 잘못된 UTF-8 문자를 제거하려면 다음 문자열을 사용할 수 있습니다. .ToValidUTF8 기능은 Go 1.13에 도입되었습니다. 입력 문자열과 유효하지 않은 바이트에 사용할 대체 문자라는 두 가지 매개변수를 사용합니다. 대체 문자가 빈 문자열인 경우 유효하지 않은 바이트는 자동으로 제거됩니다.
invalidString := "a\xc5z" validString := strings.ToValidUTF8(invalidString, "") // validString will now be "az"
Go 1.11에서 strings.Map 및 utf8.RuneError 사용
대안 해결책은 utf8.RuneError와 함께 strings.Map을 사용하는 것입니다. strings.Map은 문자열의 각 룬에 함수를 적용하는 반면, utf8.RuneError는 잘못된 UTF-8 문자를 나타냅니다. 예는 다음과 같습니다.
invalidString := "a\xc5z" fixUtf := func(r rune) rune { if r == utf8.RuneError { return -1 // Replace invalid characters with -1 } return r } validString := strings.Map(fixUtf, invalidString) fmt.Println(validString) // Output: "az"
위 내용은 Go의 문자열에서 잘못된 UTF-8 문자를 제거하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!