Go에서 잘못된 바이트 시퀀스 유효성 검사
Go에서 바이트 슬라이스([]byte)를 문자열로 변환하려고 하면 바이트 시퀀스를 유효한 유니코드로 변환할 수 없는 시나리오를 처리하는 데 중요합니다. 문자열.
해결책:
1. UTF-8 유효성 검사:
Tim Cooper가 제안한 대로 utf8.Valid 함수를 활용하여 바이트 슬라이스가 유효한 UTF-8 시퀀스인지 확인할 수 있습니다. utf8.Valid가 false를 반환하면 잘못된 바이트가 있음을 나타냅니다.
2. 비UTF-8 바이트 처리:
일반적인 믿음과는 달리 비UTF-8 바이트도 여전히 Go 문자열에 저장될 수 있습니다. 이는 Go의 문자열이 본질적으로 읽기 전용 바이트 슬라이스이기 때문입니다. 여기에는 유효하지 않은 UTF-8 바이트가 포함될 수 있으며, 이는 문제 없이 액세스하거나 인쇄하거나 바이트 슬라이스로 다시 변환할 수도 있습니다.
그러나 Go는 특정 시나리오에서 UTF-8 디코딩을 수행합니다.
참고: 이러한 변환은 결코 패닉을 일으키지 않으므로 애플리케이션에 필수적인 경우에만 UTF-8 유효성을 적극적으로 확인하면 됩니다(예: U FFFD는 허용되지 않으며 오류가 발생해야 합니다.
샘플 코드:
다음 코드는 Go가 잘못된 UTF-8이 포함된 바이트 슬라이스를 처리하는 방법을 보여줍니다.
package main import "fmt" func main() { a := []byte{0xff} // Invalid UTF-8 byte s := string(a) fmt.Println(s) // � for _, r := range s { // Range loop replaces invalid UTF-8 with U+FFFD fmt.Println(r) // 65533 } rs := []rune(s) // Conversion to runes decodes UTF-8 (U+FFFD) fmt.Println(rs) // [65533] }
위 내용은 Go는 문자열로 변환할 때 잘못된 바이트 시퀀스를 어떻게 처리합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!