BOM(바이트 순서 표시)을 사용하여 파일 인코딩을 정확하게 식별
StreamReader.CurrentEncoding
방법은 항상 파일 인코딩 정보를 안정적으로 제공하는 것은 아니며, 파일의 BOM(바이트 순서 표시)을 분석하는 것이 인코딩을 식별하는 정확하고 효율적인 방법입니다. BOM 시퀀스(있는 경우)는 인코딩 형식을 나타낼 수 있습니다.
다음 코드 조각에서는 파일의 BOM을 기반으로 텍스트 파일의 인코딩을 결정하는 GetEncoding
이라는 메서드를 소개합니다. BOM 감지에 실패하면 기본값은 ASCII입니다.
<code class="language-csharp">public static Encoding GetEncoding(string filename) { // 读取 BOM var bom = new byte[4]; using (var file = new FileStream(filename, FileMode.Open, FileAccess.Read)) { file.Read(bom, 0, 4); } // 分析 BOM if (bom[0] == 0x2b && bom[1] == 0x2f && bom[2] == 0x76) return Encoding.UTF7; if (bom[0] == 0xef && bom[1] == 0xbb && bom[2] == 0xbf) return Encoding.UTF8; if (bom[0] == 0xff && bom[1] == 0xfe && bom[2] == 0 && bom[3] == 0) return Encoding.UTF32; //UTF-32LE if (bom[0] == 0xff && bom[1] == 0xfe) return Encoding.Unicode; //UTF-16LE if (bom[0] == 0xfe && bom[1] == 0xff) return Encoding.BigEndianUnicode; //UTF-16BE if (bom[0] == 0 && bom[1] == 0 && bom[2] == 0xfe && bom[3] == 0xff) return new UTF32Encoding(true, true); //UTF-32BE // BOM 检测失败时,默认为 ASCII return Encoding.ASCII; }</code>
이 방법을 사용하면 파일의 인코딩을 정확하게 식별할 수 있어 정확한 텍스트 해석 및 조작이 가능합니다.
위 내용은 BOM(바이트 순서 표시)을 사용하여 파일의 인코딩을 정확하게 식별하려면 어떻게 해야 합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!