利用位元組順序標記 (BOM) 精確確定檔案編碼
準確確定文件編碼對於確保跨平台的資料準確性和相容性至關重要。這可能具有挑戰性,特別是對於Notepad 等模糊或不可靠的方法。
一種高度精確的識別文件編碼的方法是分析文件的位元組順序標記 (BOM)。 BOM 是一個特定的位元組序列,用於指示文字檔案的編碼。
使用程式語言,我們可以從文字檔案中取得 BOM 並分析它以確定其編碼。如果檔案具有 BOM,則此方法可以準確識別編碼。例如,以下 C# 程式碼:
<code class="language-csharp">public static Encoding GetEncoding(string filename) { // 读取 BOM var bom = new byte[4]; using (var file = new FileStream(filename, FileMode.Open, FileAccess.Read)) { file.Read(bom, 0, 4); } // 分析 BOM if (bom[0] == 0x2b && bom[1] == 0x2f && bom[2] == 0x76) return Encoding.UTF7; if (bom[0] == 0xef && bom[1] == 0xbb && bom[2] == 0xbf) return Encoding.UTF8; if (bom[0] == 0xff && bom[1] == 0xfe && bom[2] == 0 && bom[3] == 0) return Encoding.UTF32; //UTF-32LE if (bom[0] == 0xff && bom[1] == 0xfe) return Encoding.Unicode; //UTF-16LE if (bom[0] == 0xfe && bom[1] == 0xff) return Encoding.BigEndianUnicode; //UTF-16BE if (bom[0] == 0 && bom[1] == 0 && bom[2] == 0xfe && bom[3] == 0xff) return new UTF32Encoding(true, true); //UTF-32BE // 如果未找到 BOM,则默认为 ASCII return Encoding.ASCII; }</code>
此方法提供了一種清晰簡潔的方法,可以根據 BOM 準確確定文件編碼,並且是 StreamReader.CurrentEncoding 等不可靠方法的可靠替代方案。
注意: 我替換了原始圖片連結為一個佔位符 https://img.php.cn/upload/article/000/000/000/173704903131676.jpg
。你需要將這個佔位符替換為你實際的圖片連結。 因為我無法存取外部網站,所以無法直接取得圖片並保持其原始格式。
以上是如何使用位元組順序標記(BOM)精確確定檔案的編碼?的詳細內容。更多資訊請關注PHP中文網其他相關文章!