首頁 > 後端開發 > Golang > 如何在Go中讀取非UTF-8編碼的文字檔案(例如GBK)?

如何在Go中讀取非UTF-8編碼的文字檔案(例如GBK)?

Susan Sarandon
發布: 2024-12-01 12:37:16
原創
668 人瀏覽過

How to Read Non-UTF-8 Encoded Text Files (e.g., GBK) in Go?

在Go 中讀取非UTF-8 文字檔案

在Go 中讀取和寫入非UTF-8 文字檔案可能具有挑戰性,因為標準庫採用UTF-8 編碼。本文解決了這個問題,並提供了使用 Go 子儲存庫的全面解決方案。

問題:

我們如何讀取以非 UTF-8 格式編碼的文字文件,如GBK,在去嗎?

解決方案:

要讀取非 UTF-8 編碼的文件,我們使用 golang.org/x/text/encoding 套件。這個包定義了一個通用字元編碼的接口,方便與 UTF-8 之間的轉換。

特別是,對於 GBK 編碼,我們使用 golang.org/x/text/encoding/simplifiedchinese 子包,提供GB18030、GBK、HZ-GB2312編碼實作。這些實作實現了encoding.Encoding介面。

實作:

這裡有一個範例,示範GBK編碼的讀寫檔案:

package main

import (
    "bufio"
    "fmt"
    "log"
    "os"

    "golang.org/x/text/encoding/simplifiedchinese"
    "golang.org/x/text/transform"
)

var enc = simplifiedchinese.GBK

func main() {
    // Example filename
    const filename = "example_GBK_file"

    exampleWriteGBK(filename)
    exampleReadGBK(filename)
}

func exampleReadGBK(filename string) {
    f, err := os.Open(filename)
    if err != nil {
        log.Fatal(err)
    }

    // Convert GBK to UTF-8 on the fly
    r := transform.NewReader(f, enc.NewDecoder())

    sc := bufio.NewScanner(r)
    for sc.Scan() {
        fmt.Printf("Read line: %s\n", sc.Bytes())
    }
    if err := sc.Err(); err != nil {
        log.Fatal(err)
    }
}

func exampleWriteGBK(filename string) {
    f, err := os.Create(filename)
    if err != nil {
        log.Fatal(err)
    }

    w := transform.NewWriter(f, enc.NewEncoder())

    // Example text with Chinese characters
    _, err = fmt.Fprintln(w,
        `In 1995, China National Information Technology Standardization
Technical Committee set down the Chinese Internal Code Specification
(Chinese: 汉字内码扩展规范(GBK); pinyin: Hànzì Nèimǎ
Kuòzhǎn Guīfàn (GBK)), Version 1.0, known as GBK 1.0, which is a
slight extension of Codepage 936. The newly added 95 characters were not
found in GB 13000.1-1993, and were provisionally assigned Unicode PUA
code points.`)
    if err != nil {
        log.Fatal(err)
    }
}
登入後複製

遊樂場:

https://go.dev/play/p/fFIy9VES6cL

以上是如何在Go中讀取非UTF-8編碼的文字檔案(例如GBK)?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

來源:php.cn
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
作者最新文章
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板