Java はテキスト ファイル (csv ファイル、txt ファイルなど) を読み取るのですが、中国語に遭遇すると文字化けします。読み取りコードは次のとおりです。
List<String> lines=new ArrayList<String>(); BufferedReader br = new BufferedReader(new FileReader(fileName)); String line = null; while ((line = br.readLine()) != null) { lines.add(line); } br.close();
Java の I/O クラスの処理は図に示すとおりです。
Reader クラスは、 Java の I/O クラスで文字を読み取ります。InputStream クラスはバイトを読み取るための親クラスです。InputStreamReader クラスは、バイトを文字に関連付けるブリッジです。I/O 中に読み取ったバイトを文字に変換する処理を担当します。これは StreamDecoder によって実装され、Charset エンコード形式は StreamDecoder のデコード プロセス中にユーザーが指定する必要があります。 Charset を指定しない場合は、ローカル環境のデフォルトの文字セットが使用されることに注意してください (たとえば、中国語環境では GBK エンコードが使用されます)。
概要: Java がデータ ストリームを読み取るときは、データ ストリームのエンコード方式を指定する必要があります。指定しないと、ローカル環境のデフォルトの文字セットが使用されます。
上記の分析後、変更されたコードは次のようになります。
List<String> lines=new ArrayList<String>(); BufferedReader br=new BufferedReader(new InputStreamReader(new FileInputStream(fileName),"UTF-8")); String line = null; while ((line = br.readLine()) != null) { lines.add(line); } br.close();
Java の詳細については、java 基本チュートリアル 列に注目してください。
以上がJavaで中国語の文字化けを読み取る問題の解決策の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。