Maison >Java >JavaBase >Java implémente l'obtention du codage de caractères d'un fichier texte

Java implémente l'obtention du codage de caractères d'un fichier texte

王林
王林avant
2019-12-23 11:49:4912231parcourir

Java implémente l'obtention du codage de caractères d'un fichier texte

1. Comprendre le codage des caractères :

1. Le codage par défaut de String en Java est UTF-8, qui peut être obtenu à l'aide de l'instruction suivante : Charset.defaultCharset();

2. Sous le système d'exploitation Windows, le codage par défaut des fichiers texte est ANSI, qui est GBK pour Windows chinois. Par exemple, si nous utilisons le programme Notepad pour créer un nouveau document texte, son codage de caractères par défaut est ANSI.

3. Les documents texte ont quatre options de codage : ANSI, Unicode (y compris Unicode Big Endian et Unicode Little Endian), UTF-8, UTF-16

4. peut parfois ne pas connaître son format d'encodage, vous devez donc utiliser un programme pour déterminer dynamiquement l'encodage du fichier txt.

ANSI : Pas de définition de format, pour les systèmes d'exploitation chinois c'est GBK ou GB2312

UTF-8 : Les trois premiers octets sont : 0xE59B9E (UTF-8), 0xEFBBBF (UTF-8 inclus BOM)

UTF-16 : Les deux premiers octets sont : 0xFEFF

Unicode : Les deux premiers octets sont : 0xFFFE

Par exemple : Les documents Unicode commencent par 0xFFFE, utilisez Le programme supprime simplement les premiers octets et émet un jugement.

5. Correspondance entre l'encodage Java et l'encodage Texte :

Java implémente lobtention du codage de caractères dun fichier texte

Java lit les fichiers Texte. Si le format d'encodage ne correspond pas, des caractères tronqués apparaîtront. Par conséquent, vous devez définir le codage de caractères correct lors de la lecture de fichiers texte. Le format de codage des documents texte est écrit dans l'en-tête du fichier. Dans le programme, le format de codage du fichier doit d'abord être analysé. Après avoir obtenu le format de codage, la lecture du fichier dans ce format évitera les caractères tronqués.

Tutoriels vidéo en ligne gratuits recommandés : Java learning

2. Par exemple :

a un fichier texte : test.txt

Java implémente lobtention du codage de caractères dun fichier texte

Code de test :

/**
 * 文件名:CharsetCodeTest.java
 * 功能描述:文件字符编码测试
 */
 
import java.io.*;
 
public class CharsetCodeTest {
    public static void main(String[] args) throws Exception {
        String filePath = "test.txt";
        String content = readTxt(filePath);
        System.out.println(content);
    }
 
 
public static String readTxt(String path) {
        StringBuilder content = new StringBuilder("");
        try {
            String fileCharsetName = getFileCharsetName(path);
            System.out.println("文件的编码格式为:"+fileCharsetName);
 
            InputStream is = new FileInputStream(path);
            InputStreamReader isr = new InputStreamReader(is, fileCharsetName);
            BufferedReader br = new BufferedReader(isr);
 
            String str = "";
            boolean isFirst = true;
            while (null != (str = br.readLine())) {
                if (!isFirst)
                    content.append(System.lineSeparator());
                    //System.getProperty("line.separator");
                else
                    isFirst = false;
                content.append(str);
            }
            br.close();
        } catch (Exception e) {
            e.printStackTrace();
            System.err.println("读取文件:" + path + "失败!");
        }
        return content.toString();
    }
 
 
    public static String getFileCharsetName(String fileName) throws IOException {
        InputStream inputStream = new FileInputStream(fileName);
        byte[] head = new byte[3];
        inputStream.read(head);
 
        String charsetName = "GBK";//或GB2312,即ANSI
        if (head[0] == -1 && head[1] == -2 ) //0xFFFE
            charsetName = "UTF-16";
        else if (head[0] == -2 && head[1] == -1 ) //0xFEFF
            charsetName = "Unicode";//包含两种编码格式:UCS2-Big-Endian和UCS2-Little-Endian
        else if(head[0]==-27 && head[1]==-101 && head[2] ==-98)
            charsetName = "UTF-8"; //UTF-8(不含BOM)
        else if(head[0]==-17 && head[1]==-69 && head[2] ==-65)
            charsetName = "UTF-8"; //UTF-8-BOM
 
        inputStream.close();
 
        //System.out.println(code);
        return charsetName;
    }
}

Résultat d'exécution :

Java implémente lobtention du codage de caractères dun fichier texte

Articles et tutoriels connexes recommandés : Débuter avec Java

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer