Maison > développement back-end > Tutoriel Python > Comment résoudre l'erreur « UnicodeDecodeError : le codec 'ascii' ne peut pas décoder l'octet » de Python ?

Comment résoudre l'erreur « UnicodeDecodeError : le codec 'ascii' ne peut pas décoder l'octet » de Python ?

Mary-Kate Olsen
Libérer: 2024-12-10 17:00:12
original
219 Les gens l'ont consulté

How to Solve Python's

Comment réparer "UnicodeDecodeError : le codec 'ascii' ne peut pas décoder l'octet"

tl;dr / Quick Fix

  • Éviter décodage/codage inutile.
  • Ne supposez pas le codage UTF-8 pour chaînes.
  • Convertissez les chaînes en chaînes Unicode dès que possible dans votre code.
  • Ajustez vos paramètres régionaux (voir : Comment résoudre UnicodeDecodeError dans Python 3.6 ?).
  • Résistez la tentation des hacks de rechargement rapide.

Unicode Zen en Python 2.x

UnicodeDecodeError : le codec 'ascii' ne peut pas décoder l'octet se produit généralement lorsque vous tentez de convertir une chaîne Python 2.x contenant des caractères non-ASCII en une chaîne Unicode sans spécifier l'encodage de la chaîne d'origine.

Les chaînes Unicode (également appelées Unicodes) sont un type de chaîne distinct en Python qui contient des codes de points Unicode et peut représenter n'importe quel Unicode. point sur tout le spectre. En revanche, les chaînes contiennent du texte codé dans différents formats (par exemple, UTF-8, UTF-16, ISO-8895-1).

Les développeurs du module Markdown utilisent probablement unicode() comme contrôle de qualité pour garantir les flux entrants. les chaînes sont Unicode. Puisqu'ils ne peuvent pas déterminer l'encodage de la chaîne entrante, vous devez la décoder avant de la transmettre à Markdown.

Les chaînes Unicode peuvent être déclarées dans votre code avec le préfixe "u" :

my_u = u'my ünicôdé strįng'
print(type(my_u)) # <type 'unicode'>
Copier après la connexion
Copier après la connexion

Les chaînes Unicode peuvent également provenir de fichiers, de bases de données ou de modules réseau, pour lesquels vous n'avez pas besoin de spécifier le encodage.

Gotchas

La conversion Unicode peut se produire même sans appels explicites unicode() :

# Explicit conversion without encoding
unicode('€')

# New-style format string into Unicode string
# Python attempts to convert value string to Unicode first
u"The currency is: {}".format('€')

# Old-style format string into Unicode string
# Python attempts to convert value string to Unicode first
u'The currency is: %s' % '€'

# Append string to Unicode
# Python attempts to convert string to Unicode first
u'The currency is: ' + '€'
Copier après la connexion

Exemples

Dans le diagramme suivant, "café " est codé différemment en " UTF-8 " et " Cp1252 " selon le type de terminal. Dans les deux cas, « caf » est codé en ASCII simple. Alors que UTF-8 utilise deux octets pour représenter « é », Cp1252 utilise un seul octet qui correspond également à la valeur du point Unicode. Dans ce cas, decode() est invoqué avec le codage correct et une conversion réussie en Unicode est effectuée :

[Diagramme d'une conversion Unicode réussie avec le codage correct]

Cependant, si decode () est appelé avec "ascii", ce qui revient à appeler unicode() sans spécifier de codage, une UnicodeDecodeError sera se produire :

[Diagramme d'une conversion Unicode échouée avec un mauvais encodage]

Le sandwich Unicode

Il est recommandé de créer un "sandwich Unicode" dans votre code, où vous :

  1. Décodez toutes les données entrantes en chaînes Unicode.
  2. Effectuez des opérations sur Chaînes Unicode.
  3. Encoder en str à la sortie.

Cette approche vous évite d'avoir à vous soucier de l'encodage des chaînes tout au long de votre code.

Saisie/Décodage

  • Pour le code source, utilisez des chaînes littérales Unicode (par exemple, u'Zürich') et ajoutez un en-tête d'encodage (par exemple, # encoding : utf-8).
  • Pour les fichiers, utilisez le TextWrapper du module io avec l'encodage approprié :

    my_u = u'my ünicôdé strįng'
    print(type(my_u)) # <type 'unicode'>
    Copier après la connexion
    Copier après la connexion
  • Pour les bases de données, configurez la connexion pour renvoyer des données Unicode et utilisez des chaînes Unicode pour les requêtes SQL.
  • Pour HTTP, pensez à utiliser la bibliothèque Python Requests, qui renvoie Unicode en réponse.text .
  • Pour le décodage manuel, utilisez my_string.decode(encoding), où encoding est le approprié value.

Output

  • stdout/printing : Python tente de configurer un encodeur forstdout pour encoder les chaînes Unicode selon l'encodage de la console. Si l'encodage de la console est incorrect, vous pouvez rencontrer des erreurs.
  • Fichiers : io.open peut encoder l'Unicode en chaînes d'octets de manière transparente.
  • Bases de données : une configuration appropriée vous permet d'écrire des données Unicode directement dans le base de données.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

source:php.cn
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Derniers articles par auteur
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal