


Tutoriel pour analyser les fichiers texte structurés et calculer la somme des valeurs numériques dans Python
Dans le travail quotidien du traitement des données, nous devons souvent extraire des informations utiles à partir de fichiers texte non structurés ou semi-structurés. Par exemple, un fichier journal peut contenir des dates, des descriptions d'événements et des données numériques associées. Ce tutoriel prendra un scénario spécifique à titre d'exemple: calculer la somme des valeurs de chaque semaine à partir d'un fichier texte contenant une liste de semaines et des valeurs correspondantes.
Stratégies de traitement de base
La clé pour gérer ces fichiers texte est de segmenter efficacement les chaînes, de convertir les types de données et d'effectuer des calculs accumulés. Nous allons l'implémenter dans les étapes suivantes:
- Lisez les fichiers en toute sécurité: utilisez l'instruction avec open () pour ouvrir le fichier pour vous assurer que le fichier peut être automatiquement fermé lorsqu'il est utilisé ou des erreurs se produisent et éviter la fuite des ressources.
- Traitez les données ligne par ligne: itérez sur chaque ligne dans un fichier car chaque ligne contient un ensemble de données distinct (par exemple, toutes les valeurs d'une semaine).
- Segmentation et extraction des données en ligne:
- Tout d'abord, identifiez le séparateur dans la ligne (comme Colon :) et séparez la partie non numérique (comme le nom de la semaine) de la partie numérique de la chaîne.
- Deuxièmement, identifiez le séparateur (comme les virgules) à l'intérieur de la chaîne numérique et extraire la chaîne numérique unique.
- Conversion et accumulation numériques: convertissez chaque chaîne numérique extraite en un entier (ou numéro de point flottant, selon le type de données), puis les accumuler.
- Sortie: Imprimez chaque semaine et sa somme correspondante en format clair.
Exemple de code complet
Supposons que nous ayons un fichier nommé tb1.txt avec le contenu suivant:
Lundi: 12,34, -90 Samedi: 32, -23,20
Ce qui suit est le code Python qui implémente la logique ci-dessus:
def calcul_sum_from_file (file_path): "" " Lisez les données du fichier texte spécifié, calculez la somme des valeurs de chaque ligne et imprimez-la. Args: file_path (str): le chemin du fichier texte en attente. "" " essayer: avec open (file_path, 'r') en tant que fichier: pour la ligne dans le fichier: # Supprimer les caractères des espaces à la fin de la ligne (comme les pauses de ligne) line = line.strip () Si ce n'est pas la ligne: # Sautez la ligne vide continue # 1. Utilisez le colon pour se séparer, l'étiquette à gauche et la chaîne numérique à droite # Par exemple: "Lundi: 12,34, -90" -> label = "lundi", fields = "12,34, -90" Si ':' Pas en ligne: print (f "AVERTISSEMENT: ligne '{line}' est mal formaté, skip.") Continuer à continuer label, fields = line.split(':', 1) # Use split(delimiter, 1) to make sure that only the colon that appears first is divided label = label.strip() # Clean up the blanks on both sides of the label# 2. Use commas to split the numeric string to get a list of strings of a single numeric value# For example: " 12,34,-90" -> [" 12", "34", "-90"] value_strings = fields.split (',') current_sum = 0 pour v_str in value_strings: essayer: # 3. Convertissez chaque chaîne numérique en un entier et accumulez current_sum = int (v_str.strip ()) # strip () utilisé pour supprimer les blancs des deux côtés de la chaîne numérique sauf ValueError: print (f "AVERTISSEMENT: valeur non valide '{v_str.str ()}' a été trouvée dans '{label}', sauté.") Continuer à continuer # 4. Imprimer le résultat imprimer (f "{label}: {current_sum}") Sauf FileNotFoundError: print (f "Erreur: fichier '{file_path}' introuvable. Veuillez vérifier le chemin du fichier.") sauf exception comme e: Imprimer (F "Erreur inconnue s'est produite lors du traitement du fichier: {e}") # Fonction d'appel pour traiter le fichier calcul_sum_from_file ('tb1.txt')
Analyse de code:
- avec open (file_path, 'r') en tant que fichier :: C'est le moyen recommandé de traiter les fichiers dans Python. Il garantit que le fichier est automatiquement fermé après l'exécution du bloc de code, même si une erreur se produit.
- line.strip (): utilisé pour supprimer les caractères des espaces au début et à la fin de chaque ligne, y compris des pauses de ligne \ n, ce qui aide à éviter les espaces inattendus dans le traitement ultérieur.
- line.split (':', 1): La méthode Split () est utilisée pour diviser une chaîne en une liste basée sur le délimiteur spécifié. 1 Le paramètre indique que seule la première occurrence de colons peut être divisée, ce qui peut être utile dans certains formats complexes.
- fields.split (','): divisez à nouveau la partie numérique par virgule pour obtenir une liste contenant la chaîne numérique.
- int (v_str.strip ()): convertissez chaque chaîne numérique en un entier. Strip () est à nouveau utilisé pour s'assurer que les blancs possibles qui peuvent exister sont supprimés avant la conversion.
- TRY-sauf ValueError: il s'agit d'une amélioration robuste. Si int () tente de convertir une chaîne non numerique, une valeur d'énergie est augmentée. En attrapant cette exception, nous pouvons gérer gracieusement les données non valides au lieu d'écraser le programme.
- print (f "{label}: {current_sum}"): Utilisez la chaîne f pour formater la sortie afin que le résultat soit clair et facile à lire.
Notes et meilleures pratiques
- Gestion des erreurs: Dans les applications réelles, les fichiers de données peuvent avoir des formats irréguliers (par exemple, des colons manquants, contenant des caractères non numériques, etc.). L'insertion d'un bloc d'essai à l'exception dans le code pour attraper ValueError ou d'autres exceptions potentielles (telles que filenotfounderror) peut considérablement améliorer la robustesse du programme.
- Type de données: si la valeur dans le fichier peut être décimal, int () doit être remplacée par float () pour la conversion de type.
- Chemin de fichier: assurez-vous que le paramètre FILE_PATH pointe vers l'emplacement du fichier correct. Si le fichier n'est pas dans le répertoire de travail actuel, le chemin complet doit être fourni.
- Généralité: le code ci-dessus peut être facilement modifié pour s'adapter à différents séparateurs ou structures de données plus complexes. L'idée principale est de reconnaître les modèles, les chaînes de segments et d'effectuer une conversion de type.
- Efficacité de la mémoire: pour les fichiers très volumineux, la lecture de ligne par ligne (pour la ligne dans le fichier :) est plus efficace que la lecture du fichier entier en mémoire à la fois (comme file.readlines ()), car il conserve uniquement les lignes actuellement traitées en mémoire.
Résumer
Grâce à ce tutoriel, nous apprenons à analyser efficacement les fichiers texte structurés à l'aide de Python, d'extraire et de calculer la somme numérique à partir de données mixtes. Les technologies clés incluent la lecture de fichiers sécurisée, la segmentation des chaînes à plusieurs niveaux et la conversion de type robuste. La maîtrise de ces compétences vous permettra de gérer une variété de tâches de traitement des données texte, augmentant l'efficacité de l'analyse et du traitement des données. N'oubliez pas que la prise en compte de la diversité des données et des situations d'erreur potentielles lors de la rédaction de code aidera à créer des applications plus robustes et fiables.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undress AI Tool
Images de déshabillage gratuites

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Pour commencer avec Quantum Machine Learning (QML), l'outil préféré est Python et des bibliothèques telles que Pennylane, Qiskit, Tensorflowquantum ou Pytorchquantum doivent être installées; Familiarisez-vous ensuite avec le processus en exécutant des exemples, tels que l'utilisation de Pennylane pour construire un réseau neuronal quantique; Ensuite, implémentez le modèle en fonction des étapes de la préparation des ensembles de données, du codage des données, de la construction de circuits quantiques paramétriques, de la formation Classic Optimizer, etc.; Dans le combat réel, vous devez éviter de poursuivre des modèles complexes depuis le début, en faisant attention aux limitations matérielles, en adoptant des structures de modèles hybrides et en se référant continuellement aux derniers documents et documents officiels à suivre le développement.

Cet article a sélectionné plusieurs sites Web de projet "finis" Python et des portails de ressources d'apprentissage "Blockbuster" de haut niveau pour vous. Que vous recherchiez l'inspiration de développement, l'observation et l'apprentissage du code source au niveau de la maîtrise ou que vous amélioriez systématiquement vos capacités pratiques, ces plateformes ne sont pas manquées et peuvent vous aider à devenir un maître Python rapidement.

Utilisez Sub-Process.run () pour exécuter en toute sécurité les commandes de shell et la sortie de capture. Il est recommandé de transmettre des paramètres dans les listes pour éviter les risques d'injection; 2. Lorsque les caractéristiques du shell sont nécessaires, vous pouvez définir Shell = True, mais méfiez-vous de l'injection de commande; 3. Utilisez un sous-processus.popen pour réaliser le traitement de sortie en temps réel; 4. SET CHECK = TRUE pour lancer des exceptions lorsque la commande échoue; 5. Vous pouvez appeler directement des chaînes pour obtenir la sortie dans un scénario simple; Vous devez donner la priorité à Sub-Process.run () dans la vie quotidienne pour éviter d'utiliser OS.System () ou les modules obsolètes. Les méthodes ci-dessus remplacent l'utilisation du noyau de l'exécution des commandes shell dans Python.

Utilisez le plot conjoint de Seaborn pour visualiser rapidement la relation et la distribution entre deux variables; 2. Le tracé de diffusion de base est implémenté par sn.jointplot (data = pointes, x = "total_bill", y = "Tip", kind = "dispers"), le centre est un tracé de dispersion et l'histogramme est affiché sur les côtés supérieur et inférieur et droit; 3. Ajouter des lignes de régression et des informations de densité à un kind = "reg" et combiner marginal_kws pour définir le style de tracé de bord; 4. Lorsque le volume de données est important, il est recommandé d'utiliser "Hex"

Pour maîtriser Python Web Crawlers, vous devez saisir trois étapes de base: 1. Utilisez les demandes pour lancer une demande, obtenir du contenu de la page Web via la méthode GET, faire attention à la définition d'en-têtes, gérer les exceptions et se conformer à robots.txt; 2. Utilisez BeautifulSoup ou XPath pour extraire les données. Le premier convient à l'analyse simple, tandis que le second est plus flexible et adapté aux structures complexes; 3. Utilisez du sélénium pour simuler les opérations du navigateur pour le contenu de chargement dynamique. Bien que la vitesse soit lente, elle peut faire face à des pages complexes. Vous pouvez également essayer de trouver une interface API de site Web pour améliorer l'efficacité.

Utilisez httpx.asyncclient pour initier efficacement les demandes HTTP asynchrones. 1. 2. Combiner asyncio.gather à se combiner avec Asyncio.gather peut considérablement améliorer les performances, et le temps total est égal à la demande la plus lente; 3. Prise en charge des en-têtes personnalisés, des paramètres d'authentification, de base_url et de délai d'expiration; 4. Peut envoyer des demandes de poste et transporter des données JSON; 5. Faites attention pour éviter de mélanger le code asynchrone synchrone. Le support proxy doit prêter attention à la compatibilité back-end, ce qui convient aux robots ou à l'agrégation API et à d'autres scénarios.

Les listes de chaînes peuvent être fusionnées avec la méthode join (), telles que '' .join (mots) pour obtenir "HelloworldFrompython"; 2. Les listes de nombres doivent être converties en chaînes avec MAP (STR, nombres) ou [STR (x) Forxinnumbers] avant de rejoindre; 3. Toute liste de types peut être directement convertie en chaînes avec des supports et des devis, adaptées au débogage; 4. Les formats personnalisés peuvent être implémentés par des expressions de générateur combinées avec join (), telles que '|' .join (f "[{item}]" ForIteminitems)

Installez PYODBC: utilisez la commande PiPInstallpyodbc pour installer la bibliothèque; 2. Connectez SQLServer: utilisez la chaîne de connexion contenant le pilote, le serveur, la base de données, l'UID / PWD ou TrustEd_Connection via la méthode pyoDBC.Connect () et prendre en charge l'authentification SQL ou l'authentification Windows respectivement; 3. Vérifiez le pilote installé: exécutez pyodbc.Drivers () et filtrez le nom du pilote contenant «SQLServer» pour vous assurer que le nom du pilote correct est utilisé tel que «ODBCDriver17 pour SQLServer»; 4. Paramètres clés de la chaîne de connexion
