Méthode HTML vers TXT
Dans l'utilisation quotidienne d'Internet, nous rencontrons souvent le besoin de récupérer le contenu de pages Web et de le convertir au format texte. Un moment courant peut être de vouloir récupérer le contenu textuel d'un article sur un site Web, puis de l'enregistrer sous forme de fichier TXT pour une lecture hors ligne ou à d'autres fins. Cependant, en raison de l'incompatibilité entre HTML et TXT, la gestion de ce processus peut prêter à confusion pour certaines personnes. Dans cet article, nous présenterons plusieurs méthodes pour convertir du texte HTML au format TXT.
Méthode 1 : Copier et coller manuellement
C'est la méthode la plus simple et la plus directe : sélectionnez le texte HTML à convertir, puis faites un clic droit avec la souris et sélectionnez l'option "Copier", puis ouvrez un fichier TXT ou n'importe quel éditeur de texte, cliquez à nouveau avec le bouton droit et sélectionnez Coller. Cependant, il convient de noter que le contenu copié peut contenir certains formats de texte, tels que des polices, des couleurs, des styles, etc. Par conséquent, un nettoyage minutieux est requis après la copie vers TXT.
Cette méthode deviendra plus longue et plus difficile si vous devez explorer le contenu de la page Web entière, plutôt que simplement un paragraphe ou une ligne de texte spécifique. Dans ce cas, nous devons considérer les deux méthodes suivantes :
Deuxième méthode : Utiliser un script Python
Python est un langage de programmation très populaire qui nous fournit une bibliothèque client HTTP, qui nous permet d'explorer facilement le contenu HTML de n'importe quel page Internet spécifique. Nous pouvons écrire un script simple en utilisant Python pour récupérer le HTML, nettoyer le format et le convertir au format TXT.
Tout d'abord, installez Python ;
Deuxièmement, installez la bibliothèque tierce "BeautifulSoup" :
pip install bs4
Ensuite, écrivez un script Python :
import requests from bs4 import BeautifulSoup url = 'https://example.com' response = requests.get(url) soup = BeautifulSoup(response.content, 'html.parser') text = soup.get_text() with open('example.txt', 'w') as f: f.write(text)
Dans ce script, nous avons d'abord importé les requêtes et les bibliothèques BeautifulSoup. Ensuite, nous fournissons l'adresse de la page Web HTML à explorer, et la bibliothèque de requêtes nous aidera à obtenir le contenu de la page Web. Nous transmettons le contenu HTML obtenu à la bibliothèque BeautifulSoup et spécifions comment elle analyse le HTML (ici nous utilisons "html.parser"). La méthode get_text() extrait tout le contenu du texte, supprime toutes les balises HTML et le formatage et renvoie un objet. Enfin, nous écrivons cet objet dans un nouveau fichier TXT.
Méthode 3 : Outil HTML en TXT en ligne
Si vous visitez les sites Web suivants, vous pouvez utiliser les outils en ligne qu'ils fournissent pour convertir le texte HTML au format TXT :
https://www.convertio.co/zh/html - txt/
https://www.aconvert.com/cn/document/html-to-txt/
Vous pouvez facilement convertir du texte HTML en téléchargeant des fichiers HTML ou en collant directement du code HTML et en cliquant sur le bouton "Démarrer la conversion" Format TXT. Cependant, il convient de noter que pour les textes longs contenant beaucoup de formatage et de balisage HTML, cette méthode peut perdre beaucoup de contenu et ne constitue pas un bon moyen de conversion.
Résumé
La conversion de texte HTML au format TXT et la suppression des styles et des balises sont une opération courante, en particulier lorsque vous utilisez Internet à des fins de recherche et d'apprentissage. Qu'il s'agisse de copier les opérations manuellement ou d'utiliser des scripts et des outils en ligne, nous disposons de plusieurs options pour terminer le processus et pouvons choisir la méthode qui nous convient le mieux.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!