L'acte d'extraire du texte d'un fichier HTML équivaut essentiellement à copier et coller le contenu d'un site Web dans le Bloc-notes. Cela peut paraître simple, mais ce ne sera pas si agréable si vous devez extraire du texte de millions de fichiers HTML (pages Web).
Explorons cet article pour mieux comprendre comment extraire le texte des balises HTML au format texte.
De nombreux éléments HTML peuvent être utilisés pour donner au texte une signification spécifique. Pour avoir plus d'idées sur l'extraction de texte à partir de balises HTML au format texte, regardons l'exemple suivant.
Dans l'exemple suivant, nous exécutons un script pour extraire le texte des balises HTML.
<!DOCTYPE html> <html> <body> <script> function gettext(html){ var tempDivElement = document.createElement("div"); tempDivElement.innerHTML = html; return tempDivElement.textContent || tempDivElement.innerText || ""; } var sentence= "<div><h1>Welcome to Tutorialspoint</h1></div>"; document.write(gettext(sentence)); </script> </body> </html>
Lorsque le script s'exécutera, il générera une sortie composée des données obtenues à partir du script ci-dessus et l'affichera sur la page Web.
Considérez l'exemple suivant, nous exécutons un script pour obtenir le texte des balises HTML.
<!DOCTYPE html> <html> <body> <script> var statement= "<div><h1>TutorialsPoint</h1><p> is the Best E-Learning</p></div>"; var result = statement.replace(/<[^>]+>/g, ''); document.write(result) </script> </body> </html>
Lors de l'exécution du script ci-dessus, une fenêtre de sortie apparaîtra contenant le texte extrait en exécutant le script affiché sur la page Web.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!