À des fins plus ciblées, vous pouvez utiliser des balises telles que p et article pour porter des jugements simples. Si vous avez besoin de quelque chose de plus général, vous pouvez analyser les données collectées sur la page Web, par exemple en écrivant un algorithme pour calculer la densité du chinois (texte non balisé) afin de déterminer s'il s'agit du texte principal. Je ne l'ai pas fait spécifiquement, mais l'idée est essentiellement la suivante.
Adresse source : http://www.cnblogs.com/jasondan/p/3497757.html
À des fins plus ciblées, vous pouvez utiliser des balises telles que p et article pour porter des jugements simples. Si vous avez besoin de quelque chose de plus général, vous pouvez analyser les données collectées sur la page Web, par exemple en écrivant un algorithme pour calculer la densité du chinois (texte non balisé) afin de déterminer s'il s'agit du texte principal. Je ne l'ai pas fait spécifiquement, mais l'idée est essentiellement la suivante.
Simulation du protocole HTTP, (généralement en utilisant request, module urllib2)
Extraction d'informations (en raison de la nature particulière des documents HTML, XPath et beautifulsoup sont généralement utilisés)