Article Sujet apprentissage Télécharger Questions et réponses Dictionnaire de programmation Jeu mises à jour récentes

简体中文(ZH-CN) English(EN) 繁体中文(ZH-TW) 日本語(JA) 한국어(KO) Melayu(MS) Français(FR) Deutsch(DE)

Maison > développement back-end > Tutoriel Python > le corps du texte

Python使用urllib2模块抓取HTML页面资源的实例分享

WBOY

Libérer： 2016-06-10 15:05:05

original

1081 Les gens l'ont consulté

先把要抓取的网络地址列在单独的list文件中

http://www.jb51.net/article/83440.html
http://www.jb51.net/article/83437.html
http://www.jb51.net/article/83430.html
http://www.jb51.net/article/83449.html

Copier après la connexion

然后我们来看程序操作，代码如下：

#!/usr/bin/python

import os
import sys
import urllib2
import re

def Cdown_data(fileurl, fpath, dpath):
 if not os.path.exists(dpath):
  os.makedirs(dpath)
 try:
  getfile = urllib2.urlopen(fileurl) 
  data = getfile.read()
  f = open(fpath, 'w')
  f.write(data)
  f.close()
 except:
 print 

with open('u1.list') as lines:
 for line in lines:
  URI = line.strip()
  if '&#63;' and '%' in URI:
   continue
 elif URI.count('/') == 2:
   continue
  elif URI.count('/') > 2:
   #print URI,URI.count('/')
  try:
    dirpath = URI.rpartition('/')[0].split('//')[1]
    #filepath = URI.split('//')[1].split('/')[1]
    filepath = URI.split('//')[1]
   if filepath:
     print URI,filepath,dirpath
     Cdown_data(URI, filepath, dirpath)
   except:
    print URI,'error'

Copier après la connexion

原文网址为：http://www.diyoms.com/python/1806.html

Étiquettes associées：

html python

source：php.cn

Article précédent：Python实现简单字典树的方法 Article suivant：Python实现新浪博客备份的方法

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Derniers articles par auteur

Qu'est-ce qu'une NullPointerException et comment y remédier ?

2024-10-22 09:46:29
De novice à codeur : votre voyage commence par les principes fondamentaux du C

2024-10-13 13:53:41
Débloquer le développement Web avec PHP : guide du débutant

2024-10-12 12:15:51
Démystifier C : un chemin clair et simple pour les nouveaux programmeurs

2024-10-11 22:47:31
Libérez votre potentiel de codage : programmation C pour les débutants absolus

2024-10-11 19:36:51
Libérez votre programmeur intérieur : C pour les débutants absolus

2024-10-11 15:50:41
Automatisez votre vie avec C : scripts et outils pour les débutants

2024-10-11 15:07:41
PHP Made Easy : vos premiers pas dans le développement Web

2024-10-11 14:21:21
Construisez n'importe quoi avec Python : un guide du débutant pour libérer votre créativité

2024-10-11 12:59:11
La clé du codage : libérer la puissance de Python pour les débutants

2024-10-11 12:17:31

Derniers numéros

Python/MySQL ne peut pas conserver correctement les données entières Aucun code n'est requis ici. Je souhaite enregistrer un numéro très long car je crée un je...

Depuis 2024-04-04 19:09:44

0

1

367

En utilisant Selenium, vous voulez cliquer et définir une URL en classe J'ai besoin d'un autre conseil aujourd'hui. J'essaie de créer du code Python/Selenium et l...

Depuis 2024-04-04 14:14:44

0

1

3492

Selenium + Python - inspecter l'image viaexecute_script Je dois vérifier qu'une image est affichée sur la page en utilisant du sélénium en python....

Depuis 2024-04-03 09:32:15

0

1

375

Comment conserver les X premières lignes et supprimer les lignes du tableau J'ai une grande table avec des millions d'enregistrements dans MySQLincident_archive, je s...

Depuis 2024-04-01 18:32:54

0

1

347

Comment récupérer un texte Google Weather spécifique à l'aide de BeautifulSoup ? Comment trouver le texte du cours « New York City, USA » en Python à l'aide de BeautifulSo...

Depuis 2024-04-01 14:06:14

0

1

308

Rubriques connexes

Plus>

Recommandations populaires

Tutoriels populaires

Plus>

Tutoriels associés

Recommandations populaires

Derniers cours

Derniers téléchargements

Plus>

effets Web

Code source du site Web

Matériel du site Web

Modèle frontal

À propos de nous Clause de non-responsabilité Sitemap: Site Web PHP chinois：Formation PHP en ligne sur le bien-être public，Aidez les apprenants PHP à grandir rapidement！