Saya mendapati bahawa ruang dalam setiap baris dibahagikan kepada dua pengekodan, walaupun ia kelihatan sama. Hanya tulis semula kod anda
# coding: utf-8
import re
import requests
from bs4 import BeautifulSoup
code = '000917电广传媒'
def getinfo(code,page):
baseurl = 'http://news.baidu.com/ns?word=title%3A%28{}%29&pn={}&cl=2&ct=0&tn=newstitle&rn=20&ie=utf-8&bt=0&et=0'.format(code,10*(page-1))
wd = requests.get(baseurl).content
soup = BeautifulSoup(wd,'lxml')
title = soup.select('.c-title > a ')
resource = soup.select('p .c-title-author')
resource1 = [i.text.encode('utf-8') for i in resource]
for i in resource1:
l = re.split("\xa02016|\xc2\xa0\xc2\xa0", i)
print l[0]
print l[1]
getinfo(code,1)
Saya mendapati bahawa ruang dalam setiap baris dibahagikan kepada dua pengekodan, walaupun ia kelihatan sama. Hanya tulis semula kod anda
Hasil keluaran ialah
Cap masa dalam data semuanya bermula dengan nombor, seperti 59 minit dan 201 tahun Mengapa tidak cuba bahagikan dengan nombor pertama.
Ia boleh dibahagikan dalam persekitaran python3,