# coding: utf-8
import re
import requests
from bs4 import BeautifulSoup
code = '000917电广传媒'
def getinfo(code,page):
baseurl = 'http://news.baidu.com/ns?word=title%3A%28{}%29&pn={}&cl=2&ct=0&tn=newstitle&rn=20&ie=utf-8&bt=0&et=0'.format(code,10*(page-1))
wd = requests.get(baseurl).content
soup = BeautifulSoup(wd,'lxml')
title = soup.select('.c-title > a ')
resource = soup.select('p .c-title-author')
resource1 = [i.text.encode('utf-8') for i in resource]
for i in resource1:
l = re.split("\xa02016|\xc2\xa0\xc2\xa0", i)
print l[0]
print l[1]
getinfo(code,1)
發現每一行的空格用了兩種編碼來劃分,雖然看起來是一樣的。簡單改寫了一下你的程式碼
輸出結果是
資料中的時間戳記都是數字開頭的,例如59分鐘和201幾年,要不要試試看用第一個數字來劃分。
python3環境下可以分割的,