有的说是因为代理.
我的浏览器倒是经常开着代理, 但是我已经关闭了.
我特意查看了下HTTP报文, 也都是没经过代理的.
但还是会出错.
代码:
import urllib.request
url = "http://news.dbanotes.net/"
req = urllib.request.Request(url)
page = urllib.request.urlopen(req).read().decode("UTF-8")
print(page)
python版本: 3.5.1
报错信息:
urllib.error.HTTPError: HTTP Error 404: Not Found
应该可以排除以下的问题:
代理
网络问题
url不存在
代码有错
至于反爬虫这个我应该可能性也不大,
一来我试了很多个URL, 基本就是六四分, 有的能访问, 有的不能, 而且我们学校的官网那么, 我才不信他会...
二来我加了User-Agent的首部还是不能访问.
Tiada masalah dengan python 3.5.2 saya di bawah tingkap.
Adalah disyorkan agar anda menangkap paket dan membandingkannya dengan permintaan apabila diakses oleh penyemak imbas.
Ini mungkin berkaitan dengan nilai tetapan ejen anda, kerana sesetengah tapak web akan menyemak ini untuk menghalang bukan penyemak imbas daripada merangkak
Anda menyalin pengepala dan kuki daripada penyemak imbas dan menambahkannya pada objek Permintaan urllib.
Pelayar simulasi~~
Sebab yang sangat penting ialah pengepala ejen yang anda minta dalam program anda telah disekat oleh pihak lain. Cuba tukar pengepala ejen.
Tidak perlu menggunakan Request, hanya urlopen terus