请教一个问题,今天在学习Web Scraping with Python这本书时,书P128页上为了解决Six Degrees of Wikipedia,对爬下来储存在MySQL中的数据作了搜索。
数据用了两个表记录,分别是:
pages:
+---------+--------------+------+-----+-------------------+----------------+
| Field | Type | Null | Key | Default | Extra |
+---------+--------------+------+-----+-------------------+----------------+
| id | int(11) | NO | PRI | NULL | auto_increment |
| url | varchar(255) | NO | | NULL | |
| created | timestamp | NO | | CURRENT_TIMESTAMP | |
+---------+--------------+------+-----+-------------------+----------------+
links:
+------------+-----------+------+-----+-------------------+----------------+
| Field | Type | Null | Key | Default | Extra |
+------------+-----------+------+-----+-------------------+----------------+
| id | int(11) | NO | PRI | NULL | auto_increment |
| fromPageID | int(11) | YES | | NULL | |
| toPageID | int(11) | YES | | NULL | |
| created | timestamp | NO | | CURRENT_TIMESTAMP | |
+------------+-----------+------+-----+-------------------+----------------+
搜索的算法如下:
from urllib.request import urlopen
from bs4 import BeautifulSoup
import pymysql
conn = pymysql.connect(host = '127.0.0.1', user = 'root', passwd = 'pai433832',
db = 'mysql', charset = 'utf8')
cur = conn.cursor()
cur.execute("USE wikipedia")
class SolutionFound(RuntimeError):
def __init__(self, message):
self.message = message
def getLinks(fromPageId):
cur.execute("SELECT toPageId FROM links WHERE fromPageID = %s",
(fromPageId))
if cur.rowcount == 0:
return None
else:
return [x[0] for x in cur.fetchall()]
def constructDict(currentPageId):
links = getLinks(currentPageId)
if links:
return dict(zip(links, [{}] * len(links)))
return {}
# The link tree may either be empty or contain multiple links
def searchDepth(targetPageId, currentPageId, linkTree, depth):
# print(str(depth) + '\t' + str(currentPageId)) # debug
if depth == 0:
# Stop recursing and return, regardless
return linkTree
if not linkTree:
linkTree = constructDict(currentPageId)
if not linkTree:
# No links found. Cannot continue at this node
return {}
if targetPageId in linkTree.keys():
print("TARGET " + str(targetPageId) + " FOUND!")
raise SolutionFound("PAGE: " + str(currentPageId))
for branchKey, branchValue in linkTree.items():
try:
# Recurse here to continue building the tree
linkTree[branchKey] = searchDepth(targetPageId, branchKey,
branchValue, depth - 1)
except SolutionFound as e:
print(e.message)
raise SolutionFound("PAGE: " + str(currentPageId))
return linkTree
try:
searchDepth(14000, 1, {}, 4)
print("No solution found")
except SolutionFound as e:
print(e.message)
作者表示此处用了广度优先搜索,然而我觉得当在递归调用 searchDepth 函数时,使用的必然是深度优先,因此上述代码事实上是不是的确并非广度优先搜索而是深度优先搜索?然而对于这种情况是不是的确是广度优先搜索更好?如果原文的代码不是广度优先,那么广度优先应当如何处理呢?
コードは確かに深さ優先検索 (dfs) です。
幅優先検索 (bfs) に変更する場合は、アクセスする URL のリストをキューを使用して保持し、URL にアクセスするたびにキューの先頭からアクセスし、新しく抽出された URL がキューの最後に設定されます。
深さ優先検索と幅優先検索の間に特定の利点または欠点はありません。ターゲットが比較的層数の少ない場所にある場合、bfs はすぐに解を見つけることができます。ターゲットが深い層にある場合、bfs は多くのノードを展開する必要がありますが、dfs はすぐに解を見つけることができます。