communauté Apprendre Bibliothèque d'outils Loisirs

Français

Maison > développement back-end > tutoriel php > php使用curl和正则表达式抓取网页数据示例_PHP教程

php使用curl和正则表达式抓取网页数据示例_PHP教程

WBOY

Libérer： 2016-07-13 10:32:49

original

864 Les gens l'ont consulté

利用curl和正则表达式做的一个针对磨铁中文网非vip章节的小说抓取器，支持输入小说ID下载小说。
依赖项：curl
可以简单的看下，里面用到了curl ,正则表达式，ajax等技术，适合新手看看。在本地测试，必须保证联网并且确保php开启curl的mode

SpiderTools.class.php

复制代码代码如下:

session_start();
//封装成类开启这些自动抓取文章
#header("Refresh:30;http://www.test.com:8080");
class SpiderTools{
//////////////////////////////////////////////////////////////////////////////////////////////////////////
/*传入文章ID 解析出文章标题*/
//////////////////////////////////////////////////////////////////////////////////////////////////////////
public function getBookNameById($aid){
  //初始化curl
  $ch= curl_init();
  //url
  $url='http://www.motie.com/book/'.$aid;
  if(is_numeric($aid)){
  //正则表达式匹配
  $ru="/

\s(.)\s\s/";
  }
  else{
  //丧尸爆发之全家求生路_第一章丧尸爆发　为吾友爱乐儿更新~_磨铁
  $ru="/(.)/";<br>  }<br>  //设置选项，包括URL<br>  curl_setopt($ch, CURLOPT_URL, $url);<br>  curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);//不自动输出内容<br>  curl_setopt($ch, CURLOPT_HEADER, 0);//不返回头部信息<br>  curl_setopt($ch, CURLOPT_CONNECTTIMEOUT_MS, 0); <br>  //执行curl<br>  $output = curl_exec($ch);<br>  //错误提示<br>  if(curl_exec($ch) === false){<br>   die(curl_error($ch));<br>  }<br>  // 检查是否有错误发生<br>  if(curl_errno($ch)){<br>  echo 'Curl error: ' . curl_error($ch);<br>  }<br>  //释放curl句柄<br>  curl_close($ch);<br>  $arr=array();<br>  preg_match_all($ru,$output,$arr);<br>  return $arr[1][0];<br>   }<br> //////////////////////////////////////////////////////////////////////////////////////////////////////////     <br> /传入文章ID 解析文章内容/<br> //////////////////////////////////////////////////////////////////////////////////////////////////////////<br> public function getBookContextById($aid){<br>  //开始解析文章<br>  $ids=array();<br>  $ids=explode("_",$aid);<br>  $titleId=trim($ids[0]);<br>  $aticleId=trim($ids[1]);<br>  $ch= curl_init();<br>  $ru="/<div class='\"page-content\"'>[\s\S]<div class="code" style="position:relative; padding:0px; margin:0px;"><pre ondragstart='\"return' false oncopy='\"return' oncut='\"return' oncontextmenu='\"return' class='\"note\"' id='\"html_content_\d\"'>[\s\S](.)<img src="%5C%22%5C/ajax%5C/chapter%5C/%24titleId%5C/%24aticleId%5C%22" class='\"hidden\"' alt="php使用curl和正则表达式抓取网页数据示例_PHP教程" >/ui"; <br>  $url='http://www.motie.com/book/'.$aid;<br>  //正则表达式匹配 <p>  //设置选项，包括URL<br>  curl_setopt($ch, CURLOPT_URL, $url);<br>  curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);//不自动输出内容<br>  curl_setopt($ch, CURLOPT_HEADER, 0);//不返回头部信息<br>  curl_setopt($ch, CURLOPT_CONNECTTIMEOUT_MS, 0); <br>  //执行curl<br>  $output = curl_exec($ch);<br>  //错误提示<br>  if(curl_exec($ch) === false){<br>   die(curl_error($ch));<br>  }<br>  // 检查是否有错误发生<br>  if(curl_errno($ch)){<br>   echo 'Curl error: ' . curl_error($ch);<br>  }<br>  $arr=array();<br>  $arr2=array();<br>  preg_match_all($ru,$output,$arr);<br>  curl_close($ch);<br>  #var_dump($arr);<br>  $s=$arr[0][0];<br>  $s=substr($s,180);<br>  $arr2=explode("<img alt="php使用curl和正则表达式抓取网页数据示例_PHP教程" >  return trim($arr2[0]);<br> }</p> <p> ////////////////////////////////////////////////////////////////////////////////////////////////////////// <br> /静态方法 @生成小说文件可以直接调用 /<br> //////////////////////////////////////////////////////////////////////////////////////////////////////////<br>     public static function createBookById($id){<br><br>  if(!is_numeric($id)){</p> <p>  echo "<br>INIT BEGIN START WRITE!";<br>  $st=new self();<br>  $cons=$st->getBookContextById($id);<br>  $title=$st->getBookNameById($id);<br>  $cons=trim($cons);<br>  $t=explode(" ",$title);<br>  //构造目录<br>  $dir=array();<br>  $dir=explode("_",$t[0]);<br>  $wzdir=$dir[0];  //书名称作为目录名称<br>  $wzchapter=$dir[1]; //第几章<br>  //创建目录<br>  $wzdir2=iconv("UTF-8", "GBK", $wzdir);//目录编码注意这里保留对$wzdir字符串的引用，用来构造文件名，不能用此处，防止二次编码<br>  if(!file_exists($wzdir2)){<br>   mkdir($wzdir2); //创建目录<br>  }<br>  //构造文件名<br>  $wztitle="./".$wzdir."/"."$t[0]".".txt";<br>  //保证保存的文件名称不是乱码<br>  $wztitle=iconv("UTF-8", "GBK", $wztitle);<br>  $f=fopen($wztitle,"w+");<br>  fwrite($f,$cons);<br>  echo "<font color="green">$wzdir </font>".$wzchapter."<font color="red">写入成功</font>";<br>  fclose($f); <br><br>  } <br>  else{<br>  $ids=self::getBookIdsById($id); <br><br>  //这里服务器可能会掉线，所以最好用session记录循环<br>  #for($i=$_SESSION["$id"."_fid"];$i<br>   #self::createBookById($id."_".$ids[$_SESSION["$id"."_fid"]++]);//构造id<br>  #}<br><br>  for($i=$_SESSION["$id"."_fid"];$i<br>   self::createBookById($id."_".$ids[$i]);//构造id<br>  }<br><br>  #echo "</p><hr><hr><br><h1>写入工作全部完成</h1>";<br>  #echo $id."_".$ids[0]."<br>"; <br>  #var_dump($ids);<br><br>  } <p><br> }<br>  /<br>  获取小说的所有ID<br>  @param $id 文章ID<br>  @return array;<br>  /<br>  public static function getBookIdsById($aid){ <br>  $ch= curl_init();<br>  $url='http://www.motie.com/book/'.$aid."/chapter";<br>  //注意这里的?可以获取最少匹配项<br>  $ru='/[\s\S]?</p></pre><div class="contentsignin">Copier après la connexion</div></div> <li class='\"\"' createdate='\"\d{4}\-\d{2}\-\d{2}'>[\s\S]?<a href="%5C%22%5C/book%5C/'.%24aid.'_(%5Cd?)%5C%22%5Cs%7B1%7D">.?.?/u';//正则表达式匹配<br>  //设置选项，包括URL<br>  curl_setopt($ch, CURLOPT_URL, $url);<br>  curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);//不自动输出内容<br>  curl_setopt($ch, CURLOPT_HEADER, 0);//不返回头部信息<br>  curl_setopt($ch, CURLOPT_CONNECTTIMEOUT_MS, 0); <br>  //执行curl<br>  $output = curl_exec($ch);<br>  // 检查是否有错误发生<br>  if(curl_errno($ch)){<br>  echo 'Curl error: ' . curl_error($ch);<br>  }<br>  //释放curl句柄<br>  curl_close($ch);<br>  $arr=array();<br>  preg_match_all($ru,$output,$arr,PREG_PATTERN_ORDER);<br>  return $arr[1];<br>  }<br>}<br>?><br></a> </li> </div> <p>getinfo.php<br></p> <div class="codetitle"> <span style="CURSOR: pointer" onclick="doCopy('code20928')"><u>复制代码</u></span> 代码如下:</div> <div class="code" id="code20928"> <br><?php <BR> session_start();<br>require_once("SpiderTools.class.php");<br>if($_REQUEST["bid"]){<br>if(is_numeric($_REQUEST["bid"])){<br> SpiderTools::createBookById(trim($_REQUEST["bid"]));<br> }<br> else{<br>  echo "<br>请输入正确的文章ID<br>";<br> }<br>}<br>?><br> </div> <p>index.html<br></p> <div class="codetitle"> <span style="CURSOR: pointer" onclick="doCopy('code98901')"><u>复制代码</u></span> 代码如下:</div> <div class="code" id="code98901"> <br><br><meta charset="utf-8"> <br><title>下载小说啦

输入磨铁中文网你想看到的小说ID号就可以下载小说啦

function stateChanged()
{
if(xmlHttp.readyState==1){

document.getElementById("info").innerHTML="正在准备工作，请耐心点哦~^_^~
";
}
if(xmlHttp.readyState==2){

document.getElementById("info").innerHTML="正在联系服务器，这可能需要一点时间啦^>";
}

if(xmlHttp.readyState==3){

document.getElementById("info").innerHTML="正在解析数据
";
}

if (xmlHttp.readyState==4 || xmlHttp.readyState=="complete")
{

document.getElementById("info").innerHTML=xmlHttp.responseText;
//xmlHttp.abort();

}

}

function GetXmlHttpObject()
{
var xmlHttp=null;
try
{
// Firefox, Opera 8.0+, Safari
xmlHttp=new XMLHttpRequest();
}
catch (e)
{
//Internet Explorer
try
{
xmlHttp=new ActiveXObject("Msxml2.XMLHTTP");
}
catch (e)
{
xmlHttp=new ActiveXObject("Microsoft.XMLHTTP");
}
}
return xmlHttp;
}

Étiquettes associées：

curl php 正则表达式

source：php.cn

Article précédent：php 时间函数参考_PHP教程 Article suivant：php实现上传图片生成缩略图示例_PHP教程

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Derniers articles par auteur

Qu'est-ce qu'une NullPointerException et comment y remédier ?

2024-10-22 09:46:29
De novice à codeur : votre voyage commence par les principes fondamentaux du C

2024-10-13 13:53:41
Débloquer le développement Web avec PHP : guide du débutant

2024-10-12 12:15:51
Démystifier C : un chemin clair et simple pour les nouveaux programmeurs

2024-10-11 22:47:31
Libérez votre potentiel de codage : programmation C pour les débutants absolus

2024-10-11 19:36:51
Libérez votre programmeur intérieur : C pour les débutants absolus

2024-10-11 15:50:41
Automatisez votre vie avec C : scripts et outils pour les débutants

2024-10-11 15:07:41
PHP Made Easy : vos premiers pas dans le développement Web

2024-10-11 14:21:21
Construisez n'importe quoi avec Python : un guide du débutant pour libérer votre créativité

2024-10-11 12:59:11
La clé du codage : libérer la puissance de Python pour les débutants

2024-10-11 12:17:31

Derniers numéros

Les tableaux PHP obtenus à partir des paramètres d'URL ne se comportent pas comme prévu J'ai un paramètre d'URL qui contient l'identifiant de la catégorie et je souhaite le trait...

Depuis 2024-04-06 22:09:02

0

1

1428

Où dois-je placer la directive CustomLog dans Apache J'utilise php:7.2-apachedocker. Je dois désactiver le journal d'accès à la connexion à l'U...

Depuis 2024-04-06 22:03:59

0

1

990

Quel est le format des variables dans la valeur de retour ? Je suis un nouvel apprenant de php. J'ai trouvé un morceau de code : if($x<time()){retu...

Depuis 2024-04-06 21:55:20

0

1

778

Problèmes rencontrés lors de l'utilisation d'opentbs pour générer des fichiers odt : les valeurs d'une même clé sont affichées dans la même ligne au lieu de colonnes séparées. J'utilise une bibliothèque appelée OpenTbs pour créer odt en utilisant PHP, je l'utilise c...

Depuis 2024-04-06 20:18:18

0

1

483

Regrouper les résultats MySQL par ID pour effectuer une boucle J'ai une table avec des données de vol dans MySQL. J'écris un code php qui regroupera et a...

Depuis 2024-04-06 17:27:56

0

1

406

Rubriques connexes

Plus>

Recommandations populaires

Tutoriels populaires

Plus>

Tutoriels associés

Recommandations populaires

Derniers cours

Derniers téléchargements

Plus>

effets Web

Code source du site Web

Matériel du site Web

Modèle frontal