• 技术文章 >后端开发 >Python教程

    PHP网页抓取之抓取百度贴吧邮箱数据代码分享

    2016-06-10 15:05:15原创547
    百度贴吧大家都经常逛,去逛百度贴吧的时候,经常会看到楼主分享一些资源,要求留下邮箱,楼主才给发。

    对于一个热门的帖子,留下的邮箱数量是非常多的,楼主需要一个一个的去复制那些回复的邮箱,然后再粘贴发送邮件,不是被折磨死就是被累死。无聊至极写了一个抓取百度贴吧邮箱数据的程序,需要的拿走。

    程序实现了一键抓取帖子全部邮箱和分页抓取邮箱两个功能,界面懒得做了,效果如下:

    老规矩,直接贴源码

    <?php
    $url2="";
    $page="";
    if($_GET['url2']==""){
    $url2="http://tieba.baidu.com/p/2314539885?pn=1";
    }else{
    $url2=$_GET['url2'];
    }
    
    if($_GET['page']==""){
    $page="1";
    }else{
    $page=$_GET['page'];
    }
    ?>
    
    帖子链接:
    总页数:
    帖子链接:
    <?php if($_GET['type']!=""){ $counts=0; if($_GET['type']=="getAll"){ $pages=$_GET['page']; $url = $_GET['url']; for($i=0;$i<$pages;$i++){ $ch2 = curl_init(); curl_setopt($ch2, CURLOPT_URL, $url); curl_setopt($ch2, CURLOPT_FOLLOWLOCATION, TRUE); curl_setopt($ch2, CURLOPT_SSL_VERIFYHOST, FALSE); curl_setopt($ch2, CURLOPT_SSL_VERIFYPEER, false); curl_setopt($ch2, CURLOPT_RETURNTRANSFER, TRUE); $texts = curl_exec($ch2); curl_close($ch2); $dat=getEmail($texts); for($j=0;$j"; $counts++; } } }else if($_GET['type']=="getNow"){ $url = $_GET['url2']; $ch2 = curl_init(); curl_setopt($ch2, CURLOPT_URL, $url); curl_setopt($ch2, CURLOPT_FOLLOWLOCATION, TRUE); curl_setopt($ch2, CURLOPT_SSL_VERIFYHOST, FALSE); curl_setopt($ch2, CURLOPT_SSL_VERIFYPEER, false); curl_setopt($ch2, CURLOPT_RETURNTRANSFER, TRUE); $texts = curl_exec($ch2); curl_close($ch2); $dat=getEmail($texts); for($i=0;$i"; $counts++; } } echo '

    共采集到数据:'.$counts.'条

    '; } function getEmail($str){ $pattern = "/([a-z0-9\-_\.]+@[a-z0-9]+\.[a-z0-9\-_\.]+)/"; preg_match_all($pattern,$str,$emailArr); return $emailArr[0]; } ?>
    声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn核实处理。
    上一篇:说一说Python logging 下一篇:Python Web框架Tornado运行和部署
    VIP课程(WEB全栈开发)

    相关文章推荐

    • 【腾讯云】年中优惠,「专享618元」优惠券!• 归纳总结Python函数进阶的使用方法• Python接口自动化测试必备基础之http协议详解• Python 3.11中的最佳新功能和功能修复• 实例详解Python面向对象的四大特征• Python数据分析之concat与merge函数(实例详解)
    1/1

    PHP中文网