• 技术文章 >后端开发 >php教程

    PHP采集网页信息

    2016-06-13 12:53:33原创395
    【求助】PHP采集网页信息
    需要采集
    http://bbs.zhanzhang.baidu.com/home.php?mod=space&uid=*
    不同UID的用户名
    不熟悉PHP以及正则,只是单纯的想要结果,所以麻烦直接给出PHP代码和前1000个UID的用户名,谢谢。
    php


    ------解决方案--------------------
    $html = file_get_contents('http://bbs.zhanzhang.baidu.com/home.php?mod=space&uid=1');
    preg_match('@

    (.*?)<\/h2>@',$html,$match);
    //var_dump($match);
    echo strip_tags($match[0]);


    理论上uid是自增的,前1000个就是1-1000,数字自己换吧。
    ------解决方案--------------------
    $url = 'http://bbs.zhanzhang.baidu.com/home.php?mod=space&uid=';

    $res = array();
    $uid = 1;
    while(count($res) < 20) { //获取前20个,自己根据需要修改
    if(preg_match('//s', file_get_contents($url.$uid), $r)){
    if(preg_match_all('/\w+/', strip_tags($r[0]), $r) == 3) {
    $res[$r[0][2]] = $r[0][0];
    }
    }
    $uid++;
    }
    print_r($res);
    结果:(关联键为UID,值为用户名)

    Array
    (
    [1] => sitemapbbs
    [7] => _
    [8] => sitemapTest2
    [9] => sitemapTest
    [10] => sitemapTest32
    [13] => sitemapTest3
    [14] => kkksuper
    [16] => 05
    [17] => caoli456
    [18] => wangbin_ivan
    [19] => geiwosou
    [20] => sitemap_test1
    [21] => sitemap_test5
    [22] => _
    [23] => lkmmmmj
    [24] => blackfox1983
    [25] => dongbei_wb
    [26] => xyzlinger
    [27] => sanwushuosi
    [28] => 007
    )

    ------解决方案--------------------
    同上,不过file_get_contents方法有时候会太慢,可以采用curl.
    声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn核实处理。
    专题推荐:nbsp gt uid match sitemapTest
    上一篇: 学习PHP中,想了解上怎么制作一个完整项目的,从最初构思到框架搭建,到程序编写,有这方面的书籍或者视频吗 下一篇:自己动手写 PHP MVC 框架(40节精讲/巨细/新人进阶必看)

    相关文章推荐

    • 深入了解PHP:用gdb调试源码• 实例介绍:使用Docker快速搭建多版本PHP开发环境• 实例详解PHP统计代码行数及文件数量的方法• PHP里8个鲜为人知的安全函数分析,php鲜为人知函数_PHP教程• PHP利用MySQL保存session的实现思路及示例代码,mysqlsession_PHP教程
    1/1

    PHP中文网