搜索
  • 登录
  • 注册
密码重置成功

关注您感兴趣的项目并了解有关它们的最新消息

首页 PHP 库 其它类库 phP的抓取网站类库
phP的抓取网站类库
<?php
header("Content-Type: text/html; charset=UTF-8");
require("phpQuery.php");
$hj = QueryList::Query('http://mobile.csdn.net/',array("title"=>array('.unit h1','text')));
//dump($hj->data);
$data = QueryList::Query('http://cms.querylist.cc/bizhi/453.html',array(
    'image' => array('img','src')
    ))->data;
//
$data = QueryList::Query('http://cms.querylist.cc/google/list_1.html',array(
    'link' => array('a','href')
    ))->data;
$page = 'http://cms.querylist.cc/news/566.html';
$reg = array(
    'title' => array('h1','text'),
    'date' => array('.pt_info','text','-span -a',function($content){
        $arr = explode(' ',$content);
        return $arr[0];
    }),
    'content' => array('.post_content','html','a -.content_copyright -script',function($content){
     
            $doc = phpQuery::newDocumentHTML($content);
            $imgs = pq($doc)->find('img');
            foreach ($imgs as $img) {
                $src = 'http://cms.querylist.cc'.pq($img)->attr('src');
                $localSrc = 'w/'.md5($src).'.jpg';
                $stream = file_get_contents($src);
                file_put_contents($localSrc,$stream);
                pq($img)->attr('src',$localSrc);
            }
            return $doc->htmlOuter();
    })
    );
$rang = '.content';
$ql = QueryList::Query($page,$reg,$rang);
$data = $ql->getData();
dump($data);

支持抓取网站,进行爬虫,非常强大,是一个基于PHP的服务端开源项目,它可以让PHP开发人员轻松处理DOM文档内容,比如获取某新闻网站的头条信息。更有意思的是,它采用了jQuery的思想,你可以像使用jQuery一样处理页面内容,获取你想要的页面信息。

免责声明

本站所有资源均由网友贡献或各大下载网站转载。请自行检查软件的完整性!本站所有资源仅供学习参考。请不要将它们用于商业目的。否则,一切后果由您负责!如有侵权,请联系我们删除。联系方式:[email protected]

如何精准展开并抓取ESCO网站中S-skills分类下的全部层级内容 如何精准展开并抓取ESCO网站中S-skills分类下的全部层级内容

19 Mar 2026

本文介绍使用Selenium自动化点击ESCO技能分类页中“S-skills”节点下所有可展开的层级( 按钮),直至无更多子节点,并完整保存渲染后的HTML源码,避免重复点击与DOM失效问题。

我认为 Windows 库毫无用处,直到我像这样使用它们 我认为 Windows 库毫无用处,直到我像这样使用它们

28 Feb 2026

文件资源管理器拥有多项未被充分重视的功能,其中许多功能 Windows 故意隐藏起来。库完全属于这一类,特别是因为 Windows 11 默认情况下禁用它们。乍一看,库可以

如何在 PHP 中生成 UUID? 如何在 PHP 中生成 UUID?

17 Nov 2025

建议在 PHP 中生成 UUID 的方法是使用 Ramsey/uuid 库。首先,通过 Composer 安装它,并要求 ramsey/uuid。然后使用 $uuid=\Ramsey\Uuid\Uuid::uuid4();echo $uuid->toString(); 生成 UUID 版本 4(随机);echo $uuid->toString();,其输出格式类似于“5”

Go语言匿名字段的访问机制详解 Go语言匿名字段的访问机制详解

01 Apr 2026

Go语言中的匿名(嵌入式)字段是一种强大的组合机制,它允许结构体直接嵌入其他类型。本教程将深入探讨如何正确访问这些匿名字段,特别是当它们是指针类型时。我们将通过GoQuery库中的实际案例,结合Go语言规范,详细解释其访问规则,并提供清晰的代码示例,帮助开发者理解和掌握这一特性。

如何在Java中正确调用其他类中的私有方法 如何在Java中正确调用其他类中的私有方法

28 Feb 2026

私有方法(private)仅限于定义它的类内部访问,无法被其他类(包括组合关系的Customer类)直接调用;若需跨类使用,应将其设计为public或protected,并遵循封装原则提供合理接口。

如何使用 Golang 连接 PostgreSQL 数据库? (驱动程序和查询) 如何使用 Golang 连接 PostgreSQL 数据库? (驱动程序和查询)

07 Feb 2026

使用pgx代替lib/pq——它更快,支持池化,并且可靠地处理类型;pgx/v5通过astdlibwrapper提供数据库/sql兼容性。

显示更多