首页 >后端开发 >PHP问题 > 正文

php获取网页内容注意什么

原创2019-10-08 17:45:3801676

PHP获取网页内容注意事项

1、网络会出错,任何错误都可能。例如机器宕了,网线断了,域名出错了,网络超时了,页面没有了,网站跳转了,服务被禁了,主机负载不够了…

2、服务器加上了限制,只让常见浏览器访问

3、服务器加上了防盗链的限制

4、某些网站不管你HTTP请求里有没有Accept-Encoding头部,也不管你头部具体内容是什么,反正总给你发gzip后的内容

5、URL链接千奇百怪,带汉字的也罢了,有的甚至还有回车换行

6、某些网站HTTP头部里有一个Content-Type,网页里有好几个Content-Type,更过分的是,各个Content-Type还不一样,最过分的是,这些Content-Type可能都不是正文里使用的Content-Type,从而导致乱码

7、网络链接很慢,乘分析几千个页面的时间,建议你可以好好吃顿饭去了

PHP获取网页内容的方法

方法一、使用file_get_contents方法实现

$url = "http://news.sina.com.cn/c/nd/2016-10-23/doc-ifxwztru6951143.shtml";
    $html = file_get_contents($url);
    //如果出现中文乱码使用下面代码
    //$getcontent = iconv("gb2312", "utf-8",$html);
    echo "<textarea style='width:800px;height:600px;'>".$html."</textarea>";

方法二、使用curl实现

$url = "http://news.sina.com.cn/c/nd/2016-10-23/doc-ifxwztru6951143.shtml";
    
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, 10);
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);
$html = curl_exec($ch);
curl_close($ch);

echo "<textarea style='width:800px;height:600px;'>".$html."</textarea>";
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);

加上这句代码,表示如果请求被重定向时,可以访问到最终的请求页面,不然请求的结果会显示如下内容:

<head><title>Object moved</title></head>
<body><h1>Object Moved</h1>This object may be found <a href="some link." rel="external nofoll

推荐教程:PHP视频教程

以上就是php获取网页内容注意什么的详细内容,更多请关注php中文网其它相关文章!

php中文网最新课程二维码

声明:本文原创发布php中文网,转载请注明出处,感谢您的尊重!如有疑问,请联系admin@php.cn处理

  • 相关标签:php 获取 网页 注意
  • 相关文章

    相关视频


    网友评论

    文明上网理性发言,请遵守 新闻评论服务协议

    我要评论
  • 专题推荐

    推荐视频教程
  • 独孤九贱(4)_PHP视频教程独孤九贱(4)_PHP视频教程
  • php留言本实战开发视频教程php留言本实战开发视频教程
  • 三天学会PHP爬虫视频教程三天学会PHP爬虫视频教程
  • PHP留言板开发实战PHP留言板开发实战
  • 视频教程分类