curl은 파일 업로드 및 다운로드를 지원하는 매우 강력한 HTTP 전송 도구입니다.
-a/--append 上传文件时,附加到目标文件 -A/--user-agent设置用户代理发送给服务器 - anyauth 可以使用“任何”身份验证方法 -b/--cookiecookie字符串或文件读取位置 - basic 使用HTTP基本验证 -B/--use-ascii 使用ASCII /文本传输 -c/--cookie-jar操作结束后把cookie写入到这个文件中 -C/--continue-at断点续转 -d/--dataHTTP POST方式传送数据 --data-ascii以ascii的方式post数据 --data-binary以二进制的方式post数据 --negotiate 使用HTTP身份验证 --digest 使用数字身份验证 --disable-eprt 禁止使用EPRT或LPRT --disable-epsv 禁止使用EPSV -D/--dump-header把header信息写入到该文件中 --egd-file为随机数据(SSL)设置EGD socket路径 --tcp-nodelay 使用TCP_NODELAY选项 -e/--referer 来源网址 -E/--cert客户端证书文件和密码 (SSL) --cert-type证书文件类型 (DER/PEM/ENG) (SSL) --key私钥文件名 (SSL) --key-type私钥文件类型 (DER/PEM/ENG) (SSL) --pass私钥密码 (SSL) --engine加密引擎使用 (SSL). "--engine list" for list --cacertCA证书 (SSL) --capathCA目录 (made using c_rehash) to verify peer against (SSL) --ciphersSSL密码 --compressed 要求返回是压缩的形势 (using deflate or gzip) --connect-timeout设置最大请求时间 --create-dirs 建立本地目录的目录层次结构 --crlf 上传是把LF转变成CRLF -f/--fail 连接失败时不显示http错误 --ftp-create-dirs 如果远程目录不存在,创建远程目录 --ftp-method [multicwd/nocwd/singlecwd] 控制CWD的使用 --ftp-pasv 使用 PASV/EPSV 代替端口 --ftp-skip-pasv-ip 使用PASV的时候,忽略该IP地址 --ftp-ssl 尝试用 SSL/TLS 来进行ftp数据传输 --ftp-ssl-reqd 要求用 SSL/TLS 来进行ftp数据传输 -F/--form模拟http表单提交数据 -form-string模拟http表单提交数据 -g/--globoff 禁用网址序列和范围使用{}和[] -G/--get 以get的方式来发送数据 -h/--help 帮助 -H/--header自定义头信息传递给服务器 --ignore-content-length 忽略的HTTP头信息的长度 -i/--include 输出时包括protocol头信息 -I/--head 只显示文档信息 从文件中读取-j/--junk-session-cookies忽略会话Cookie - 界面指定网络接口/地址使用 - krb4 启用与指定的安全级别krb4 -j/--junk-session-cookies 读取文件进忽略session cookie --interface使用指定网络接口/地址 --krb4使用指定安全级别的krb4 -k/--insecure 允许不使用证书到SSL站点 -K/--config 指定的配置文件读取 -l/--list-only 列出ftp目录下的文件名称 --limit-rate设置传输速度 --local-port强制使用本地端口号 -m/--max-time设置最大传输时间 --max-redirs设置最大读取的目录数 --max-filesize设置最大下载的文件总量 -M/--manual 显示全手动 -n/--netrc 从netrc文件中读取用户名和密码 --netrc-optional 使用 .netrc 或者 URL来覆盖-n --ntlm 使用 HTTP NTLM 身份验证 -N/--no-buffer 禁用缓冲输出 -o/--output 把输出写到该文件中 -O/--remote-name 把输出写到该文件中,保留远程文件的文件名 -p/--proxytunnel 使用HTTP代理 --proxy-anyauth 选择任一代理身份验证方法 --proxy-basic 在代理上使用基本身份验证 --proxy-digest 在代理上使用数字身份验证 --proxy-ntlm 在代理上使用ntlm身份验证 -P/--ftp-port使用端口地址,而不是使用PASV -Q/--quote文件传输前,发送命令到服务器 -r/--range检索来自HTTP/1.1或FTP服务器字节范围 --range-file 读取(SSL)的随机文件 -R/--remote-time 在本地生成文件时,保留远程文件时间 --retry传输出现问题时,重试的次数 --retry-delay传输出现问题时,设置重试间隔时间 --retry-max-time传输出现问题时,设置最大重试时间 -s/--silent静音模式。不输出任何东西 -S/--show-error 显示错误 --socks4用socks4代理给定主机和端口 --socks5用socks5代理给定主机和端口 --stderr-t/--telnet-optionTelnet选项设置 --trace对指定文件进行debug --trace-asciiLike --跟踪但没有hex输出 --trace-time 跟踪/详细输出时,添加时间戳 -T/--upload-file上传文件 --urlSpet URL to work with -u/--user设置服务器的用户和密码 -U/--proxy-user设置代理用户名和密码 -v/--verbose -V/--version 显示版本信息 -w/--write-out [format]什么输出完成后 -x/--proxy在给定的端口上使用HTTP代理 -X/--request指定什么命令 -y/--speed-time 放弃限速所要的时间。默认为30 -Y/--speed-limit 停止传输速度的限制,速度时间'秒' -z/--time-cond 传送时间设置 -0/--http1.0 使用HTTP 1.0 -1/--tlsv1 使用TLSv1(SSL) -2/--sslv2 使用SSLv2的(SSL) -3/--sslv3 使用的SSLv3(SSL) --3p-quote like -Q for the source URL for 3rd party transfer --3p-url 使用url,进行第三方传送 --3p-user 使用用户名和密码,进行第三方传送 -4/--ipv4 使用IP4 -6/--ipv6 使用IP6 -#/--progress-bar 用进度条显示当前的传送状态
페이지 내용을 파일로 캐치
curl -o home.html http://www.pinlehuo.com $ -o/--output 把输出写到该文件中 # 或者 ↓↓ $ curl http://www.linuxidc.com > page.html
특정 파일을 가져오려면 -O(대문자)를 사용하고 다음 URL은 특정 파일에 특정해야 합니다. 그렇지 않으면 캡처할 수 없습니다. 정규식을 사용하여 캡처할 수도 있지만 파일 이름은 여전히 구체적이어야 합니다.
$ curl -O www.pinlehuo.com/d/file/admin/2015/05/5551bf06428ec.jpg $ curl -O http://www.codesky.net/wp-content/uploads/2010/[0-9][0-9]/aaaaa.jpg
양식 정보 시뮬레이션, 로그인 시뮬레이션, 쿠키 정보 저장
# -D/--dump-header把header信息写入到该文件中 $ curl -c ./cookie_c.txt -F log=aaaa -F pwd=****** http://www.codesky.net/wp-login.php (没试过~)
응답 헤더 정보 보기
curl -I http://www.sunrisecorp.net/
양식 정보 시뮬레이션, 로그인 시뮬레이션, 헤더 정보 저장
curl -D ./cookie_D.txt -F log=aaaa -F pwd=****** http://www.codesky.net/wp-login.php # -c(小写)产生的cookie和-D里面的cookie是不一样的。
쿠키 파일 사용
curl -b ./cookie_c.txt http://www.codesky.net/wp-admin
중단점 재개, -C(대문자)
curl -C -O http://www.codesky.net/wp-content/uploads/2010/09/compare_varnish.jpg
데이터를 전송하려면 로그인 페이지를 사용하여 테스트하는 것이 가장 좋습니다. 값을 전달한 후 컬이 데이터를 검색하고 전달한 값이 성공했는지 확인할 수 있기 때문입니다
curl -d log=aaaa http://www.codesky.net/wp-login.php
가짜 소스 주소, 일부 웹 사이트는 요청 소스 주소를 결정합니다
curl -e http://localhost http://www.codesky.net/wp-login.php
다른 사람의 물건을 얻기 위해 컬을 자주 사용하면 이때 귀하의 IP를 사용할 수 있습니다. 프록시
curl -x 24.10.28.84:32779 -o home.html http://www.codesky.net
큰 파일의 경우 부분적으로 다운로드할 수 있습니다
[root@krlcgcms01 mytest]# curl -r 0-100 -o img.part1 http://www.codesky.net/wp- content/uploads/2010/09/compare_varnish.jpg % Total % Received % Xferd Average Speed Time Time Time Current Dload Upload Total Spent Left Speed 100 101 100 101 0 0 105 0 --:--:-- --:--:-- --:--:-- 0 [root@krlcgcms01 mytest]# curl -r 100-200 -o img.part2 http://www.codesky.net/wp- content/uploads/2010/09/compare_varnish.jpg % Total % Received % Xferd Average Speed Time Time Time Current Dload Upload Total Spent Left Speed 100 101 100 101 0 0 57 0 0:00:01 0:00:01 --:--:-- 0 [root@krlcgcms01 mytest]# curl -r 200- -o img.part3 http://www.codesky.net/wp- content/uploads/2010/09/compare_varnish.jpg % Total % Received % Xferd Average Speed Time Time Time Current Dload Upload Total Spent Left Speed 100 104k 100 104k 0 0 52793 0 0:00:02 0:00:02 --:--:-- 88961 [root@krlcgcms01 mytest]# ls |grep part | xargs du -sh 4.0K one.part1 112K three.part3 4.0K two.part2 用的时候,把他们cat一下就OK了,cat img.part* >img.jpg
다운로드 진행 정보 표시
[root@krlcgcms01 mytest]# curl -# -O http://www.codesky.net/wp-content/uploads/2010/09/compare_varnish.jpg ######################################################################## 100.0%
ftp를 통해 파일 다운로드
[zhangy@BlackGhost ~]$ curl -u 用户名:密码 -O http://www.codesky.net/demo/curtain/bbstudy_files/style.css % Total % Received % Xferd Average Speed Time Time Time Current Dload Upload Total Spent Left Speed 101 1934 101 1934 0 0 3184 0 --:--:-- --:--:-- --:--:-- 7136 或者用下面的方式 [zhangy@BlackGhost ~]$ curl -O ftp://用户名:密码@ip:port/demo/curtain/bbstudy_files/style.css
ftp를 통해 업로드
[zhangy@BlackGhost ~]$ curl -T test.sql ftp://用户名:密码@ip:port/demo/curtain/bbstudy_files/
WAMP 환경
다음 2개 파일을 각각 엽니다.
wampbinphp(PHP 버전)php.ini
wampbinApache(Apache 버전)binphp.ini
extension=php_curl.dll을 검색한 다음 이전 기호를 삭제하고
WAMP를 다시 시작하세요.
//↑↑위의 작업을 먼저 수행하고 그렇지 않은 경우 다음 두 가지를 참조하십시오.
참고: 64비트 시스템인 경우 http://www.anindya도 방문해야 합니다. com/에서 해당 버전의 64비트 PHP 압축 패키지를 다운로드하려면 압축을 푼 후 ext 디렉터리의 php_curl.dll 파일을 wamp php 해당 버전 wampbinphpphp5.4.12의 ext 디렉터리에 있는 php_curl.dll 파일로 덮어쓴 다음 WAMP를 다시 시작하세요.
참고 웹사이트: http://blog.csdn.net/ewili/article/details/9008493
window
1.php.ini Extension=php_curl.dll 앞의 세미콜론을 제거하세요.
2.php_curl.dll,libeay32.dll , ssleay32.dll은 %windir%/system32에 복사됩니다
linux
php가 시스템에서 컴파일된 경우 나중에 새 확장을 추가해야 합니다. . 하나는 PHP를 완전히 재컴파일하는 것이고, 다른 하나는 확장 라이브러리를 별도로 컴파일하여 확장 형태로 확장하는 것이다. 다음은 컬 확장 설치 예입니다.
./configure
make
php에서는 컬 디렉터리에 include 및 lib 디렉터리가 있어야 하며 easy.h와 컬.h 두 파일이 있어야 합니다. include 아래에는 lib libcurl.a가 있어야 합니다. 컴파일 후에는 include의 파일이 존재하지만 lib 디렉토리에는 없습니다. 원래 lib/.libs 디렉터리에 생성되었으므로 lib 디렉터리에 복사
2. 원본 PHP가 설치된 소스코드 디렉터리인
cd ext
cd 컬
phpize
. /configure --with-curl=DIR
make
는 PHPDIR/ext/curl/moudles/ 아래에 컬.so 파일을 생성합니다.
curl_close — 关闭一个curl会话 curl_copy_handle — 拷贝一个curl连接资源的所有内容和参数 curl_errno — 返回一个包含当前会话错误信息的数字编号 curl_error — 返回一个包含当前会话错误信息的字符串 curl_exec — 执行一个curl会话 curl_getinfo — 获取一个curl连接资源句柄的信息 curl_init — 初始化一个curl会话 curl_multi_add_handle — 向curl批处理会话中添加单独的curl句柄资源 curl_multi_close — 关闭一个批处理句柄资源 curl_multi_exec — 解析一个curl批处理句柄 curl_multi_getcontent — 返回获取的输出的文本流 curl_multi_info_read — 获取当前解析的curl的相关传输信息 curl_multi_init — 初始化一个curl批处理句柄资源 curl_multi_remove_handle — 移除curl批处理句柄资源中的某个句柄资源 curl_multi_select — Get all the sockets associated with the cURL extension, which can then be "selected" curl_setopt_array — 以数组的形式为一个curl设置会话参数 curl_setopt — 为一个curl设置会话参数 参考网址:http://blog.csdn.net/superbirds/article/details/7532277: curl_setopt 会话参数详解 参考网址:http://www.zhibotie.net/space-1-do-blog-id-71.html curl_version — 获取curl相关的版本信息 curl_init()函数的作用初始化一个curl会话,curl_init()函数唯一的一个参数是可选的,表示一个url地址。 curl_exec()函数的作用是执行一个curl会话,唯一的参数是curl_init()函数返回的句柄。 curl_close()函数的作用是关闭一个curl会话,唯一的参数是curl_init()函数返回的句柄。
일반적인 웹 페이지 크롤링 예시
// 1. 初始化 $ch = curl_init(); //$ch = curl_init("http://www.baidu.com/"); // 2. 设置选项,包括URL curl_setopt($ch, CURLOPT_URL, "http://www.baidu.com/");//CURLOPT_URL: 这是你想用PHP取回的URL地址。 你也可以在用curl_init()函数初始化时设置这个选项 curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);//设定是否输出页面内容,这里为0的话,后面就不用echo, 就直接把curl抓回来的内容输出; curl_setopt($ch, CURLOPT_HEADER, 0);//设定是否显示头信息,为1的时候,就会把响应头信息也给一并输出 // 3. 执行并获取HTML文档内容 $output = curl_exec($ch); //echo $output;//输出抓回来的网页;如果curl_setopt($ch, CURLOPT_RETURNTRANSFER, 0),就不需要此句; // 4. 释放curl句柄 curl_close($ch);
크롤링을 기준으로 오류를 판단하고 오류를 출력하고 크롤링된 정보를 가져옵니다. 지난 페이지에 대해
// 1. 初始化 $ch = curl_init(); //$ch = curl_init("http://www.baidu.com/"); // 2. 设置选项,包括URL curl_setopt($ch, CURLOPT_URL, "http://www.baidu.com");//CURLOPT_URL: 这是你想用PHP取回的URL地址。 你也可以在用curl_init()函数初始化时设置这个选项 curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);//设定是否输出页面内容,这里为0的话,后面就不用echo, 就直接把curl抓回来的内容输出; curl_setopt($ch, CURLOPT_HEADER, 0);//设定是否显示头信息,为1的时候,就会把响应头信息也给一并输出 // 3. 执行并获取HTML文档内容 $output = curl_exec($ch); //echo $output;//输出抓回来的网页;如果curl_setopt($ch, CURLOPT_RETURNTRANSFER, 0),就不需要此句; #判断错误并输出错误 if($output === false){ //全等,不能==; 是为了和获取为空字符串分开; echo "cUrl Error:" . curl_error($h); //如果获取失败的话,就输出失败原因;但是在有时候却被工信部重定向到114查询; } #得到抓取过来的页面的信息 //$info = curl_getinfo($ch); //print_r($info);//包含了抓取过来的页面的信息 /* “url” //资源网络地址 “content_type” //内容编码 “http_code” //HTTP状态码 “header_size” //header的大小 “request_size” //请求的大小 “filetime” //文件创建时间 “ssl_verify_result” //SSL验证结果 “redirect_count” //跳转技术 “total_time” //总耗时 “namelookup_time” //DNS查询耗时 “connect_time” //等待连接耗时 “pretransfer_time” //传输前准备耗时 “size_upload” //上传数据的大小 “size_download” //下载数据的大小 “speed_download” //下载速度 “speed_upload” //上传速度 “download_content_length”//下载内容的长度 “upload_content_length” //上传内容的长度 “starttransfer_time” //开始传输的时间 “redirect_time”//重定向耗时 */ //echo '获取'. $info['url'] . '耗时'. $info['total_time'] . '秒'; // 4. 释放curl句柄 curl_close($ch);
> 넷(m.sbmmt.com)!