用cURL制作一个简单的网页爬虫
查看对cURL支持
php -i |grep curl
1 2 3 4 5
| <?php $curl = curl_init("http://www.baidu.com"); #初始化curl curl_exec($curl); #执行 curl_close($curl); #关闭curl ?>
|
将如上代码保存为a.php,在php目录下执行php -f a.php >baidu.html.
查看生成的baidu.html文件,可以发现百度页面已经被我们下载到本地了。
用cURL抓取网页信息并替换部分内容
1 2 3 4 5 6 7 8 9
| <?php $curlobj = curl_init(); #初始化 curl_setopt($curlobj, CURLOPT_URL, "http://www.baidu.com" ); #设置访问网页的URL curl_setopt($curlobj, CURLOPT_RETURNTRANSFER, true ); #执行之后不直接打印出来 $output = curl_exec($curlobj); #执行 curl_close($curlobj); #关闭cURL echo str_replace("百度", "摆渡", $output ) ; ?>
|
将如上代码保存为b.php,在php目录下执行php -f b.php >baidu.html.
查看生成的baidu.html文件,可以发现下载到本地的baidu.html中“百度”都被替换成“摆渡”了。
<未完待续>