首页 » SEO优化 » php捏造header采集技巧_用一个示例简单讲一下网站采集的的过程

php捏造header采集技巧_用一个示例简单讲一下网站采集的的过程

访客 2024-12-06 0

扫一扫用手机浏览

文章目录 [+]

$ch = curl_init();curl_setopt($ch, CURLOPT_URL, $url);//将为一个CURL会话设置选项。
CURLOPT_URL参数是你想要的设置, 这是你想用PHP取回的URL地址,$url是这个选项给定的值curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, 0);//如果有证书的https的,撤除https里面的s,此句非常主要,不可删除,否则带有https的站点将无法打开curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);//所获的内容不输出$data=curl_exec($ch);//将页面的内容赋于$data,即$data便是我们打开网页后的内容代码$data=iconv('gbk', 'utf-8',$data);//防止中文的乱码,做转码处理curl_close($ch);//关闭cURL 会话咱们先打开太平洋新闻网,然后查看网页源代码,找到要采集的信息内容,截图下图:

根据上面的代码,我们可以写一个正则表达:$path = '#<i class="lpic"><a href="(.?)" target="_blank"><img width="200" height="150" src="//www1.pconline.com.cn/images/blank.gif" (.?)="(.?)" alt=""> </a></i><dl><dt><a href="(.?)" target="_blank">(.?)</a></dt><dd><span class="des">(.?)</span><p class="info"><span class="channel"><a href="(.?)" target="_blank">(.?) </a></span><span class="date">| (.?)</span></p></dd></dl>#is'; preg_match_all($path,$data,$arr);//正则匹配,个中$path是匹配的规则,$data是想要匹配的内容,$datapath给定正则表达式 的匹配结果并且将它们以flag指定顺序输出到$arr中.$array = array();//初始化一个数组foreach($arr as $k=>$v){if($k==3||$k==4||$k==5||$k==6||$k==9){ //想要的参数有哪些$array[$k] = $v;}}if(!empty($array)){ $array = array_values($array);//重置数组key,让数组的key从0开始打算,也可以不重置,但不要弄错}/个中$array[0] 是信息的图片绝对地址的数组$array[1] 是信息链接地址的数组$array[2] 是信息标题的数组$array[3] 是信息列表简介的数组$array[4] 是信息韶光的数组 Print_r($array);根据输入的数组信息就知道如何把数据添加到数据库了,然后根据url再采集信息里面的详细内容,以达到采集整条信息的完全性/

php捏造header采集技巧_用一个示例简单讲一下网站采集的的过程

php捏造header采集技巧_用一个示例简单讲一下网站采集的的过程
(图片来自网络侵删)
标签:

相关文章

php表达圆面积技巧_PHP教程第四课常量

变量不是很好吗?为要有常量?学姐回答:请看例子如果让你打算好多圆的面积,用公式:S = 兀R^2就可以算出,但是兀须要按需求改精度...

SEO优化 2024-12-08 阅读0 评论0