首页 » 网站建设 » hisphp技巧_记录微信年夜众号历史文章采集三爬取历史文章信息和原文地址

hisphp技巧_记录微信年夜众号历史文章采集三爬取历史文章信息和原文地址

访客 2024-11-12 0

扫一扫用手机浏览

文章目录 [+]

参考自知乎专题微信"大众年夜众号内容的批量采集与运用,作者:飯口組組長

原作者(飯口組組長)有一句话:我的方法来源于许多同行的分享精神,以是我也会延续这个精神,将我的成果分享出来。

hisphp技巧_记录微信年夜众号历史文章采集三爬取历史文章信息和原文地址

这系列的文章也是为了延续这份分享精神!

hisphp技巧_记录微信年夜众号历史文章采集三爬取历史文章信息和原文地址
(图片来自网络侵删)

该系列文章是根据知乎专题的教程一步一步实现过程,以及实现过程中踩过的一些坑。

关于事理先容这里就不重复了,大家可以参考知乎专题。

前期的代码可以在专题中找到。

PHP代码修正

在完善php代码之前,我们要先准备一份链接数据的代码。
这里也没准备用啥框架实现,就直接写了个大略的获取pdo链接的函数:

代码这里就不做详细阐明了,感兴趣的可以去理解下pdo。

接下来完善getMsgJson.php,这个文件。
该php就能实现爬取历史页面的文章信息和原文地址了。
但爬取微信文章内容还须要其他代码。

嗯嗯,直接给改好的代码吧,有不懂的可以私聊问作者吧,有空只管即便回。

<?include 'getConnection.php';$str = $_POST['str'];$url = $_POST['url'];//先获取到两个POST变量//先针对url参数进行操作parse_str(parse_url(htmlspecialchars_decode(urldecode($url)),PHP_URL_QUERY ),$query);//解析url地址$biz = $query['__biz'];//得到公众年夜众号的biz//接下来进行以下操作//从数据库中查询biz是否已经存在,如果不存在则插入,这代表着我们新添加了一个采集目标"大众年夜众号。
$pdo = getConnection();$sql = 'SELECT FROM weixin WHERE biz = ?';$stmt = $pdo->prepare($sql);$stmt->bindParam(1, $biz);$stmt->execute();$res = $stmt->fetch(PDO::FETCH_ASSOC);if (!$res) { $sql = 'INSERT INTO weixin (biz, collect) VALUES (?, ?)'; $stmt = $pdo->prepare($sql); $stmt->execute(array($biz, strtotime(\公众now\"大众)));}//再解析str变量$json = urldecode($str);//首先进行json_decodefile_put_contents('./his.txt', $json);// $json = htmlspecialchars_decode($json);//首先进行json_decode$json = json_decode($json, true);//首先进行json_decodeif(!$json){ $json = json_decode(htmlspecialchars_decode($str),true);//如果不堪利,就增加一步htmlspecialchars_decode}foreach($json['list'] as $k=>$v){ $type = $v['comm_msg_info']['type']; if($type==49){//type=49代表是图文 $content_url = str_replace(\公众\\\"大众, \"大众\"大众, htmlspecialchars_decode($v['app_msg_ext_info']['content_url']));//得到图文的链接地址 $is_multi = $v['app_msg_ext_info']['is_multi'];//是否是多图文 $datetime = $v['comm_msg_info']['datetime'];//图文发送韶光 //在这里将图文链接地址插入到采集行列步队库中(行列步队库将在后文先容,紧张目的是建立一个批量采集行列步队,另一个程序将根据行列步队安排下一个采集的公众年夜众号或者文章内容) $sql = 'SELECT id FROM tmplist WHERE content_url = ?'; $stmt = $pdo->prepare($sql); $stmt->bindParam(1, $content_url); $stmt->execute(); $res = $stmt->fetch(PDO::FETCH_ASSOC); if (!$res) { $sql = 'INSERT INTO tmplist (content_url) VALUES (?)'; $stmt = $pdo->prepare($sql); $stmt->bindParam(1, $content_url); $res = $stmt->execute(); $post = array(); $post['field_id'] = $v['app_msg_ext_info']['fileid'];//一个微信给的id $post['title'] = $v['app_msg_ext_info']['title'];//文章标题 $post['title_encode'] = urlencode(str_replace(\"大众 \"大众, \"大众\"大众, $post['title']));//建议将标题进行编码,这样就可以存储emoji分外符号了 $post['digest'] = $v['app_msg_ext_info']['digest'];//文章择要 $post['source_url'] = str_replace(\公众\\\"大众, \"大众\公众, htmlspecialchars_decode($v['app_msg_ext_info']['source_url']));//阅读原文的链接 $post['cover'] = str_replace(\公众\\\"大众, \"大众\公众, htmlspecialchars_decode($v['app_msg_ext_info']['cover']));//封面图片 $post['is_top'] = 1;//标记一下是头条内容 $post['is_multi'] = $is_multi; $post['biz'] = $biz; $post['content_url'] = $content_url; $post['zdatetime'] = $datetime;//文章择要 //现在存入数据库 $sql = 'INSERT INTO post (biz, field_id, title, title_encode, digest, content_url, source_url, cover, is_top, is_multi, zdatetime) VALUES (:biz, :field_id, :title, :title_encode, :digest, :content_url, :source_url, :cover, :is_top, :is_multi, :zdatetime)'; $stmt = $pdo->prepare($sql); $res = $stmt->execute($post); } if($is_multi==1){//如果是多图文 foreach($v['app_msg_ext_info']['multi_app_msg_item_list'] as $kk=>$vv){//循环后面的图文 $content_url = str_replace(\公众\\\公众,\"大众\公众,htmlspecialchars_decode($vv['content_url']));//图文链接地址 //这里再次根据$content_url判断一下数据库中是否重复以免出错 $sql = 'SELECT id FROM tmplist WHERE content_url = ?'; $stmt = $pdo->prepare($sql); $stmt->bindParam(1, $content_url); $stmt->execute(); $res = $stmt->fetch(PDO::FETCH_ASSOC); if (!$res) { $sql = 'INSERT INTO tmplist (content_url) VALUES (?)'; $stmt = $pdo->prepare($sql); $stmt->bindParam(1, $content_url); $res = $stmt->execute(); //在这里将图文链接地址插入到采集行列步队库中(行列步队库将在后文先容,紧张目的是建立一个批量采集行列步队,另一个程序将根据行列步队安排下一个采集的"大众号或者文章内容) $post = array(); $post['title'] = $vv['title'];//文章标题 $post['field_id'] = $vv['fileid'];//一个微信给的id $post['title_encode'] = urlencode(str_replace(\"大众 \"大众,\公众\"大众,$post['title']));//建议将标题进行编码,这样就可以存储emoji分外符号了 $post['digest'] = htmlspecialchars($vv['digest']);//文章择要 $post['source_url'] = str_replace(\"大众\\\公众,\"大众\"大众,htmlspecialchars_decode($vv['source_url']));//阅读原文的链接 $post['cover'] = str_replace(\公众\\\"大众,\公众\"大众,htmlspecialchars_decode($vv['cover']));//封面图片 //$cover = getCover(str_replace(\"大众\\\"大众,\公众\"大众,htmlspecialchars_decode($vv['cover']))); $post['zdatetime'] = $datetime; $post['is_multi'] = $is_multi; $post['is_top'] = 0; $post['biz'] = $biz; $post['content_url'] = $content_url; //现在存入数据库 $sql = 'INSERT INTO post (biz, field_id, title, title_encode, digest, content_url, source_url, cover, is_multi, is_top, zdatetime) VALUES (:biz, :field_id, :title, :title_encode, :digest, :content_url, :source_url, :cover, :is_multi, :is_top, :zdatetime)'; $stmt = $pdo->prepare($sql); $res = $stmt->execute($post); } } } }}

想要看效果的可以把getWxHis.php、getWxPost.php中的echo语句注释掉。

未完待续……To be Continued……

希望这篇文章能给你带来知识和乐趣,喜好博主的文章可以加博主好友哦

标签:

相关文章

PHP实现文字转图片的代码与应用

图片处理技术在各个领域得到了广泛应用。在PHP编程中,文字转图片功能同样具有很高的实用价值。本文将针对PHP实现文字转图片的代码进...

网站建设 2025-03-02 阅读1 评论0

NAN0017探索新型纳米材料的奥秘与应用

纳米技术作为一门新兴的交叉学科,近年来在材料科学、生物医学、电子工程等领域取得了举世瞩目的成果。其中,NAN0017作为一种新型纳...

网站建设 2025-03-02 阅读1 评论0

L26368XO代码其背后的创新与突破

编程语言在各个领域发挥着越来越重要的作用。在众多编程语言中,L26368XO代码以其独特的优势,成为了业界关注的焦点。本文将深入剖...

网站建设 2025-03-02 阅读1 评论0

HTML字体背景打造个化网页设计的关键元素

网页设计已经成为现代网络传播的重要手段。在众多网页设计元素中,字体和背景的搭配尤为关键。本文将从HTML字体背景设置的角度,探讨其...

网站建设 2025-03-02 阅读1 评论0