首页 » PHP教程 » 糗事百科php源码技巧_Python爬虫糗事百科段子抓取

糗事百科php源码技巧_Python爬虫糗事百科段子抓取

访客 2024-11-16 0

扫一扫用手机浏览

文章目录 [+]

二、完全代码

import requests,osfrom lxml import etree#头信息headers={ 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.92 Safari/537.36'}}#向网站发起要求def get_text(url): response = requests.get(url,headers=headers).text return response#剖析网页def nex_page_parse(url): global count response = requests.get(url, headers=headers).text soup = etree.HTML(response) title=soup.xpath('//[@id="content"]/div/div[2]/h1/text()') content=soup.xpath('//[@id="single-next-link"]/div/text()') res=[] res=''.join(content) print("正在抓取第%d条糗事..."%count) print(url) print(title[0].rstrip()) print(res) with open('糗事百科.txt','a',encoding='utf-8') as f: f.write(title[0]+res) print("第%d条糗事抓取完毕!
\n" %count) count+=1def get_urls(html): soup=etree.HTML(html) tags=soup.xpath('//[@id="content"]/div/div[2]') urls=[] for list in tags: urls=list.xpath('./div/a[1]/@href') return urls#主函数if __name__ == '__main__': count = 1 #记录爬取得段子数 urls =[ 'https://www.qiushibaike.com/text/page/{}'.format(i) for i in range(14)] for url in urls: text = get_text(url) for url in get_urls(text): url='https://www.qiushibaike.com'+url nex_page_parse(url)

糗事百科php源码技巧_Python爬虫糗事百科段子抓取

糗事百科php源码技巧_Python爬虫糗事百科段子抓取

(图片来自网络侵删)
标签:

相关文章

语言游戏聚会的魅力,跨界交流的盛宴

在繁忙的都市生活中,一场别开生面的语言游戏聚会悄然兴起。这不仅是一场简单的娱乐活动,更是一次跨界交流的盛宴,一场思想的碰撞与火花。...

PHP教程 2024-12-29 阅读0 评论0

语言序列逻辑在现代传播中的运用与影响

语言序列逻辑,作为现代传播学中的重要理论之一,对于理解语言传播的规律、提高传播效果具有重要作用。在信息化、网络化时代,语言序列逻辑...

PHP教程 2024-12-29 阅读0 评论0