php正则imgsrc技巧_Python｜爬取网页图片流程及语法解释附代码

文章目录 [+]

1 利用urllib.request模板要求返回网页文本；

2 从网页文本中利用正则表达式筛选出img src地址（返回一个全部src的列表）；

php正则imgsrc技巧_Python｜爬取网页图片流程及语法解释附代码

3 图片文件逐一检索或复制；

（图片来自网络侵删）

代码：

运行效果：

附代码1：

import re

import urllib.request

import os

#1 抓取网页

#url = 'http://www.kgc.cn/list'

url = 'http://www.ttpaihang.com/vote/rank.php?voteid=1410&page=2'

req = urllib.request.urlopen(url)

buf = req.read()

req.close()

#2 获取图片地址

i = url.find(\"大众/\"大众,9) # 本句及下面三句截取url的前半截

url2 = url

if i > 0 :

....url2 = url[:i]

#buf = buf.decode('UTF-8')

buf = buf.decode('gb2312')

#listurl = re.findall(r'http:.[^\公众]+\.jpg',buf)

listurl = re.findall(r'img src=.[^\"大众]+\.jpg',buf)

for i in range(len(listurl)):.... # 把字符img src=\公众去掉

....listurl[i]=listurl[i].replace('img src=\公众',\"大众\"大众)

....if not re.match(\公众http\"大众,listurl[i]):

........listurl[i]=url2 + listurl[i]

....print(listurl[i])

#3 抓取图片并保存到本地

i = 0

fpath = \"大众D:\\pic2\\\"大众

if not os.path.isdir(fpath):

....os.mkdir(fpath)

for url in listurl:

....f=open(fpath + str(i)+'.jpg','wb')

....req = urllib.request.urlopen(url)

....buf = req.read()

....f.write(buf)

....f.close()

....i+=1

........

附代码2（写成函数的形式）

import re .... .... .... .... # 正则表达式

import urllib.request .... .... # 从做事器要求返回资源

import os .... .... .... .... # 文件和目录操作

import socket .... .... .... .... # 套接字操作

#socket.setdefaulttimeout(20)....................# 设置socket层的超时时间为20秒

def gethtml(url): #1 抓取网页html内容

....with urllib.request.urlopen(url) as req:

........buf = req.read()

........return buf

def getImg(buf,codec,fpath): #2 从html筛选图片地址到list

....i = url.find(\"大众/\"大众,9)............................ # 本句及下面三句截取url的前半截

....url2 = url

....if i > 0 :

........url2 = url[:i]

....buf = buf.decode(codec)

....

....reg = r'img src=\"大众(.+?\.jpg)\公众'....#正则表达式，得到图片地址

....#listurl = re.findall(r'http:.[^\"大众]+\.jpg',buf)

....#listurl = re.findall(r'img src=.[^\"大众]+\.jpg',buf)

....listurl = re.findall(reg,buf)

....print(\公众准备下载图片数量：\公众,len(listurl))

....for i in range(len(listurl)):................

........#listurl[i]=listurl[i].replace('img src=\"大众',\"大众\公众) # 把字符img src=\"大众去掉

........if not re.match(\"大众http\"大众,listurl[i]):

............listurl[i]=url2 + listurl[i]

........print(listurl[i])

............#3 抓取图片并保存到本地

....i = 0

....

....if not os.path.isdir(fpath):

........os.mkdir(fpath)

....'''

....for imgurl in listurl:

........urllib.request.urlretrieve(imgurl,fpath + str(i)+'.jpg')

........i+=1

....'''#下面的操作办法要快一点

....for imgurl in listurl:

........f=open(fpath + str(i)+'.jpg','wb') # 新建空缺图片文件

........req = urllib.request.urlopen(imgurl) # 获取网页图片文件

........buf = req.read().... .... .... # 读取网站上图片文件内容

........f.write(buf).... .... .... # 将网站上图片内容写入新建的图片文件

........f.close()

........i+=1

# 四处内容须要确认：1 网页url； .... ....2 网页编码UTF-8或gb2312;

#................ 3 图片扩展名jpg或png（两处）; 4 保存的文件夹

#url = 'http://www.kgc.cn/list'

url = 'http://www.ttpaihang.com/vote/rank.php?voteid=1410&page=3'

buf = gethtml(url)

#codec = 'UTF-8'

codec = 'gb2312'

fpath = \公众D:\\pic4\\\"大众

print(getImg(buf,codec,fpath))

－End－

标签：大众 listurl

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

php正则imgsrc技巧_Python｜爬取网页图片流程及语法解释附代码

相关文章

夏日男士裤装指南如何挑选合适的裤子，展现清爽形象

基于关键词优化的内容创作步骤理论与方法

政务合作构建现代政府的协同发展之路

文昌街道智慧赋能，打造未来城市新典范

整站关键词优化排名搜索引擎优化步骤

商品标题关键词优化方法打造爆款商品的方法

最近发表

文件下载道理PHP技巧_PHP文件下载怎么做可以参考一下它

山东it培训php技巧_盘点山东IT培训机构鱼龙混杂若何选择

易游变量php技巧_客运起身长白山好风凭借力内外部改进推动业绩进入高增阶段

济南后端php雇用技巧_壹点送岗12家济南市属国有企业集中招聘610人

php若何切换中文技巧_4项技巧使你不再为PHP中文编码忧

php设计对战游戏技巧_若何塑造成功的仇敌并做到物尽其用聊聊游戏中的怪物设计

php若何登录页面技巧_用PHP制作一个简单的注册登录页面

php正则截取目次技巧_php用正则表达式提取文章中的图片地址用于文章列表中显示

tazpkgphp技巧_不容错过的 5 个微型 Linux 发行版

ftp上传到php技巧_PHP操作FTP类实现上传下载移动创建的方法

热门文章

标签列表