首页 » 网站推广 » PHP源码蜘蛛抓取技巧_爬虫技能一个抓取淘宝和天猫平台商品信息的蜘蛛实现C

PHP源码蜘蛛抓取技巧_爬虫技能一个抓取淘宝和天猫平台商品信息的蜘蛛实现C

访客 2024-11-08 0

扫一扫用手机浏览

文章目录 [+]

某日我去了朋友的朋友的公司,大概5-6个人在那等我了,他们在谈论如何抓取这些信息,他们目前的方案是用WebBrowser并仿照用户点击操作来抓取数据,由于他们以为电商的店铺商品信息模版每家都不同,而且数据都是动态加载的,以是没法用正则获取之类的(我都表示听不懂了)。

由于以前没有抓过淘宝这类电商网站(我们小公司,搞不了大数据剖析-_-!),以是我花了几分钟韶光,剖析了下淘宝和天猫的页面,模版是不一样,但是须要的数据都是JSON格式返回,这种数据流用HttpRequest办法是再友好不过的了!
我就和他们说不须要用Web办法抓取,那样的效率是相称低的,直接抓源码才是王道。

PHP源码蜘蛛抓取技巧_爬虫技能一个抓取淘宝和天猫平台商品信息的蜘蛛实现C

这是搜索店铺关键字“青菜”得到的结果,剖析数据包,得到获取数据的地址为:

PHP源码蜘蛛抓取技巧_爬虫技能一个抓取淘宝和天猫平台商品信息的蜘蛛实现C
(图片来自网络侵删)

https://tmatch.simba.taobao.com/?name=dpad&o=j&elemtid=7&count=15&pid=430409_1006&keyword=%C7%E0%B2%CB

这个地址获取到的代码(部分示例):

p4presult =[{\"大众REDKEY\"大众:\"大众\u6ce1\u83dc\u814c\u5236\公众,\"大众LOCATION\"大众:\"大众\公众,\"大众WANGWANGID\公众:\"大众mslibilly\"大众,\"大众GRADE\"大众:\公众73068\"大众,\公众ISMALL\"大众:\"大众0\"大众,\公众EURL\公众:\"大众https:\/\/click.simba.taobao.com\/cc_im?p=%C7%E0%B2%CB&s=551112387&k=417&e=7YCatPHk%2FF5hoLrwsPpYV3puZ%2Fzagl5qD5xrGhdGfNFR%2FMI8Ma2TJp%2BEXxfslVeLi1JzEvsCyQWWGvcByUVtX2eS%2B3UZTe47MM%2B3jOJi2zW%2FVBgc1EAWB5X%2FsF%2FL%2BC29nmE%2BkkFcKYE8qbPMVyo4DaVZk9GTLuFuveNkwDZO%2B4dGFiz9B1zOtihdfoeHEuwzFyKSMYwxw2suwttNEWKHRt1S4XMZVG3ZG%2FTfPOTEP3I%2FAziju%2BHWPSv3KlO5q2yrE51XnaPzYhPPXtx8ota2cAxZLhp6giIWOQdKU6bV%2Bc4yIKIlmswCq4zyJPUuvLna3PJEGgbVC32jzB2stJTlhOuTLzOI%2FOAyK46g51dBbTX6TxBh0Blia1cmBl3YwvWUnb8MUGm%2Fw5jrnjTSKUokU0BcjQpXcTkT\"大众,\"大众SELLERID\公众:\"大众70759806\"大众,\公众CREATIVEELEMENTS\公众:{\"大众DESCRIPTION\"大众:\"大众\公众,\公众DISPLAYURL\公众:\"大众https:\/\/msesd.taobao.com\/index.htm?spm=2013.1.w5002-9925530888.2.cuAsCj\公众,\"大众IMGURL\"大众:\"大众https:\/\/img.alicdn.com\/imgextra\/i1\/14344067885902339\/TB282E_bFXXXXcOXXXXXXXXXXXX_!!12414344-0-saturn_solar.jpg_sum.jpg\公众

这么友好的数据,不剖析可惜了。
还有WebBrowser那种办法只是有辱蜘蛛程序。

同样的剖析办法,进入店铺,抓取店铺里的数据地址:

https://shop106956264.taobao.com/i/asynSearch.htm?_ksTS=1462893454477_130&callback=jsonp131&mid=w-4253175477-0&wid=4253175477&path=/search.htm&search=y&spm=a1z10.3-c.w4002-4253175477.82.HMjruY&viewType=grid&pageNo=1

这里是店铺的商品信息了,页码参数:pageNo,切换页码可获取店铺全部商品信息

<dd class=\\"大众detail\\公众><a class=\\"大众item-name J_TGoldData\\"大众 href=\\"大众//item.taobao.com/item.htm?id=36610888871\\公众 target=\\公众_blank\\"大众 data-gold-url=\\"大众/inshopse\\公众 data-gold-data='{\\"大众gokey\\"大众:\\"大众at_bucketid=inshop_c_alg:6350;&srppage=1&scid=&lf_aclog=5-36610888871-28-hotsell_desc-389369376&?src=shopsystem--11.227.2.38&sort=volume:des&sellerid=389369376&tab=all&ss_bucket=20&rank_src=inshop_pc_tb&buyernick=adobo&navigator=property&s=0&n=28&app=inshop&outfmt=json&bts=%7B%22inshop_c_alg%22%3A%7B%22bucket%22%3A%7B%22name%22%3A%22ltr%22%2C%22id%22%3A6350%2C%22groups%22%3A%7B%22inshop_c%22%3A%22%22%2C%22qp4main%22%3A%22%22%2C%22qrs4inshop%22%3A%22%22%2C%22sp%22%3A%22rewrite_query%3Don%22%7D%7D%7D%7D&stats_click=&rn=d58a095b794cb043cdf5a9630ff88d5e\\"大众, \\"大众cna\\"大众: \\公众bfYLEF+bQ0MCAXLeROqBYCGK\\"大众,\\"大众bc_type\\"大众:\\"大众c\\"大众 }' > DIY佛牌链子</a><div class=\\"大众attribute\\"大众><div class=\\公众cprice-area\\公众><span class=\\公众symbol\\公众>&yen;</span><span class=\\"大众c-price\\"大众>68.00 </span></div></div></dd>

下面写了个示例程序(C#.NET over VS2013)

这里大略讲了下电商数据的一样平常获取办法,同理,天猫,JD等的获取办法也都大致相同,不要把抓取数据想的那么繁芜,更不能只看表面的东西,蜘蛛程序和正常用户的获取数据路径有时候并不相同。
以是写蜘蛛程序只管即便避免站在普通用户的角度去获取想要的数据。

这里供应下示例程序的源码供大家参考下:

http://www.zimiclub.com/thread-9-1-1.html

标签:

相关文章