网页采集器不同于传统的爬虫,网页采集器是一个完备受站长掌握的网页爬虫脚本。所有的实行规则由站长来定义。只需打开一个页面,让网页采集器自动识别表格数据或选择要手动抓取的元素,然后奉告网页采集器如何在页面之间(乃至站点之间)导航(它也会考试测验自动查找导航按钮)。 网页采集器可以智能地理解数据模式并通过自动导航页面来提取所有数据。
网页采集器的功能以及浸染:自动表格数据识别;自动列表翻页识别;多网页数据采集或转化;采集图片到本地或者云端;超大略登录后内容采集;网页采集器的OCR办法识别加密字符或者图片内容;批量URL地址,批量关键词查询采集。网页采集器的自动iFrame内容采集支持,数据变革监控和实时关照,动态内容采集(JavaScript + AJAX),多种翻页模式支持。
网页采集器可以跨网站抓取或数据转化,增量数据采集,加入了可视化编辑采集规则,无限数据导出到Excel或CSV文件。网页采集器加入了100+措辞转换,通过webHook无缝衔接网站自己的系统,或者Zapier等平台,站长无需学习python, PHP, JavaScript,xPath,Css,JSON,iframe等技能技能。

网页采集器的扩展可帮助运用实现文件输入输出、验证码识别、图片上传下载、数据列表处理、数学公式打算、API调用等功能。网页采集器仿照网页实行的办法能做到动态抓取网页内容,仿照浏览网页,鼠标点击、键盘输入、页面滚动等事宜,这是搜索引擎爬虫无法做到的。对付有访问限定的网站,网页采集器采取防屏蔽BT分发机制可办理此问题,无须设置代理IP,将任务分发运行。
网页采集器可配置多种网站的采集规则,供应采集规则有效性的检测功能(网页变动监控),支持缺点发送关照。网页采集器同步采集API,支持异步采集办法。网页采集器有数据查询API,支持JSON、RSS(快速创建自己的Feed)的数据返回格式,加入了可并发速率配置。网页采集器能够定时、循环多种采集操持任务配置,可在掌握台实时查看采集日志,支持日志文件查看。
网页采集器供应分布式爬虫支配,支持按爬虫速率、随机选择,顺序选择的负载均衡办法。网页采集器的采集任务的备份与规复功能,嵌套采集功能,办理数据分布在多个页面的情形,循环匹配支持数据合并功能,办理一篇文章分成多页的情形。网页采集器配置了正则、XPath、CSSPath多匹配办法,基于 XPath 的可视化配置功能。网页采集器可天生网址抓取插件、数据过滤插件、文件保存插件、数据发布插件四种插件,让网页采集器适应更多更繁芜的需求。