一样平常情形下,这些翻译机构都供应一定的免费额度,超出部分会按字数收费。
本文以蜜蜂采集器为例,调用百度翻译接口,实现文本翻译功能。
蜜蜂采集器的插件功能,分为列表页网址插件、数据处理插件、标签数据处理插件、文件上传插件、内容发布插件、关照插件。每一种插件都支持PHP、Python、Nodejs、Go四种编程措辞。

个中,数据处理插件是在一条采集记录中的所有标具名段采集完毕之后调用,针对的是单条数据记录,可以对单条记录的所有标签内容进行处理。标签数据处理插件是在标签数据采集过程中的标签数据二次处理阶段调用,针对的是一次内容采集中的一个标签数据,只能对单条记录的一个标具名段进行处理。
对付翻译功能,一样平常是在内容采集阶段,对标签内容进行翻译处理。以是,数据处理插件和标签数据处理插件都可以实行翻译操作。为了更通用,这里采取标签数据处理插件。
功能实现关于采集规则的编写,这里略过。紧张说一下翻译功能。
打开主菜单“帮助”——“运用市场”。类型选择“标签数据处理插件”。搜索“翻译”,可以看到“百度翻译公共版”和“百度翻译API版”。“百度翻译公共版”无需申请百度翻译接口权限,但有利用频次限定;如果须要大量调用翻译功能,请利用“百度翻译API版”。选择对应插件,点击“下载”导入。
运用市场
创建标签数据处理配置后,可以在“标签数据处理配置管理”列表中找到对应的配置项。
先看一下这个插件的输入参数利用解释:
appid / 密钥: 从百度翻译开放平台的管理掌握台获取。from: 翻译源措辞。可设置为auto。参考通用翻译API接入文档的“常见语种列表”。to。: 翻译目标措辞。不可设置为auto。参考通用翻译API接入文档的“常见语种列表”。因此,“标签数据处理配置管理”列表中找到对应的配置项,点击“修正”。然后根据解释填写这四个参数。
在百度翻译开放平台中,找到“通用文本翻译API”,申请开通“通用文本翻译API”,即可。开通后,每月有一定量的免费额度。
之后,将百度翻译开放平台的管理掌握台中的appid / 密钥添补到采集器的配置项中,设置from为zh,设置to为en。
转到采集规则的编辑窗口。启用“标签数据二次处理”,并添加“调用插件”处理项,选择刚刚配置好的翻译配置,即可。如图:
调用翻译插件
测试采集规则。点击下方的“测试”,测试是否正常实行。在“网址采集”的测试窗口,双击记录项 或 点击“测试内容采集”,即可得到测试网址。
测试内容发布
至此,我们就实现了中文翻译为英文的功能。
希望这篇文档的先容,可以抛砖引玉,也能让你理解采集器的利用,可以去蜜蜂采集器官网https://zhi200.com下载最新版本客户端。