ET采集(EditorTools 3)
v3.4.1 免费版- 软件大小:17.75 MB
- 更新日期:2019-08-24 15:28
- 软件语言:简体中文
- 软件类别:网页辅助
- 软件授权:免费版
- 软件官网:待审核
- 适用平台:WinXP, Win7, Win8, Win10, WinAll
- 软件厂商:
软件介绍 人气软件 下载地址
ET采集(EditorTools 3)是一款全自动无人值守采集软件,该程序主要针对网站更新而开发,支持24小时自动监控目标,该程序为用户提供了两种分页方式功能模块,用户可以根据需要选择其中一个来采集分页,该分页模式分别是:采集方式和逻辑方式;如果用户在网站上遇到的文章内容被分为几个部分显示时就可以使用该功能进行调整;在ET中,系统为用户提供了丰富的通用符号字母组合,以此用于表示一些可变信息,可以用于分析、处理、传递数据信息,在程序中称其为运算标记;在此版本中,采集方式是指通过预设的分页规则从数据分页所属采集页的源代码中用分析规则获取分页网址的方式,这种方式设置上比逻辑方式复杂一些,但适用范围更广;逻辑方式是指通过预设的规则推算出各个分页网址的方式,这种方式设置上比采集方式简单一些,但使用范围稍窄,只适用于分页网址按数字规律递增或递减的情况;强大又实用,需要的用户可以下载体验
软件功能
1、全自动无人值守
无需人工值守,24小时自动实时监控目标,实时高效采集,昼夜不停为您提供内容更新。满足长期运行需求,将您从繁重工作中解脱
2、适用广泛
最全能的采集软件,支持任意类型网站采集,适用率高达99.9%,支持发布到所有类型网站程序,更可以采集本地文件,免借口发布
3、信息随心所欲
支持信息自由组合,通过强大的数据整理功能对信息深度加工,创造全新内容
4、自由扩展
开放的接口模式,可以自由二次开发,自定义任何功能,实现所有需求
软件特色
1、任意格式文件下载
不论静态或动态,不论是图片、音乐、电影、软件、又或者是PDF、WORD文档甚至是种子文件,只要你想
2、伪原创
高速同近义词替换、多词随机替换、段落随机排序,助力内容SEO
3、无限多级页面采集
从支持多级目录开始,无论是垂直方向多层信息页面,还是平行方向复数内容分页,抑或AJAX调用页面,为你轻松采集
安装说明
1、需要的用户可以点击本网站提供的下载路径下载得到对应的程序安装包
2、通过解压功能将压缩包打开,打开文件后可以看到运行的必要文件有多个
3、找到主程序,双击主程序即可将程序打开
使用说明
设置篇-采集配置
一、采集配置简介
采集配置用于制定在方案中可重用的采集规则,采集规则确定采集的来源、内容以及对内容进行加工,一个方案中必须选择一个采集规则;
由于采集对象网站的网页格式很可能发生变动,所以采集规则无法永久有效,需要根据情况修改;
二、规则管理
1、规则树;
打开采集配置窗口,左侧的树形目录即为规则列表树,分为规则分组和规则名称两级,见图示1:
(图示1)
2、操作菜单;
在规则树分组名上或规则名上点鼠标右键,可弹出对应操作菜单;
A、在分组名上点鼠标右键,弹出分组操作菜单,见图示2:
(图示2)
新建分组:点击弹出菜单上的‘添加组’,可新建一个分组,规则树需要至少一个分组;
新建规则:点击弹出菜单上的‘添加规则’,可新建一个采集规则,规则必须建立在分组之下;
分组更名:点击弹出菜单上的‘重命名’,可修改分组名称;在分组名称上双击鼠标左键,也可以进入修改状态;
删除分组:当分组下没有采集规则时,弹出菜单上的‘删除’项可用,点击可删除规则分组;
导入规则:点击弹出菜单上的‘导入’,可使用规则文本导入一个规则到该分组;
B、在规则名上点鼠标右键,弹出规则操作菜单,见图示3:
(图示3)
与分组菜单相比,除了‘重命名’、‘删除’是对应选中规则外,规则操作菜单还多了几项功能,如下:
复制规则:点击弹出菜单上的‘复制规则’,可将当前选中规则复制一份到当前分组下;
导出规则:点击弹出菜单上的‘导出’,可将当前选中规则导出为规则文本;
3、导入导出;
规则的导入导出为与其他用户交流规则提供了方便的途径;
A、点击规则树操作菜单上的‘导入’,弹出导入窗口,见图示4:
(图示4)
导入方式1:将规则文本复制后粘贴到导入窗口中的编辑栏,然后点‘导入’按钮;
导入方式2:打开导入窗口的‘文件’菜单,选择‘打开’,在电脑里找到规则文档并打开,然后点‘导入’按钮;
B、点击规则树菜单上的‘导出’,弹出导出窗口,见图示5:
(图示5)
导出方式1:直接复制编辑栏里的规则文本;
导出方式2:打开导出窗口的‘文件’菜单,选择‘保存为’,将规则文本保存为文档;
三、规则设置区
采集配置窗口右侧是采集规则设置区,共有八个设置页,见图示6:
(图示6)
四、规则测试工具
采集规则设置区右上角是规则测试工具按钮,见图示7:
(图示7)
点击测试工具按钮,可以进入规则测试窗口,见图示8:
(图示8)
在窗口上方的‘规则’栏输入待测试规则,在下方的‘网页源码’栏输入对象目标网页源代码,然后点击‘测试’按钮,可观察到规则执行结果,见图示9:
(图示9)
测试选项:
忽略大小写:规则可忽略字母大小写;
全局:显示所有匹配规则的结果,如果不选,仅显示第一个结果;
规则测试窗口非模式窗口,打开后不影响对采集配置窗口的操作,可以将其拖曳到屏幕其他位置,避免遮蔽采集配置窗口;
资料篇-采集工作流程
一、工作流程
下图展示了ET在采集发布过程中的工作流程,用户可以据此结合信息窗的反馈信息了解所遇到的问题:
设置篇-采集配置-列表设置
列表设置主要用于采集以文章网址为主的文章条目信息,为下一步通过文章网址采集文章内容做准备。
为避免用户使用错误的文章条目进行采集,对列表设置中的重要项目进行修改会导致自动删除文章列表-未发布文章的全部记录。
一、列表网址
1、说明
[列表网址]为必填项,用于填写待采集的文章列表网页的网址或本地路径。
本项有多个网址时,将滚动处理,多个网址请用换行分隔;
每次执行采集目录操作时只处理一个列表网址,当该列表网址为自动列表网址规则时,也只递增或递减一次;
可填写地址格式有四类:
1、网址
文章列表网页的网址,如某论坛某版网址"http://www.xxxx.net/forum-64-1.html",见图示1:
(图示1)
2、自动列表网址
能自动递增或递减的网址,详见本文第二部分自动列表网址说明;
3、本地文件
采集本地的文件,格式为windows本地路径,如"F:/game/wow/Patch.txt"或 "F:\game\wow\Patch.txt"表示F盘GAME文件夹下WOW子文件夹中的patch.txt文件;
4、本地目录
采集本地的目录并自动生成列表,格式为windows本地路径,可使用文件名通配符,如"E:\work-site\wordpress3.6"或 "E:\work-site\*.html",如图示2;
(图示2)
生成的列表中,Dir表示该项为目录,File表示该项为文件,格式见图示3:
(图示3)
注:2.3.7版以前,本地文件地址格式为:“file://localhost/盘符:/目录/文件名”,如“file://localhost/F:/game/Patch.txt”;2.3.7版以前,地址中若含有中文字符,则需在采集配置-基本设置中取消选择“目标网址需要HTTP编码”。
二、自动列表网址
1、说明
多数文章列表网页的网址都是按数字规律递增或递减变化的,[自动列表]就是根据这种特性,对列表网址进行自动生成的规则,见图示2-1:
(图示2-1)
自动列表网址规则必须是以协议标记开头的完整网址,例如以“http://”、“https://”开头,设置界面见图示2-2:
(图示2-2)
建立自动列表网址规则,以[步进]标记或[子循环]标记替换网址中规律递增或递减的数字字符串,网址将自动按标记递增或递减生成;
起始编号如果比结束编号大,那么网址是一个递减的规律变化过程,如果起始编号比结束编号小,那么网址是一个递增的规律变化过程;
2、步进标记
点击[步进]按钮将标记插入到规则中或将选择字符串替换为标记。
标记代码为,为选用项,表示网址中规律变化的数字字符串;
[步进]标记在自动列表网址规则中可选用,并可使用多次,[步进]标记设置见图示2-3:
(图示2-3)
1、循环
勾选表示自动列表将始终循环生成;不勾选表示自动列表生成到结束编号即止,以后就一直生成结束编号;
标志:loop 表示循环,noloop 表示不循环;
网址规则中第一个步进标记的循环标志决定该自动列表网址是否循环生成;
2、起始编号
自动递增或递减的起始值,只能填写数字,需补零位数应与原字符串一致,例如"05"或"005";
当起始编号比结束编号大则步进方向为递减,否则为递增;
3、结束编号
自动递增或递减的结束值,只能填写数字,需补零位数应与原字符串一致,例如"01"或"001";
当起始编号比结束编号大则步进方向为递减,否则为递增;
4、步长
自动递增的增量,或递减的减量,无论增减,步长为正整数;
5、当前编号
表示当前生成的编号位置,当前编号不能超过起始编号和结束编号的范围;
3、子循环标记
点击[子循环]按钮将标记插入到规则中或将选择字符串替换为标记。
标记代码为,为选用项,表示网址中规律变化的数字字符串;[步进]标记每步进一次,[子循环]标记则进行一次循环,即嵌套循环;
当自动列表规则中仅有[子循环]标记时,作用等同于[步进]标记;
[子循环]标记在自动列表网址规则中仅能使用一次,[子循环]标记设置见图示2-4:
(图示2-4)
1、循环
始终为loop;
2、起始编号
自动递增或递减的起始值,只能填写数字,需补零位数应与原字符串一致,例如"05"或"005";
当起始编号比结束编号大则步进方向为递减,否则为递增;
3、结束编号
自动递增或递减的结束值,只能填写数字,需补零位数应与原字符串一致,例如"01"或"001";
当起始编号比结束编号大则步进方向为递减,否则为递增;
4、步长
自动递增的增量,或递减的减量,无论增减,步长为正整数;
5、当前编号
表示当前生成的编号位置,当前编号不能超过起始编号和结束编号的范围;
4、范例
某网站列表网址按日期生成,地址如:http://www.xxxx.net/2012/4/03.html ,其自动列表规则如图示2-5:
(图示2-5)
三、列表区域规则
1、说明
[列表区域规则]用于指定包含文章条目列表的代码段,起到缩小分析范围、准确定位的作用,见图示3:
(图示3)
[列表区域规则]可以选填,当此项不填写时,将以整个采集到的列表页源码为列表分析对象,填写本项后,将以本项中区域标记所表示的源码作为列表分析对象;
点击 图标,可以对[列表区域规则]进行测试;
2、标记区
[列表区域规则]有两个可用标记,见图示4:
(图示4)
1、区域标记
标记代码为,为必用项,表示用于进行列表分析的列表页源码,[区域标记]标记在列表区域规则中仅可使用一次,并不可和其他标记连接;
2、变量标记
标记代码为,用于表示源码文本中不需要采集的、连续的、零到任意数量的不确定字符串,[变量标记]标记在规则中可以多次使用,不可和其他标记连接;
[变量标记]使用次数越多,会导致采集工作效率越低;
[变量标记]不可和[区域标记]连接在一起使用,即规则中不能出现‘’、‘’和‘’等情况;
关于标记更多说明见相关主题 ET常用标记说明 ;
3、参考范例
以采集ET官方论坛‘ET2.0安装使用’版(网址http://bbs.zzcity.net/forumdisplay.php?fid=31)为例:
1、首先确认需要采集的帖子条目范围,此范围内应尽可能少的包含与帖子条目相似的链接,我们选择上下两个分页导航作为范围边界,然后查看其源代码如下:
2、代码
在帖子列表上方和下方都只出现了一次,将其作为边界,可以确定帖子条目的代码范围,[列表区域规则]填写如下:
3、然后点击[列表区域规则]单步测试工具 进行测试。
四、列表分析规则
1、说明
[列表分析规则]为必填项,本项用以从[列表区域规则]确定的网页代码范围中分析出文章条目的网址、标题、缩略图等信息,见图示5:
(图示5)
点击 图标,可以对[列表分析规则]进行测试;
2、标记区
[列表分析规则]有7个可用标记,见图示5;
1、文章地址
标记代码为,为必用项,用于表示文章条目的网址中的特征字符串,将被用于[文章网址合成]处确定该篇文章的网址,[文章地址]标记在规则中仅可使用一次,并不可和其他标记连接;
2、文章标题
标记代码为,用于表示文章条目的标题,[文章标题]标记在规则中仅可使用一次,并不可和其他标记连接;
如果在列表分析规则中未使用本标记,则默认以文章地址显示为文章标题。
此标记对应数据项[标题],可在数据项[标题]处做更多设置。
如果在数据项页设置了 [标题] 数据项的采集规则,则发布文章时将使用 [标题] 数据项的采集规则所获取的文章标题进行发布;
3、缩略图
标记代码为,用于表示文章条目对应的缩略图片网址,[缩略图]标记在规则中仅可使用一次,并不可和其他标记连接;
此标记对应数据项[缩略图],可在数据项[缩略图]处做更多设置。
如果在数据项页设置了 [缩略图] 数据项的采集规则,则发布文章时将使用 [缩略图] 数据项的采集规则所获取的文章标题进行发布;
[缩略图]标记的使用可参见采集规则范例-分页应用中‘逻辑方式 - 非主流 - 美女’规则;
4、变量标记
标记代码为,用于表示源码中不需要采集的、连续的、零到任意数量的不确定字符串,[变量标记]标记在规则中可以多次使用,不可和其他标记连接;
[变量标记]使用次数越多,会导致采集工作效率越低;
5、附加信息标记
[附加信息]标记共有3个,可选用,标记代码分别为、、,用于采集列表中的更多信息,在规则中仅可各自使用一次,不可和其他标记连接;
[附加信息]标记的值可在数据整理中调用。
关于标记更多说明见相关主题 ET内部运算标记注解 ;
3、参考范例
以采集ET官方论坛‘ET2.0安装使用’版(网址http://bbs.zzcity.net/forumdisplay.php?fid=31)为例:
1、由[列表区域规则]的参考范例确定的源码片段如下:
2、上面的源码中,我们可以取得网址、和标题两项,因此本例中不需要用到[缩略图]标记,我们首先选择出包含采集要素的代码如下:
3、仔细查看上面源码,可以注意到,上例中的2个文章条目的代码略有区别,区别在于第一个文章条目的A标记中多个一个style样式,所以在我们的规则中要对这一点兼容,注意下面规则中对[变量标记]的使用,规则如下:
4、这个规则能获取文章条目,但是经过规则测试工具测试,我们发现它还获取了一些我们不需要的数据,如它同样匹配下面的代码:
5、我们继续调整规则,为确定它仅匹配文章条目的特性,我们需要为这个规则代码找到一些特性源码,通过观察,我们发现在前面规则匹配的所有代码中,只有在文章条目的代码处,才有SPAN标记,于是调整后规则如下:
6、然后进行测试,我们看到分析结果已经完全正确,[列表分析规则]设立成功。
五、文章网址合成
1、说明
[文章网址合成]使用[列表分析规则]中获取的[文章地址]合成完整文章网址,见图示6:
(图示6)
[文章网址合成]可以选填,留空时则直接使用[列表分析规则]中获取的[文章地址]为文章完整网址。
点击 图标,可以对[文章网址合成]进行测试;
ET支持采集存在在电脑中的本地文件作为文章,地址格式为windows本地路径,格式为:“盘符:/目录/文件名”,如 “F:/game/Patch.txt”或“F:\game\Patch.txt”表示F盘GAME文件夹中的patch.txt文件。
注:合成的网址中的转义斜杠 \/ 会被自动替换为正斜杠 / ,单独的反斜杠 \ 会被自动替换为正斜杠 / 。
文章地址为本地文件路径时必须为完整地址,不能使用相对地址,正文分页中也不能使用相对地址;
2、标记区
[文章网址合成]中可使用4个标记,见图示6;
1、文章地址
标记代码为,为必用项,用于表示文章网址中的特征字符串,对应[列表分析规则]中的[文章地址]标记,用于引用其值;
2、辅助地址标记
[辅助地址]标记共有3个,可选用,标记代码分别为、、,对应[列表分析规则]中的3个[辅助地址]标记,用于引用其值;
3、参考范例
以采集ET官方论坛‘ET2.0安装使用’版(网址http://bbs.zzcity.net/forumdisplay.php?fid=31)为例:
1、通过[列表分析规则]的范例,我们取得了[文章地址]标记,因此合成网址应如下:
更新日志
日期:2019-7-9
1、优化:降低欢迎页联网频率。
2、修正:复制方案后第一次选择新规则无效的问题。
3、修正:导入的整理组更名不同步的问题。
EditorTools 3.4.5
日期:2019-6-19
1、优化:方案执行提示。
2、修正:数据整理导入、导出等功能失效问题。
人气软件
-
网站万能信息采集器 8.68 MB
/简体中文 -
找货神器插件(chrome淘宝找货神器插件) 0.02 MB
/简体中文 -
Next FlipBook Maker Pro(HTML5翻页制作软件) 144 MB
/英文 -
自媒体全平台采集助手 2.85 MB
/简体中文 -
12306订票助手.NET版 3.31 MB
/简体中文 -
疯狂的美工阿里巴巴自由布局工具 4.66 MB
/简体中文 -
疯狂的美工在线自由布局工具 5.79 MB
/简体中文 -
万能弹窗广告工具 1.89 MB
/简体中文 -
酒店比价插件(chrome酒店价格比较插件) 0.79 MB
/简体中文 -
网页关键词监控大师 0.82 MB
/简体中文