/中文/
/中文/
/中文/
/中文/
/中文/
/中文/
/中文/
/中文/
/中文/
/中文/
杰灵采集器是一款多功能数据采集软件。这款软件功能强大,用户可以通过它采集全网的数据内容,并进行编辑处理,然后再上传至博客、BBS等软件,带给你更加便捷的内容抓取操作。
免费实用
全部功能免费开放,免费提供开源发布接口
支持单页抓取
支持指定URL网址 抓取内容
多线程抓取
多任务多线程快速抓取
批量采集
列表采集、内容采集、内容发布分步或合并批量采集
SQLite数据库
广泛使用的SQLite数据库存贮,轻型高效
图片附件下载保存
采集同时保存远程图片本地化
附件上传
支持图片附件自动上传至网站
通用网站接口
discuz,wordpress,dedecms,帝国cms等开源程序
自动缩略图
内容页提取首页图片为缩略图
ͼƬˮӡ
自定义logo或文字水印
正则表达式
支持正则提取或过滤内容
多级页面采集
支持无限级多级页面抓取
1:发布规则
模拟网站后台手工添加数据 所需要提交的POST参数规则集合,是存贮在本地的。
主要包括自已网站的接口网址,网站编码,接口所需要的表单。如下图所示
2:发布接口
发布接口是:发布接口是放在网站目录下的php,asp等动态执行脚本文件(存贮在服务器上网站目录下的)
以帝国CMS为例:接口文件名称jieling.php放置/e/admin/目录下即可
3:采集任务
在左侧任务栏,添加任务,每个任务主要包含[采集内容设置]、[发布内容设置]。
1:支持手动单页模式,指定URL采集内容。
2:自动过滤重复网址,支持自定义目标网址的过滤规则。
3:支持从列表中抓取信息到内容页中。
4:支持从内容页衍生的(无限)多级页面抓取(多级页支持分页)
5:支持图片或任意附件本地化,图片自动水印,自动提取缩略图,发布文章自动http上传。
6:支持多任务多线程同时采集不同目标网页信息。
7:支持将采集内容发布到开源程序,目前已内置discuz,dedecms,wordpress,帝国cms。
8:内置发布规则编辑器,轻松管理自定义字段,可扩展发布至任意程序。
9:支持自定义COOKIE、UserAgent等Header头信息。
10:采集内容支持网页文字前后截取或正则表达式提取。
11:支持设置列表页、内容页、发布时候的时间间隔。等等,再高级的功能,估计又要过一阵子再写了。
20190708
1、新增支持php插件,支持回调修改其他字段(详见-->点击)
2、新增支持javascript插件,支持回调修改其他字段(详见-->点击 )
3、新增数据库报表支持多选
4、新增过滤筛选支持文本导入,全局关键词过滤
5、新增列表区域提取 支持正则提取 如[\s\S]+提取全文
6、新增字段设置 内置大量常用规则,点击图标,快速选用即可
7、新增采集的时候可指定ssl版本号(设置1.1或1.2或留空)
8、新增EXCEL导入支持指定EXCEL起始行
9、新增数据查看器,sql语句历史纪录功能
10、新增网址包含 可用|(或)筛选网址
11、新增单篇发布,如404,500错误 ,将显示错误文本
12、修复WIN2012以上版本远程桌面特殊情况导致无法保存任务的BUG
13、修复内容页分页内存溢出bug
14、修复列表采集超长时间延时无法快速停止的bug
15、修复//开头的无协议链接,自动转化为对应协议http(s)://