新一代爬虫平台，以图形化方式定义爬虫流程，不写代码即可完成爬虫。

crawler jsoup spider spider-flow web-crawler web-spider webcrawler webspider xpath

Go to file

mxd dbc7fb8c75 修改pom.xml		2020-03-11 21:28:18 +08:00
db	自定义函数	2020-03-11 21:14:16 +08:00
spider-flow-api	新增ExecutorsUtils和ExpressionUtils工具类初始化ShapeExecutor和ExpressionEngin	2020-03-11 15:57:29 +08:00
spider-flow-core	自定义函数	2020-03-11 21:14:16 +08:00
spider-flow-web	修改pom.xml	2020-03-11 21:28:18 +08:00
.gitignore	修改忽略文件	2019-09-18 16:12:57 +08:00
LICENSE	添加 LICENSE	2019-07-23 14:24:33 +08:00
pom.xml	修改pom.xml	2020-03-11 21:28:18 +08:00
README.md	update README.md.	2019-12-26 11:22:24 +08:00

README.md

spider-flow

【声明】请勿将spider-flow应用到任何可能会违反法律规定和道德约束的工作中,请友善使用spider-flow，遵守蜘蛛协议，不要将spider-flow用于任何非法用途。如您选择使用spider-flow即代表您遵守此协议，作者不承担任何由于您违反此协议带来任何的法律风险和损失，一切后果由您承担。

介绍

新一代爬虫平台，以图形化方式定义爬虫流程，不写代码即可完成爬虫。

QQ交流群：720832964

使用说明

点击跳转

演示站点

点击跳转

服务器配置较低,如有卡顿请谅解

项目结构

spider-flow
├── spider-flow-api -- 插件开发的依赖
├── spider-flow-core -- 核心包
├── spider-flow-web -- web界面

特性

支持css选择器、正则提取
支持JSON/XML格式
支持Xpath/JsonPath提取
支持多数据源、SQL select/insert/update/delete
支持爬取JS动态渲染的页面
支持代理
支持二进制格式
支持保存/读取文件(csv、xls、jpg等)
常用字符串、日期、文件、加解密等函数
支持流程嵌套
支持插件扩展(自定义执行器，自定义函数）
任务监控
支持HTTP接口

README.md

spider-flow

介绍

使用说明

演示站点

项目结构

特性

插件列表

项目部分截图

如有问题或者建议请提Issue

README.md Unescape Escape

spider-flow

介绍

使用说明

演示站点

项目结构

特性

插件列表

项目部分截图

如有问题或者建议请提Issue

README.md