spider-flow/README.md

46 lines
1.7 KiB
Markdown
Raw Normal View History

2019-07-16 18:37:04 +08:00
# spider-flow
#### 介绍
新一代爬虫平台,以图形化方式定义爬虫流程,不写代码即可完成爬虫。
2019-07-30 17:27:52 +08:00
> **QQ交流群720832964**
2019-07-16 18:37:04 +08:00
2019-07-30 17:29:24 +08:00
#### 使用说明
[点击跳转](https://gitee.com/jmxd/spider-flow/blob/master/document.md)
#### 演示站点
[点击跳转](http://39.105.125.219:8088/)
> 服务器配置较低,如有卡顿请谅解
2019-07-30 17:27:52 +08:00
#### DEMO
2019-07-25 18:46:15 +08:00
- 妹子图(感谢网友提供)
2019-07-26 08:59:44 +08:00
- 北京菜价(感谢网友提供)
2019-07-25 18:46:15 +08:00
- GVP项目
2019-07-16 18:37:04 +08:00
#### 特性
- [x] 支持css选择器、正则提取
- [x] 支持JSON/XML格式
- [x] 支持Xpath/JsonPath提取
- [x] 支持多数据源、SQL select/insert/update/delete
- [ ] 支持爬取JS动态渲染的页面
2019-07-24 11:35:51 +08:00
- [x] 支持代理
2019-07-16 18:37:04 +08:00
- [x] 支持二进制格式
2019-07-29 19:03:15 +08:00
- [x] 支持保存/读取文件(csv、xls、jpg等)
- [x] 常用字符串、日期、文件、加解密等函数
- [ ] 支持流程嵌套
- [ ] 支持插件扩展(自定义执行器,自定义函数)
- [ ] 任务监控
- [ ] 支持HTTP接口
#### 插件列表
- [ ] Redis插件
- [ ] Mongodb插件
- [ ] Hbase插件
- [ ] IP代理池插件
- [ ] OCR识别插件
2019-07-19 15:11:42 +08:00
### 项目部分截图
2019-07-30 17:27:00 +08:00
![GVP项目爬虫测试](https://images.gitee.com/uploads/images/2019/0730/171455_bfe1a97b_1253940.gif "spider-test.gif")
![北京菜价爬虫测试](https://images.gitee.com/uploads/images/2019/0730/172647_3bce586e_1253940.gif "spider-food-price-test.gif")
2019-07-30 17:22:05 +08:00
![xml编辑](https://images.gitee.com/uploads/images/2019/0730/172123_c6df6982_1253940.png "xml-edit.png")
![爬虫列表](https://images.gitee.com/uploads/images/2019/0730/172152_64203e24_1253940.png "spider_list.png")
2019-07-30 17:27:52 +08:00
![数据展示](https://images.gitee.com/uploads/images/2019/0716/184618_21bce697_297689.png "demo-2.png")