2019-07-16 18:37:04 +08:00
|
|
|
|
# spider-flow
|
|
|
|
|
|
|
|
|
|
#### 介绍
|
|
|
|
|
新一代爬虫平台,以图形化方式定义爬虫流程,不写代码即可完成爬虫。
|
2019-07-30 17:27:52 +08:00
|
|
|
|
> **QQ交流群:720832964**
|
2019-07-16 18:37:04 +08:00
|
|
|
|
|
2019-07-30 17:29:24 +08:00
|
|
|
|
#### 使用说明
|
2019-08-21 17:10:24 +08:00
|
|
|
|
[点击跳转](https://www.spiderflow.org)
|
2019-07-30 17:29:24 +08:00
|
|
|
|
|
2019-07-31 11:12:03 +08:00
|
|
|
|
|
2019-07-30 17:29:24 +08:00
|
|
|
|
#### 演示站点
|
|
|
|
|
[点击跳转](http://39.105.125.219:8088/)
|
|
|
|
|
> 服务器配置较低,如有卡顿请谅解
|
|
|
|
|
|
2019-07-30 17:27:52 +08:00
|
|
|
|
#### DEMO
|
2019-07-25 18:46:15 +08:00
|
|
|
|
- 妹子图(感谢网友提供)
|
2019-07-26 08:59:44 +08:00
|
|
|
|
- 北京菜价(感谢网友提供)
|
2019-07-25 18:46:15 +08:00
|
|
|
|
- GVP项目
|
|
|
|
|
|
2019-08-02 12:03:14 +08:00
|
|
|
|
### 项目结构
|
|
|
|
|
```
|
2019-08-09 10:16:37 +08:00
|
|
|
|
spider-flow
|
|
|
|
|
├── spider-flow-api -- 插件开发的依赖
|
|
|
|
|
├── spider-flow-core -- 核心包
|
|
|
|
|
├── spider-flow-web -- web界面
|
|
|
|
|
├── spider-flow-selenium -- selenium插件
|
2019-09-18 10:58:34 +08:00
|
|
|
|
├── spider-flow-proxypool -- ip代理池插件
|
|
|
|
|
├── spider-flow-redis -- redis插件
|
|
|
|
|
├── spider-flow-oss -- oss插件
|
2019-08-02 12:03:14 +08:00
|
|
|
|
```
|
|
|
|
|
|
2019-07-16 18:37:04 +08:00
|
|
|
|
#### 特性
|
|
|
|
|
- [x] 支持css选择器、正则提取
|
|
|
|
|
- [x] 支持JSON/XML格式
|
|
|
|
|
- [x] 支持Xpath/JsonPath提取
|
|
|
|
|
- [x] 支持多数据源、SQL select/insert/update/delete
|
2019-08-09 10:16:37 +08:00
|
|
|
|
- [x] 支持爬取JS动态渲染的页面
|
2019-07-24 11:35:51 +08:00
|
|
|
|
- [x] 支持代理
|
2019-07-16 18:37:04 +08:00
|
|
|
|
- [x] 支持二进制格式
|
2019-07-29 19:03:15 +08:00
|
|
|
|
- [x] 支持保存/读取文件(csv、xls、jpg等)
|
|
|
|
|
- [x] 常用字符串、日期、文件、加解密等函数
|
2019-08-09 10:16:37 +08:00
|
|
|
|
- [x] 支持流程嵌套
|
|
|
|
|
- [x] 支持插件扩展(自定义执行器,自定义函数)
|
2019-07-29 19:03:15 +08:00
|
|
|
|
- [ ] 任务监控
|
2019-08-14 14:45:32 +08:00
|
|
|
|
- [x] 支持HTTP接口
|
2019-07-29 19:03:15 +08:00
|
|
|
|
|
|
|
|
|
#### 插件列表
|
2019-08-09 15:01:39 +08:00
|
|
|
|
- [x] Selenium插件
|
2019-08-27 17:34:02 +08:00
|
|
|
|
- [x] Redis插件
|
2019-09-17 11:21:19 +08:00
|
|
|
|
- [x] OSS插件
|
2019-07-29 19:03:15 +08:00
|
|
|
|
- [ ] Mongodb插件
|
|
|
|
|
- [ ] Hbase插件
|
2019-08-24 17:37:23 +08:00
|
|
|
|
- [x] IP代理池插件
|
2019-07-29 19:03:15 +08:00
|
|
|
|
- [ ] OCR识别插件
|
|
|
|
|
|
2019-07-19 15:11:42 +08:00
|
|
|
|
### 项目部分截图
|
2019-07-30 17:27:00 +08:00
|
|
|
|
![GVP项目爬虫测试](https://images.gitee.com/uploads/images/2019/0730/171455_bfe1a97b_1253940.gif "spider-test.gif")
|
|
|
|
|
![北京菜价爬虫测试](https://images.gitee.com/uploads/images/2019/0730/172647_3bce586e_1253940.gif "spider-food-price-test.gif")
|
2019-07-30 17:22:05 +08:00
|
|
|
|
![xml编辑](https://images.gitee.com/uploads/images/2019/0730/172123_c6df6982_1253940.png "xml-edit.png")
|
|
|
|
|
![爬虫列表](https://images.gitee.com/uploads/images/2019/0730/172152_64203e24_1253940.png "spider_list.png")
|
2019-07-30 17:27:52 +08:00
|
|
|
|
![数据展示](https://images.gitee.com/uploads/images/2019/0716/184618_21bce697_297689.png "demo-2.png")
|