spider-flow/README.md
2019-09-18 16:03:17 +08:00

63 lines
2.1 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# spider-flow
#### 介绍
新一代爬虫平台,以图形化方式定义爬虫流程,不写代码即可完成爬虫。
> **QQ交流群720832964**
#### 使用说明
[点击跳转](https://www.spiderflow.org)
#### 演示站点
[点击跳转](http://39.105.125.219:8088/)
> 服务器配置较低,如有卡顿请谅解
#### DEMO
- 妹子图(感谢网友提供)
- 北京菜价(感谢网友提供)
- GVP项目
### 项目结构
```
spider-flow
├── spider-flow-api -- 插件开发的依赖
├── spider-flow-core -- 核心包
├── spider-flow-web -- web界面
├── spider-flow-selenium -- selenium插件
├── spider-flow-proxypool -- ip代理池插件
├── spider-flow-redis -- redis插件
├── spider-flow-oss -- oss插件
```
#### 特性
- [x] 支持css选择器、正则提取
- [x] 支持JSON/XML格式
- [x] 支持Xpath/JsonPath提取
- [x] 支持多数据源、SQL select/insert/update/delete
- [x] 支持爬取JS动态渲染的页面
- [x] 支持代理
- [x] 支持二进制格式
- [x] 支持保存/读取文件(csv、xls、jpg等)
- [x] 常用字符串、日期、文件、加解密等函数
- [x] 支持流程嵌套
- [x] 支持插件扩展(自定义执行器,自定义函数)
- [ ] 任务监控
- [x] 支持HTTP接口
#### 插件列表
- [x] Selenium插件
- [x] Redis插件
- [x] OSS插件
- [ ] Mongodb插件
- [ ] Hbase插件
- [x] IP代理池插件
- [x] OCR识别插件
### 项目部分截图
![GVP项目爬虫测试](https://images.gitee.com/uploads/images/2019/0730/171455_bfe1a97b_1253940.gif "spider-test.gif")
![北京菜价爬虫测试](https://images.gitee.com/uploads/images/2019/0730/172647_3bce586e_1253940.gif "spider-food-price-test.gif")
![xml编辑](https://images.gitee.com/uploads/images/2019/0730/172123_c6df6982_1253940.png "xml-edit.png")
![爬虫列表](https://images.gitee.com/uploads/images/2019/0730/172152_64203e24_1253940.png "spider_list.png")
![数据展示](https://images.gitee.com/uploads/images/2019/0716/184618_21bce697_297689.png "demo-2.png")
### 如有问题或者建议请提Issue