KG/WEB_KG

爬取百度百科中文页面，抽取三元组信息，构建中文知识图谱

baidu baike knowledge-graph neo4j nlp spider wiki

Go to file

ruben 122a696e09 1.添加10秒超时；2.检查文件名是否合法；3.修复中止程序时无法保存爬取状态的问题		2018-01-18 20:33:54 +08:00
.gitignore	init	2018-01-15 15:56:26 +08:00
html_downloader.py	1.添加10秒超时；2.检查文件名是否合法；3.修复中止程序时无法保存爬取状态的问题	2018-01-18 20:33:54 +08:00
html_parser.py	1.添加10秒超时；2.检查文件名是否合法；3.修复中止程序时无法保存爬取状态的问题	2018-01-18 20:33:54 +08:00
README.md	update	2018-01-16 21:09:24 +08:00
spider_main.py	1.添加10秒超时；2.检查文件名是否合法；3.修复中止程序时无法保存爬取状态的问题	2018-01-18 20:33:54 +08:00
url_manager.py	init	2018-01-15 15:56:26 +08:00

README.md

百度百科网络爬虫

从首页开始，逐步的爬取其他网页。使用了4个线程加快爬取速度

环境

python 3.6
requests:网络请求
re:url匹配
bs4:网页解析
pickle:进度保存
threading:线程

执行：

python spider_main.py

网页保存路径：

我的是：/data/webpages,如需修改更改html_parser.py文件下的路径即可。

运行log:

craw 68357 : http://baike.baidu.com/item/%E8%BF%87%E9%80%9F%E7%BB%AF%E9%97%BB
Save to disk filename:webpages/非常主播
craw 68358 : http://baike.baidu.com/item/%E5%B8%82%E5%9C%BA%E8%A7%84%E6%A8%A1
Save to disk filename:webpages/市场规模
craw 68359 : https://baike.baidu.com/item/%E6%B8%85%E6%99%8F%E5%9B%AD
Save to disk filename:webpages/清晏园
craw 68360 : http://baike.baidu.com/item/%E5%AE%9D%E8%8E%B1%E5%9D%9E
Save to disk filename:webpages/宝莱坞
craw 68361 : https://baike.baidu.com/item/%E5%BA%93%E6%96%AF%E7%A7%91%E5%9F%8E
Save to disk filename:webpages/库斯科城

README.md Unescape Escape

百度百科网络爬虫

环境

执行：

网页保存路径：

运行log:

README.md