增加网易历史新闻数据抓取，由于各个页面的时间布局有出入，应采用正则提取时间

2016-04-19 23:49:36 +08:00 · 2016-04-19 23:49:36 +08:00 · 37288e7260
commit 37288e7260
parent 47865e367d
3 changed files with 12 additions and 34 deletions
--- a/news_spider/news_spider/spiders/NetEase.py
+++ b/news_spider/news_spider/spiders/NetEase.py
@ -11,9 +11,20 @@ class NetEaseSpider(scrapy.Spider):
 	allowed_domains=['news.163.com']

 	base_url = 'http://snapshot.news.163.com/wgethtml/http+!!news.163.com!'
+#	year = ['2016','2015']
+#	month = ['12','11','10','09','08','07','06','05','04','03','02','01']
+	year = ['2016']
+	month = ['03']

 	def parse(self,response):
-		count = 1
+		for y in self.year:
+			for m in self.month:
+				for d in range(1,30):
+					url = self.base_url+'/'+y+'-'+m+'/'+str(d)+'/12.html'
+					yield scrapy.Request(url,self.parseList)
+
+	
+	def parseList(self,response):
 		urls = response.xpath("//a/@href").extract()
 		for url in urls:
 			yield scrapy.Request(url,self.parseNews)
--- a/news_spider/news_spider/spiders/NetEase.pyc
+++ b/news_spider/news_spider/spiders/NetEase.pyc
--- a/news_spider/news_spider/spiders/NetEase.py~
+++ b/news_spider/news_spider/spiders/NetEase.py~
@ -1,33 +0,0 @@
-#encoding=utf-8
-import scrapy
-from news_spider.items import NewsSpiderItem
-import json
-import time 
-
-class NetEaseSpider(scrapy.Spider):
-
-	start_urls = ['http://snapshot.news.163.com/wgethtml/http+!!news.163.com!/2016-04/17/12.html']
-	name='netease'
-	allowed_domains=['news.163.com']
-
-	base_url = 'http://snapshot.news.163.com/wgethtml/http+!!news.163.com!'
-
-	def parse(self,response):
-		count = 1
-		urls = response.xpath("//a/@href").extract()
-		for url in urls:
-			yield scrapy.Request(url,self.parseNews)
-
-	def parseNews(self,response):
-		content = response.xpath("//div[@class='post_content_main']")
-		item = NewsSpiderItem()
-		item['time'] = content.xpath("//div[@class='post_time_source']").extract()[0]
-		item['title'] = content.xpath("//h1/text()").extract()[0]
-#		content = content.xpath("//div[@class='post_text']/p/text()")
-#		cc=''
-#		if(len(content)!=0):
-#			for cc in content:
-#				cc = cc+content+'\n'
-#		item['content'] = cc
-		yield item
-