加入收藏 | 设为首页 | 会员中心 | 我要投稿 财气旺网 - 财气网 (https://www.caiqiwang.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 综合聚焦 > 编程要点 > 语言 > 正文

手把手教你应用Scrapy框架来爬取北京新发地价 格行情

发布时间:2022-11-26 12:38:34 所属栏目:语言 来源:
导读:  大家好!我是霖hero。上个月的时候,我写了一篇关于IP代理的文章,手把手教你使用XPath爬取免费代理IP;前几天,我又发布了第二篇文章,这篇文章主要是讲Scrapy理论知识的,手把手教你使用scrapy框架来爬取北京新发
  大家好!我是霖hero。上个月的时候,我写了一篇关于IP代理的文章,手把手教你使用XPath爬取免费代理IP;前几天,我又发布了第二篇文章,这篇文章主要是讲Scrapy理论知识的,手把手教你使用scrapy框架来爬取北京新发地价格行情(理论篇),今天在这里分享我的第三篇文章,关于Scrapy实战的应用文章,希望大家可以喜欢。
  
  前言
  关于Scrapy理论的知识,可以参考我的上一篇文章,这里不再赘述,直接上干货。
  
  实战演练
  爬取分析
  首先我们进入北京新发地价格行情网页并打开开发者工具,如下图所示:
  
  
  
  经过简单的查找,发现每个getPriceData.html存放着价格行情的数据,由此可得,我们可以通过getPriceData.html来进行数据的获取。
  
  观察Headers请求,如下图所示:
  
  
  
  发现它是POST请求,请求URL链接是http://www.xinfadi.com.cn/getPriceData.html,current是翻页的重要参数,limit是每页有多少行数据,我们可以构造消息体,代码如下所示:
  
  data={
  'limit': '20',
  'current':page
  }
  通过scrapy.Request()方法将消息体传入到参数里面。
  
  或者我们可以根据测试和观察规律,自己构造URL链接,通过观察分析,请求的URL链接可以为:
  
  http://www.xinfadi.com.cn/getPriceData.html?limit=20¤t=1
  http://www.xinfadi.com.cn/getPriceData.html?limit=20¤t=2
  http://www.xinfadi.com.cn/getPriceData.html?limit=20¤t=3
  创建Spider爬虫
  分析北京新发地价格行情后,接下来我们首先创建一个Scrapy项目,使用如下命令:
  
  scrapy startproject Vegetables
  这样我们就成功创建了一个Scrapy项目,项目文件如下所示:
  
  
  
  接下来创建spider爬虫,使用如下命令:
  
  scrapy genspider vegetables www.xinfadi.com.cn
  创建后vegetables.py内容如下所示:
  
  import scrapy
  
  class VegetablesSpider(scrapy.Spider):
     name = 'vegetables'
     allowed_domains = ['www.xinfadi.com.cn']
     start_urls = ['https://www.xinfadi.com.cn']
      
     def parse(self, response):
         pass
  提取数据
  在提取数据前,我们首先把要爬取的数据字段在items.py文件中定义好,代码如下所示:
  
  import scrapy
  
  class VegetablesItem(scrapy.Item):
     # define the fields for your item here like:
     productName = scrapy.Field()
     lowPrice=scrapy.Field()
     highPrice=scrapy.Field()
  这里我们定义了三个字段分别是productName、lowPrice、highPrice
  
  定义好字段后,接下来将在创建的vegetables.py文件中进行数据的提取,具体代码如下
  
  import scrapy
  from Vegetables.items import VegetablesItem
  
  class VegetablesSpider(scrapy.Spider):
     name = 'vegetables'
     allowed_domains = ['www.xinfadi.com.cn']
     def start_requests(self):
         for i in range(1, 3):
             url = f'http://www.xinfadi.com.cn/getPriceData.html?limit=20¤t={i}'
             yield scrapy.Request(url=url, callback=self.parse)
  
     def parse(self, response):
         html = response.json()
         fooddata = html.get('list')
         for i in fooddata:
             item=VegetablesItem()
             item['highPrice'] =i.get('highPrice'),
             item['lowPrice'] = i.get('lowPrice'),
             item['prodName'] = i.get('prodName'),
             yield item
  首先我们导入vegetablesitem,使用start_requests函数实现翻页,大家可以使用刚才我们所讲的方法实现翻页,实现翻页后,我们通过编写parse()方法实现数据的获取,首先我们把引擎响应的数据以json()格式存放在html里面,调用get()方法来提取我们想要的数据,最后通过yield生成器返回给引擎。
 

(编辑:财气旺网 - 财气网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!