手把手教你应用Scrapy框架来爬取北京新发地价格行情

发布时间：2022-11-26 12:38:34 所属栏目：语言来源：

导读：　　大家好!我是霖hero。上个月的时候，我写了一篇关于IP代理的文章，手把手教你使用XPath爬取免费代理IP;前几天，我又发布了第二篇文章，这篇文章主要是讲Scrapy理论知识的，手把手教你使用scrapy框架来爬取北京新发

　　大家好!我是霖hero。上个月的时候，我写了一篇关于IP代理的文章，手把手教你使用XPath爬取免费代理IP;前几天，我又发布了第二篇文章，这篇文章主要是讲Scrapy理论知识的，手把手教你使用scrapy框架来爬取北京新发地价格行情(理论篇)，今天在这里分享我的第三篇文章，关于Scrapy实战的应用文章，希望大家可以喜欢。
　　
　　前言
　　关于Scrapy理论的知识，可以参考我的上一篇文章，这里不再赘述，直接上干货。
　　
　　实战演练
　　爬取分析
　　首先我们进入北京新发地价格行情网页并打开开发者工具，如下图所示：
　　
　　
　　
　　经过简单的查找，发现每个getPriceData.html存放着价格行情的数据，由此可得，我们可以通过getPriceData.html来进行数据的获取。
　　
　　观察Headers请求，如下图所示：
　　
　　
　　
　　发现它是POST请求，请求URL链接是http://www.xinfadi.com.cn/getPriceData.html，current是翻页的重要参数，limit是每页有多少行数据，我们可以构造消息体，代码如下所示：
　　
　　data={
　　'limit': '20',
　　'current':page
　　}
　　通过scrapy.Request()方法将消息体传入到参数里面。
　　
　　或者我们可以根据测试和观察规律，自己构造URL链接，通过观察分析，请求的URL链接可以为：
　　
　　http://www.xinfadi.com.cn/getPriceData.html?limit=20¤t=1
　　http://www.xinfadi.com.cn/getPriceData.html?limit=20¤t=2
　　http://www.xinfadi.com.cn/getPriceData.html?limit=20¤t=3
　　创建Spider爬虫
　　分析北京新发地价格行情后，接下来我们首先创建一个Scrapy项目，使用如下命令：
　　
　　scrapy startproject Vegetables
　　这样我们就成功创建了一个Scrapy项目，项目文件如下所示：
　　
　　
　　
　　接下来创建spider爬虫，使用如下命令：
　　
　　scrapy genspider vegetables www.xinfadi.com.cn
　　创建后vegetables.py内容如下所示：
　　
　　import scrapy
　　
　　class VegetablesSpider(scrapy.Spider):
　　   name = 'vegetables'
　　   allowed_domains = ['www.xinfadi.com.cn']
　　   start_urls = ['https://www.xinfadi.com.cn']
　　
　　   def parse(self, response):
　　       pass
　　提取数据
　　在提取数据前，我们首先把要爬取的数据字段在items.py文件中定义好，代码如下所示：
　　
　　import scrapy
　　
　　class VegetablesItem(scrapy.Item):
　　   # define the fields for your item here like:
　　   productName = scrapy.Field()
　　   lowPrice=scrapy.Field()
　　   highPrice=scrapy.Field()
　　这里我们定义了三个字段分别是productName、lowPrice、highPrice
　　
　　定义好字段后，接下来将在创建的vegetables.py文件中进行数据的提取，具体代码如下
　　
　　import scrapy
　　from Vegetables.items import VegetablesItem
　　
　　class VegetablesSpider(scrapy.Spider):
　　   name = 'vegetables'
　　   allowed_domains = ['www.xinfadi.com.cn']
　　   def start_requests(self):
　　       for i in range(1, 3):
　　           url = f'http://www.xinfadi.com.cn/getPriceData.html?limit=20¤t={i}'
　　           yield scrapy.Request(url=url, callback=self.parse)
　　
　　   def parse(self, response):
　　       html = response.json()
　　       fooddata = html.get('list')
　　       for i in fooddata:
　　           item=VegetablesItem()
　　           item['highPrice'] =i.get('highPrice'),
　　           item['lowPrice'] = i.get('lowPrice'),
　　           item['prodName'] = i.get('prodName'),
　　           yield item
　　首先我们导入vegetablesitem，使用start_requests函数实现翻页，大家可以使用刚才我们所讲的方法实现翻页，实现翻页后，我们通过编写parse()方法实现数据的获取，首先我们把引擎响应的数据以json()格式存放在html里面，调用get()方法来提取我们想要的数据，最后通过yield生成器返回给引擎。

（编辑：财气旺网 - 财气网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

BF算法串模式匹配算法	Java final修饰符说明
Python len 函数详解	Python find 方法检测

手把手教你应用Scrapy框架来爬取北京新发地价 格行情

手把手教你应用Scrapy框架来爬取北京新发地价格行情