多语言展示
当前在线:1878今日阅读:86今日分享:14

Python用Scrapy框架编写一个属于自己的爬虫

前一篇经验讲了如何搭建Scrapy框架环境,有了框架环境之后我们就可以很方便的利用Scrapy给我们预设好的方法进行爬虫的编写了,这比自己直接使用python的Urllib2模块去写简单的小爬虫要建方便的多,自己用Python编写的爬虫只不过是小玩具而已,Scrapy框架下写出的爬虫,不需要任何设置就可以有多线程下载和错误忽略排查。
工具/原料
1

电脑

2

Scrapy框架环境

方法/步骤
1

在cmd中使用scrapy startproject tutorial命令创建出Scrapy模版

2

这个siders文件加里就是用来放蜘蛛的,哈哈,人如其名,只用用的框架环境都是一样的只要编写不同内容的蜘蛛放到这里面就行了

3

如何,创建一个python文件,.py,这就是一只刚出生的小蜘蛛了,接下来我们为这只蜘蛛编写智商

4

import scrapyclass QuotesSpider(scrapy.Spider): name = "quotes" def start_requests(self): urls = [ 'http://quotes.toscrape.com/page/1/' 'http://quotes.toscrape.com/page/2/' ] for url in urls: yield scrapy.Request(url=url,callback=self.parse) def parse(self,response): page = response.url.split("/")[-2] filename = 'quotes-%s.html' % page with open(filename,'wb') as f: f.write(response.body) self.log('Saved file %s' % filename)写入这些内容,这是python代码,写爬虫,起码python基本语法得能看懂

5

在顶层目录G:\Python\tutorial 执行cmd命令 scrapy crawl quotes 得到如下结果

6

这个时候网页已经被爬取下来,保存在当前文件夹的目录里了

7

不过细心的你肯定会发现,保存下来的网页打开来和在浏览器里直接访问的是不太一样的,这是由于Scrapy不支持js渲染,有一部分内容格式是要有js动态渲染生成的,这个可以在后期家装插件,使得Scray支持js渲染

8

恭喜,大功告成,第一个范例爬虫编写完毕!!!

注意事项

如果觉得有用,请关闭广告屏蔽插件,多浏览我几篇经验哦,一个有效浏览有2分钱哈

推荐信息