Python用Scrapy框架编写一个属于自己的爬虫

前一篇经验讲了如何搭建Scrapy框架环境，有了框架环境之后我们就可以很方便的利用Scrapy给我们预设好的方法进行爬虫的编写了，这比自己直接使用python的Urllib2模块去写简单的小爬虫要建方便的多，自己用Python编写的爬虫只不过是小玩具而已，Scrapy框架下写出的爬虫，不需要任何设置就可以有多线程下载和错误忽略排查。

工具/原料

电脑

Scrapy框架环境

方法/步骤

在cmd中使用scrapy startproject tutorial命令创建出Scrapy模版

这个siders文件加里就是用来放蜘蛛的，哈哈，人如其名，只用用的框架环境都是一样的只要编写不同内容的蜘蛛放到这里面就行了

如何，创建一个python文件，.py，这就是一只刚出生的小蜘蛛了，接下来我们为这只蜘蛛编写智商

import scrapyclass QuotesSpider(scrapy.Spider): name = "quotes" def start_requests(self): urls = [ 'http://quotes.toscrape.com/page/1/' 'http://quotes.toscrape.com/page/2/' ] for url in urls: yield scrapy.Request(url=url,callback=self.parse) def parse(self,response): page = response.url.split("/")[-2] filename = 'quotes-%s.html' % page with open(filename,'wb') as f: f.write(response.body) self.log('Saved file %s' % filename)写入这些内容，这是python代码，写爬虫，起码python基本语法得能看懂

在顶层目录G:\Python\tutorial 执行cmd命令 scrapy crawl quotes 得到如下结果

这个时候网页已经被爬取下来，保存在当前文件夹的目录里了

不过细心的你肯定会发现，保存下来的网页打开来和在浏览器里直接访问的是不太一样的，这是由于Scrapy不支持js渲染，有一部分内容格式是要有js动态渲染生成的，这个可以在后期家装插件，使得Scray支持js渲染

恭喜，大功告成，第一个范例爬虫编写完毕！！！

注意事项

如果觉得有用,请关闭广告屏蔽插件,多浏览我几篇经验哦,一个有效浏览有2分钱哈

上一篇：怎么提高爬虫爬取速度

下一篇：如何用python写第一个爬虫

欧尼酱

Python用Scrapy框架编写一个属于自己的爬虫

Python 爬虫建站入门手记（3）：采集入库

实战pyhton网络爬虫的代码在哪里下载

Python用Scrapy框架编写一个属于自己的爬虫

如何用python写第一个爬虫

如何用python写爬虫

如何评测Python爬虫兔子IP强在哪里

如何用Wps演示（PPT）做出复杂的演示文稿

怎样在WPS PPT从当前页面播放幻灯片？

如何在WPS文字中插入并打开PPT文档？

WPS PPT常用快捷键

wps怎样做幻灯片

WPS PPT尺寸设置如何设置？

Wps如何使用ppt的模板

使用wps演示文档制作ppt的基础功能

凉拌皮蛋怎么做好吃

凉拌皮蛋最简单又好吃的做法

如何使用WPS放映PPT

wps如何制作PPT？

如何在wps使用ppt模板？

WPS如何创建PPT文件

小炒鸡肉的做法

WPS PPT如何生成PDF

WPS怎样转换成PPT

如何用WPS演示制作PPT及打开现有PPT。

怎么炒鸡肉好吃

wpsppt怎样快速一键智能排版