电脑
Scrapy框架环境
在cmd中使用scrapy startproject tutorial命令创建出Scrapy模版
这个siders文件加里就是用来放蜘蛛的,哈哈,人如其名,只用用的框架环境都是一样的只要编写不同内容的蜘蛛放到这里面就行了
如何,创建一个python文件,.py,这就是一只刚出生的小蜘蛛了,接下来我们为这只蜘蛛编写智商
import scrapyclass QuotesSpider(scrapy.Spider): name = "quotes" def start_requests(self): urls = [ 'http://quotes.toscrape.com/page/1/' 'http://quotes.toscrape.com/page/2/' ] for url in urls: yield scrapy.Request(url=url,callback=self.parse) def parse(self,response): page = response.url.split("/")[-2] filename = 'quotes-%s.html' % page with open(filename,'wb') as f: f.write(response.body) self.log('Saved file %s' % filename)写入这些内容,这是python代码,写爬虫,起码python基本语法得能看懂
在顶层目录G:\Python\tutorial 执行cmd命令 scrapy crawl quotes 得到如下结果
这个时候网页已经被爬取下来,保存在当前文件夹的目录里了
不过细心的你肯定会发现,保存下来的网页打开来和在浏览器里直接访问的是不太一样的,这是由于Scrapy不支持js渲染,有一部分内容格式是要有js动态渲染生成的,这个可以在后期家装插件,使得Scray支持js渲染
恭喜,大功告成,第一个范例爬虫编写完毕!!!
如果觉得有用,请关闭广告屏蔽插件,多浏览我几篇经验哦,一个有效浏览有2分钱哈