多语言展示
当前在线:1759今日阅读:6今日分享:31

Scrapy入门教程

Scrapy是一种用于抓取网站和提取结构化数据的应用程序框架,可用于广泛的有用应用程序,如数据挖掘,信息处理或历史存档。
工具/原料

电脑一台

方法/步骤
2

创建一个项目:scrapy startproject tutorial(到指定目录下在终端执行该命令)

3

创建成功后,将会显示如下图内容:

4

我的第一个爬虫Demo:import scrapyclass QuotesSpider(scrapy.Spider):              name = 'quotes'        def start_requests(self):               urls = [                              'http://quotes.toscrape.com/page/1/',                  'http://quotes.toscrape.com/page/2/',         ]         for url in urls:             yield scrapy.Request(url=url, callback=self.parse)    def parse(self, response):        page = response.url.split('/')[-2]        filename = 'quotes-%s.html' % page        with open(filename, 'wb') as f:            f.write(response.body)        self.log('Saved file %s' % filename)

5

运行我的爬虫:scrapy crawl quotes

6

运行结果大体如下图所示:

推荐信息