如何正确配置asyncio协程爬虫

爬虫大家应该有一些了解，那就是获取网页，然后开始解析网页的链接把它们加入到队列里面，进行并发获取网页资源，有时候我们需要一个最大数目的运行，实现任何时候都可以完成一个网页的获取，那么接下来我们就简单的简介一下。

工具/原料

计算机

虚拟机

方法/步骤

首先使用Python标准库中的同步队列，每次有新的一项加入，队列增加它的tasks计数器，线程完成一个任务后调用task_done，主线程阻塞在Queue.join，直到tasks计数器与task_done调用次数相匹配，导入线程。

然后把线程的共享状态收集在一个名为crawler的类中，主要的逻辑写在crawl方法中，在一个协程中启动crawl运行asyncio的事件循环直到crawl完成。

接着使用crawler线程，用一个根URL和最大重定向数max_redirect来初始化，它把 URL， max_redirect序列对放入队列中。

在队列中未完成的任务数是输出1，然后回到主程序里面，启动事件循环和crawl方法，crawl协程把worker们赶起来干活，它像一个主线程阻塞在join上直到所有任务完成，同时worker在后台运行。

接下来如果worker是线程，可能不会一次把它们全部创建出来，为了避免创建线程的昂贵代价，通常一个线程池会按需增长，但是协程很廉价，可以直接把他们全部创建出来。

最后生成器被throw抛出一个异常，如过生成器的调用堆栈中没有捕获异常的代码，这个异常被传递到顶层，所以注销协程任何时候生成器暂停，在某些yield from语句它恢复并且抛出一个异常处理注销。

上一篇：怎么用C#爬虫解析table表格样式的网站?

下一篇：如何用python写爬虫

欧尼酱

如何正确配置asyncio协程爬虫

战斗砖块剧场如何自定义头像？

王牌战争如何更换个人头像

LOL如何领取无限火力海牛哲人珍稀头像，新头像

三国杀如何更换自己头像装饰

处女座强迫症如何应对微信强迫症头像

王牌御史如何修改头像？

昆仑墟手游中角色如何自定义头像

出发吧！冒险家如何查看解锁猛犸象头像的条件

刀光和少女如何更换头像

微信头像如何更换为助力抗疫的头像

小镇物语如何更换自己的头像

教你如何找回上一张微信头像

哔哩哔哩如何更换头像？

哔哩哔哩如何更换头像

手机版我的世界如何做枪

我的起源如何更换物质枪的外观

如何用纸做一把突击步枪

我的世界如何开枪

我的起源如何强化逆流枪盾？

如何用python写第一个爬虫

如何进入男孩世界：[3]竞争心理

手绘画帅气的小男孩

钓鱼拉丝粉和蛋白纤维状态粉有什么区别？

九巧板如何拼成跑步的男孩图形

简笔画踢足球的小男孩

男人类型深度解析（十）默多克型（君临天下者）

如何打扮朋克为男孩

孔雀鱼的品种

杭州十大经典登山路线

孔雀养殖攻略

张家界户外稻草人旅游网（倾情推荐自助游攻略）

如何学会识人

简笔画漂亮的孔雀怎么画

夏日甜品——蜜糖红茶冰凉粉

一个人九华山自驾游 攻略（全文字）

总看一个人不顺眼该怎么办？

凤凰男和孔雀女是什么意思

怎样识人不走眼？

《地平线西之绝境》静沙地观景点位置一览

一个人九华山自驾游攻略（全文字）