多语言展示
当前在线:1708今日阅读:84今日分享:32

如何使用爬虫下载网站小说

以免费小说下载网站下载小说为例.从网站上直接下载小说的页面如图,这里利用python从网站的每章的小说阅读页面读取小说、写入到文件中.
代码实现
1

首先import所需的库,urllib.request的urlopen和beautifulsoup.由于需要将内容写入到txt文件中,也需要import os库

2

输入文本写入路径,使用urlopen打开网址并用beautifulsoup解析.

3

打开网站源代码,找到小说地址,查看其所属区域块.每个块都会有起始、终止符号,例如

...
,符号中间的部分是该块的内容,同时,每个块不是只有一个,需要其他标签定位等.

4

list是小说网址部分的内容href=子网址,由于源码内ul有3个,所需部分是最后一个,所以加上下标定位最后一个ul。

5

如步骤3中图片所示,网址的内容是不全的,前面省略了主网址。为保证正确,需要打开该网址,查看主网址,在代码中重定义org_url.

6

内容的下载、写入部分代码如图.第一个for循环是写入每章的内容.第二个for循环写入该章的内容.该部分也需要查看具体章节页面的源码.最后关闭文件,进行保存.

结果
1

运行该命令,代码正确后会显示如图.可以看出文件正成功逐章下载。

2

打开保存的文件,会看到小说成功保存到文件中,如图.

推荐信息