多语言展示
当前在线:335今日阅读:100今日分享:18

不用写代码webscraper30秒抓取任意公众号文章

每每看到自己喜欢的公众号,是不是想把它所有的文章从头到尾看一遍呢?但手机上看的时候,点击一篇文章看完后,一不小心或者要处理其它信息,往往要重头开始看的,就会跳回最前面,如果你是想看更早前的文章,是不是非常不方便,并且如果当天看不完,第二天又要找好久,是不是很烦恼呢?那么现在就来解决大家这样的烦恼!在win7/win10系统上,不用写代码,安装下面这些后,30秒抓取任意公众号文章标题日期是不是梦!下面是我自己的实操经验分享给大家
工具/原料
1

Chrome浏览器

2

webscraper插件

3

win7/win10系统

方法/步骤
2

webscraper是谷歌官方的一个插件,利用这个插件,我们不需要写代码,就可以实现自动抓取任意公众号文章标题日期!那怎么安装呢,其实很简单,直接在谷歌应用商店里,搜索“webscraper”,然后添加进扩展就可以了。扩展显示蜘蛛网的图标就是了。

4

打开 微信,进入某个公众号,点开历史文章页面,点击 全部消息,然后点击右上角的三个点,分享,点击发送给朋友,这里可以选择自己的朋友发,也可以选择文件传输助手,然后回到发微信聊天页面,打开刚分享的链接就会自动在谷歌浏览器上打开了。

5

接下来,我们来演示一下,抓取如图公众号文章。第一步,就是鼠标右键点击,出现菜单栏,点击最下面的,检查。就会出现检查的代码页面。

6

最右边的那个,就是webscraper。

7

点击下面的 create new sitemap,右边的倒三角,点击出来的选项,第二个“import sitemap”。

8

如图1,第一个大方框,填写抓取的用的代码{如图2}。下面是命名,这个随意写个就可以了。抓取公众号标题、时间、内容链接(以下就是代码,大家直接复制使用即可){'_id':'gongzhonghao','startUrl':['https://mp.weixin.qq.com/s/YkQyrnDt6e_Sn7oj2JaHyA'],'selectors':[{'id':'total','type':'SelectorElementScroll','parentSelectors':['_root'],'selector':'div.weui_msg_card:nth-of-type(n+2)','multiple':true,'delay':'1000'},{'id':'title','type':'SelectorText','parentSelectors':['total'],'selector':'h4.weui_media_title','multiple':false,'regex':'','delay':0},{'id':'date','type':'SelectorText','parentSelectors':['total'],'selector':'p.weui_media_extra_info','multiple':false,'regex':'','delay':0},{'id':'link','type':'SelectorElementAttribute','parentSelectors':['total'],'selector':'h4.weui_media_title','multiple':false,'extractAttribute':'hrefs','delay':0}]}

9

1.粘贴代码。2.命名。3.点击最下面的“import sitemap”

10

此时出现下图中的这个页面,点击中间那项右边的倒三角,点击 edit metadata.

11

出来的这个页面里,start URL是要抓取的链接。这里我就去复制刚刚打开的公众号页面的链接,然后粘贴进来,最后,点击下面的”save sitemap“即可。

13

出来的这个页面,点击最下面的按钮“start scraping”。

14

这时就会跳出,自动抓取的页面,并自动抓取。

15

等待抓取完毕后,会出来这个页面:点击  蓝色的“refresh'。

16

就会出来抓取的数据预览页面了。

17

这里,还是选择中间那项,点击右边的倒三角,点击最后一项”export data as  csv',就会出来一个 download now,点击就可以将数据下载到电脑里面了。

18

打开电脑里面的表格文件,就可以看到抓取到的内容了。到此为止,基本上算完成了。

19

但是,下载下来的排序是错乱的。这里,需要自己手动去筛选排序即可。非常简单:将标题栏进行筛选,第一个标题栏里面的数字就有大小顺序的,大家按升序或者降序排序就可以了。如果不明白的,可以多看几遍,我也是实操了很多次,才会熟练的。祝大家成功!

注意事项
1

核心点,谷歌浏览器和插件安装,还有老版本微信安装好,操作就非常简单了!

2

全程不需要自己写代码,插件是谷歌官方的,并且是免费使用!有不明白的可以留言看到会解答!

推荐信息