Chrome浏览器
webscraper插件
win7/win10系统
webscraper是谷歌官方的一个插件,利用这个插件,我们不需要写代码,就可以实现自动抓取任意公众号文章标题日期!那怎么安装呢,其实很简单,直接在谷歌应用商店里,搜索“webscraper”,然后添加进扩展就可以了。扩展显示蜘蛛网的图标就是了。
打开 微信,进入某个公众号,点开历史文章页面,点击 全部消息,然后点击右上角的三个点,分享,点击发送给朋友,这里可以选择自己的朋友发,也可以选择文件传输助手,然后回到发微信聊天页面,打开刚分享的链接就会自动在谷歌浏览器上打开了。
接下来,我们来演示一下,抓取如图公众号文章。第一步,就是鼠标右键点击,出现菜单栏,点击最下面的,检查。就会出现检查的代码页面。
最右边的那个,就是webscraper。
点击下面的 create new sitemap,右边的倒三角,点击出来的选项,第二个“import sitemap”。
如图1,第一个大方框,填写抓取的用的代码{如图2}。下面是命名,这个随意写个就可以了。抓取公众号标题、时间、内容链接(以下就是代码,大家直接复制使用即可){'_id':'gongzhonghao','startUrl':['https://mp.weixin.qq.com/s/YkQyrnDt6e_Sn7oj2JaHyA'],'selectors':[{'id':'total','type':'SelectorElementScroll','parentSelectors':['_root'],'selector':'div.weui_msg_card:nth-of-type(n+2)','multiple':true,'delay':'1000'},{'id':'title','type':'SelectorText','parentSelectors':['total'],'selector':'h4.weui_media_title','multiple':false,'regex':'','delay':0},{'id':'date','type':'SelectorText','parentSelectors':['total'],'selector':'p.weui_media_extra_info','multiple':false,'regex':'','delay':0},{'id':'link','type':'SelectorElementAttribute','parentSelectors':['total'],'selector':'h4.weui_media_title','multiple':false,'extractAttribute':'hrefs','delay':0}]}
1.粘贴代码。2.命名。3.点击最下面的“import sitemap”
此时出现下图中的这个页面,点击中间那项右边的倒三角,点击 edit metadata.
出来的这个页面里,start URL是要抓取的链接。这里我就去复制刚刚打开的公众号页面的链接,然后粘贴进来,最后,点击下面的”save sitemap“即可。
出来的这个页面,点击最下面的按钮“start scraping”。
这时就会跳出,自动抓取的页面,并自动抓取。
等待抓取完毕后,会出来这个页面:点击 蓝色的“refresh'。
就会出来抓取的数据预览页面了。
这里,还是选择中间那项,点击右边的倒三角,点击最后一项”export data as csv',就会出来一个 download now,点击就可以将数据下载到电脑里面了。
打开电脑里面的表格文件,就可以看到抓取到的内容了。到此为止,基本上算完成了。
但是,下载下来的排序是错乱的。这里,需要自己手动去筛选排序即可。非常简单:将标题栏进行筛选,第一个标题栏里面的数字就有大小顺序的,大家按升序或者降序排序就可以了。如果不明白的,可以多看几遍,我也是实操了很多次,才会熟练的。祝大家成功!
核心点,谷歌浏览器和插件安装,还有老版本微信安装好,操作就非常简单了!
全程不需要自己写代码,插件是谷歌官方的,并且是免费使用!有不明白的可以留言看到会解答!