多语言展示
当前在线:125今日阅读:152今日分享:13

如果没有robots协议,互联网世界将会怎样?

Robots协议是网站站长与搜索引擎之间共同讨论后形成,通过Robots.txt落地。网站站长用它决定对搜索引擎的开放程度,可指定哪些内容可以被搜索引擎抓取,哪些不可以;也可以指明对那个搜索引擎开放,或者对哪个不开放。限制某个搜索引擎,Robots初衷是限制“BadRob”,即坏爬虫。所谓坏,是指存在安全或隐私问题,抑或太高频率爬取导致服务器压力。随着互联网竞争的加剧,ROBOTS俨然成为互联网竞争的工具。拥有数据的网站可以选择对竞争对手不开放数据,对合作伙伴则洞开大门。此前便曾发生淘宝限制百度ROBOTS、苏宁和京东限制淘宝一淘,以及最近的百度限制360搜索爬虫。在UC推出神马搜索之后,百度ROBOTS同样“例行性”地对其进行了屏蔽。十年前,第一次做个人网站时,就见识了robots协议的厉害,因为没有上传robots协议文件,网站的管理后台页面都被谷歌收录了,由于当时初出茅庐不注意隐私保护,为了方便自己登陆后台管理维护,就把用户名和密码都加了和页面背景色一样的颜色,每次登陆只需鼠标一滑,就可以拷贝到密码框里。被搜索引擎收录后后果可想而知。从此,养成了无robots文件不做站的习惯,也对robots协议渐渐有了更深刻的理解。就像酒店提供的“请勿打扰”标牌,如果不想被服务员敲门甚至擅自推门进来打扫卫生,最直接的办法就是把这么个标牌挂到门外把手上。如果哪个服务员对标牌视而不见,打扰了我们的正常居住,那是必然要可以投诉一把的。当然,这只是举个例子而已,哪怕再没有素质的服务员也不可能故意给自己和别人找麻烦。可是,在互联网这个大酒店里,却偏偏有这么一个愣头青服务员,光天化日的就无视“请勿打扰”的robots协议,冒天下之大不韪,去收录人家不允许收录的内容,人家把他告了,它还振振有词,死不悔改,仍然我行我素去抓robots协议明文禁止的内容。robots协议(也称为爬虫协议、爬虫规则、机器人协议等)由荷兰籍网络工程师Martijn Koster 于1994年首次提出。作为国际互联网界通行的道德规范,网站通过robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。其目的是保护网站数据和敏感信息、确保用户个人信息和隐私不被侵犯。这种协议可以说对都是有利无弊,毕竟,没有隐私的互联网无异于不穿底裤裸奔。可是,偏偏有一些搜索引擎界后来者中的偷窥狂和露阴癖怀揣不可告人的动机去抓取被robots协议禁止抓取的信息,实乃是人人喊打的过街老鼠。早在2012年,百度、360、搜狗等12家搜索引擎服务企业在北京签署了《互联网搜索引擎服务自律公约》。公约规定,对于本公约公布前违反robots协议抓取的内容,在收到权利人符合法律规定的通知后,及时删除、断开侵权链接。由此可见,robots协议多么重要,如果没有rebots协议,那互联网就是一张白纸,互联网上没有任何隐私可言,也就没有安全可言!
推荐信息