360绕过了Robots协议,利用浏览器记录并上传用户数据和上网行为,并形成自己的网址库,再用伪装和隔离器隐藏过的爬虫来抓取快照,生成搜索结果。
那么,从浏览器端直接搜集网页信息是否正当?
实际上,Robots协议并非强制性法规,而是搜索引擎诞生后,互联网业界经过长期博弈,最终在搜索引擎与商业站点、公众知情权安全栅和用户隐私权之间达成的一种妥协。
据《每日经济新闻》了解,早期的互联网主要是“用户-网站”模式。流量计用户通过网站获取信息,网站通过吸引用户点击来实现广告收入。不过,当谷歌把搜索引擎变成一种成功的商业模式之后,很多网站原有的孔板流量计商业模式遭到了严重破坏。
为了维护自身的利益,一些欧美大型网站联合起来与谷歌谈判,要求谷歌“有所为有所不为”,于是就有了Robots协议。该协议的核心思想就是要求Robots程序不要去检索那些站长不希望被直接搜索到的内容,并将约束Robots程序的具体电磁流量计方法规范成格式代码,就成了Robots协议。一般来说,网站是通过Robots.txt文件来实现Robots协议。
国内使用Robots协议最典型的案例就是淘宝网拒绝百度搜索。此外还有大量的用户注册、邮件等信息,都利用Robots协议来防止这些内容在互联网上被搜索到。
不过,绝大多数中小网站需要依靠搜索引擎来增加流量,因此通常并不排斥搜索引擎,也很少使用Robots协议。去年京东商城屏蔽一淘网抓取数据时,曾指责一淘网破坏了Robots协议。
技术工程师Joey在接受《每日经济新闻》采访时表示,谷歌、百度是通过都是自己的服务器不停地在网上抓内容进行索引,而360的模式是让每个使用流量计360浏览器的电脑成为360的蜘蛛爬虫,把浏览的内容上传到360服务器上做索引。 |