Google即将开始深度Web索引

互联网  /  houtizong 发布于 2年前   89
35公里 写道 "Google 从来都不会停止对信息的追求,去年共有100 Exabyte 的数据被 Google 消化(1Exabyte=1000000000Gigabyte)。据估计,仍有大量的在线数据是 Google 所无法获取的,如那些未被索引的网页,非文本内容,以及需要通过表单发布方可获取的动态内容,即所谓的深度WebGoogle 近日在一篇博客文章中宣布,他们即将涉足这些深度Web数据。 在这篇博客文章中,Google 的 Jayant Madhavan 与 Alon Halevy 说,对于那些文本框,我们会从所在页选择一些词汇填写,对于选择框与复选框,我们会从 HTML 中选择一些值,一旦填写好表单,我们会尝试发布这个表单并对返回的合法,有意义的内容进行索引。Google 同时强调,他们会一如既往地尊重 robots.txt 协议,任何在 robots.txt 被禁止的表单都不会被索引。据估计,深度 Web 的规模是常规的公开 Web 的数倍,尽管在网络中,有很多数据是 Google 不应涉足的,但表单可以让 Google 在网络中更进一步,Matt Cutts 指出,我们这样做主要不是为了那些通过表单发布而返回的搜索结果,更多是为了发现一些通过常规手段所没能发现的新链接。

需要指出的是,Google 只索引那些使用 GET 协议的表单,而不会尝试去发布那些使用 POST协议 的表单,所以,你不必担心自己的在线反馈表单收到一堆来自 Google 的垃圾信息。

请勿发布不友善或者负能量的内容。与人为善,比聪明更重要!

留言需要登陆哦

技术博客集 - 网站简介:
前后端技术:
后端基于Hyperf2.1框架开发,前端使用Bootstrap可视化布局系统生成

网站主要作用:
1.编程技术分享及讨论交流,内置聊天系统;
2.测试交流框架问题,比如:Hyperf、Laravel、TP、beego;
3.本站数据是基于大数据采集等爬虫技术为基础助力分享知识,如有侵权请发邮件到站长邮箱,站长会尽快处理;
4.站长邮箱:[email protected];

      订阅博客周刊 去订阅

文章归档

文章标签

友情链接

Auther ·HouTiZong
侯体宗的博客
© 2020 zongscan.com
版权所有ICP证 : 粤ICP备20027696号
PHP交流群 也可以扫右边的二维码
侯体宗的博客