风之埃尔夫 写道 "
关键词搜索,不用详加解释,看字面就晓得,就是今天我们使用的依靠关键字来搜索信息的方式。
这是自古以来检索信息的一种传统手段,在浩如烟海的书籍当中,图书馆管理员把各个书籍分门别类,并写上内容简介等等,你需要什么书,只要按照这本书的几方面特征去寻找就好了。这是一种十分有效的方法,延续使用至今,直到今天的互联网搜索引擎,也是使用这种原理,你打开百度,输入“周杰伦”,这位流行歌手的相关信息就被检索出来了,本质上与你在图书馆里找书没有什么区别。
关键词搜索的问题 但是,古老的方式在今天会遇到新的问题。这种检索方式的基本特点——用片段信息来概况整体信息,从而达到提高检索效率的目的,在互联网上却碰到了麻烦。
我们发现,搜索引擎给出的结果,常常与我们期望的有偏差,我们还需要人工去对这个半成品做进一步筛选才能找到我们想要的内容,而随着互联网的发展,这种方式的效率越来越低了,我们得到的内容跟我们的期望之间的偏差越来越大。
问题产生的原因 原因一方面是互联网上的信息总量越来越多,另一方面是SEO(搜索引擎优化)越来越普遍。信息总量的增多使得同一个关键词所代表的含义不断扩展,而SEO使得关键词和内容的匹配程度越来越低,当然还有重复和相似内容不断增多引起的冗余。
一个假设推理模型 这种现象的出现不是一天两天了,而且有愈演愈烈的趋势,针对这种现象,我们不妨做一个推断,使用科学家惯用的假设方式,来预测一下搜索引擎未来的发展方向。
首先,我们锁定假设的两个内生变量,一个是SEO的发展,一个是搜索引擎的发展,两者是互相制约的关系,我们不妨先假设搜索引擎是不发展的,SEO发展到一种极端的情况,就是所有的内容都是SEO过的,也就是所有的内容都是经过针对搜索引擎优化的。
有人说所有都SEO那就等于所有都不SEO,但我们假设的是搜索引擎没有发展,那么最有可能的结果是搜索引擎失去作用,也就是我们键入关键词之后,获得的内容跟关键词毫无关系。
相反的假设没有意义,因为如果搜索引擎一直发展而SEO不发展,那最终的结果是搜索引擎做到完全精确,这是我们的理想国呵呵。
更有可能的情况是两者共同发展,这也是现实的情况,我们看看最终会得到什么样的结果。
如果没有外生变量的话,搜索引擎和SEO的共同发展造成的结果,就是我们搜索结果的质量没有变化,或者随着两者力量的不断此消彼长,搜索结果的质量有所波动,但长期来看是相对稳定的,简而言之就是我们未来打开百度得到的搜索结果,和今天得到的差不多。
但如果我们把外生的变量考虑进来,就是刚才讲的随着互联网的发展,内容的不断增多,关键词搜索的这种机制可能就无以为继了,因为一个关键词在自然语言当中的含义是相对固定的,而随着内容在总量上的增长,一个关键词对应的搜索结果也会随之增长,比如今天我们键入“周杰伦”得到的有效结果是10个,那几年之后,同样的关键词得到的有效结果可能就是100个,这样的话,用户端承担的工作量将随着互联网的发展而不断增加,最终会变得让人无法忍受。
而按照关键词检索的基本原理,这个矛盾是无法解决的,就像当一个图书馆很小的时候,你告诉管理员你想找一本小说看看,管理员给你列出一个十几本书的目录,而当这个图书馆扩大到很大的时候,你得到的将会是一个长得让你没心思看完的书单,你可能看看排在前面的几个就做出了决定,而哪本书排在前面哪本书排在后面是图书管理员无法决定的,这当中就出现了结果的无效性,因为很可能你随便挑了一本书之后发现这本书不合你的口味,于是你又挑了一本,发现还是不合你的口味,最终的结果是你的消遣变成了挑选书而不是真正去读书,这样的检索过程是无效的,因为那个书单有还是没有对你来说意义都不大了。
我们可以通过更加准确的关键词,或者更加复杂的关键词,来暂时解决这个问题——这正是我们今天所做的,但这些都是治标不治本的方法,无法解决关键词检索的根本问题。
Google推出的个人搜索记录这项服务可能是解决这个问题的一个尝试吧,但进一步的问题又出现了,我们以往的搜索确实能反应我们的喜好,但这只是过去的喜好,而人是不断发展的,我们未来的喜好怎么办呢?这个问题就扯远了,仅供发散呵呵。
假设模型总结 上面说了不少,看上去有点儿乱,我们总结一下这个假设的模型。
首先,模型的内生变量是搜索引擎的发展和SEO的发展,在不考虑任何外生变量的情况下,我们得到三种结果:
1.假设SEO发展而搜索引擎不发展,最终关键词跟内容之间失去对应关系,搜索引擎失效;
2.假设搜索引擎发展而SEO不发展,搜索引擎返回的结果达到完全准确;
3.两者共同发展,搜索引擎返回结果的质量不断波动,达到动态的稳定状态,就是和我们今天得到的结果差不多。
之后我们考虑加入一个外部变量——互联网内容的不断增长,由于这个变量的影响,最终有限的关键词将不得不对应无限增长的内容,最终引起搜索引擎的无效。 对未来的猜想 那么,关键词搜索最终将走向没落的问题如何解决呢?我这里提出一个思考的线索。
我们发现,今天在百度搜索的时候,很多时候使用百度知道比百度的网页搜索要更加有效,人们给出了各种各样的原因,最有可能的是,大家都从不同的角度解释了这个现象,我这里提供另一个解释百度知道成功的原因,不知道是不是重复,反正我是没看到过相似的说法呵呵。
从百度知道的内容来看,基本可以说是用户原创的,即便是粘贴过来的,也是经过了人工的筛选,可以归为广义的原创,所以等于是用户充当了搜索引擎爬虫机器人的角色,这当然解决了爬虫机器人准确性不足的缺点,所以百度知道得到的内容的准确性有很大提高。
另一方面,百度知道内容的创造几乎都是非赢利的(目前来看如果不加管理盈利的内容还是会泛滥,下一个SEO的目标应该就是百度知道),非赢利的内容SEO的动力就比较小,这样能够保证内容的跟自然语言的匹配性,从而使得搜索引擎的算法能够更加有效地起作用。
但是百度知道无法解决的问题还是那个内容暴涨的问题,我们现在已经看到相似的问题被重复提问和回答的现象,当然用户一般在百度知道找不到答案时才会提问,这在很大程度上解决了重复信息的问题,但是这种问题还是客观存在的。
和百度知道类似的服务是更老的wiki,它倒是解决了重复信息的问题,不过应用范围还仅仅限制在百科全书,最近推出了wikia搜索引擎,没有深入研究,但愿能够成功。
说了这么一大堆,其实是偶然想到的一个念头和随之发散的结果,本人没有相关研究背景,只是一个普通用户和好思之徒而已,以上内容不免纰漏百出,欢迎指正和讨论。"