微信搜一搜迈出新的一步,好戏来了( 二 )


使用搜索引擎激活存量资源,形成更大的协同生态 。
人无我有,人有我优,人优我便利 。
不仅仅是技术的问题,更是思路上的差异 。
02
搜索引擎这个东西并不新鲜 。
我们一般把搜索引擎分成四代,导航网站(黄页模式)是第一代,给你什么你看什么 。
提供最简单的文本检索功能的是第二代,人们可以简单录入自己的需求内容,但是受限于网站的内部数据库 。在第二代的后期,搜索引擎解决了内部数据库问题,使用爬虫来爬公域信息,理论上数据库是无限的 。
我们最常用的,其实是第二代搜索引擎 。
从第三代开始,搜索引擎开始去预测用户的意图和习惯,在搜索结果中插入高亮信息 。这些信息可以是搜索引擎认为更有效的资料,也可以是广告 。
前三代搜索引擎主打的都是围绕厂商端的需求 。
第四代搜索引擎是基于移动互联网出现的用户中心时代,最大的特点就是搜索的私人化,依据对用户的了解,从搜索方式,搜索类型乃至搜索结果,都要往千人千面上靠 。
搜索引擎的历史不算长,但是技术跃迁得非常快 。
虽然给用户带来更便利的内容分发体验这个核心逻辑没有变过,但是在搜索引擎的进步过程中,也产生了很多非常有意思的技术原理,甚至和道德、法律、社会公序良俗相关 。
首先是爬虫技术 。
网站其实并不欢迎私人的爬虫,因为爬虫的访问量会增加网站负担,但是又无法带来真人流量 。所以,现在很多网站都设置有验证码,就是为了确保访问请求都来自真人用户 。
但是,网站对搜索引擎的爬虫是非常欢迎并且来者不拒的,被搜索引擎爬取并且收录可以增加网站的曝光;甚至对于很多缺乏冷启动的小网站来说,被搜索引擎爬出来,就是它们唯一能得到流量的渠道了 。
搜索引擎的爬虫技术其实没什么好讲的,不管技术好坏,最后都能爬出来,区别在于爬取过程中的技术代价以及效率 。
但是,爬取+收录这个行为就出现了骚操作了 。
有一家自己不做搜索引擎但是专门给其他公司提供搜索技术的公司,叫inktomi 。这是互联网早期非常重要的一家搜索引擎技术提供商,而它把自己作死的原因,是inktomi开始要求网站付费才能被收录 。
实际上,搜索引擎的搜索结果就是它为用户提供的商品,网站被收录,获得流量,搜索引擎收录网站,获得更多内容,本来是双赢的一件事情 。
如果要求一方给钱,性质就变了 。
后来的雅虎和Google就是因为免费策略而大获成功 。
搜索引擎很赚钱,但过度追求金钱,最后必然会带来失败,这是搜索引擎的第一个教训 。
再比如搜索结果的排名机制,也历经过非常有趣的演变 。
二代搜索引擎的排名机制和爬取机制是一体的,用的都是一些信息检索模型,比如布尔模型,概率模型或者向量空间模型 。
这种机制下,其实不存在排名问题,因为返还给用户的直接就是一个链接清单,里面会夹杂大量用户不关心的链接,用户必须一条条全部看完才能找到自己需要的内容 。
到了第三代搜索引擎,就把链接清单给取消了,以搜索界面的形式展现搜索结果,也就是我们现在看到的大多数搜索引擎 。问题在于,在这个界面里,哪个搜索结果应该排在前面,哪个应该排在后面,这会直接影响到搜索结果的曝光度 。
当时的各个搜索引擎,用过不同的逻辑去判断这个问题 。
比如有一个早期的搜索引擎叫Direct Hit,排名机制主要靠搜索结果的用户点击率来决定 。在一开始,这种方法的确提高了用户看到优质搜索结果的可能性,Direct Hit也因此流行一时 。

推荐阅读