如果我们假设搜索质量好的搜索引擎会在未来的一段时间中增加市场份额,用这些研究成果来预测搜索引擎的市场发展规律的话,几乎全部的预测都是错误的。那么评价一个搜索引擎好坏的标准是什么?

谁能回答李彦宏给武大信息管理学院出的研究生课题?

武大聘我做兼职教授,并且要求要带研究生。我想了想,目前决定给那些申请我研究生的同学出一个课题,看看大家的反应。

当今世界搜索引擎风起云涌,就搜索技术而言,工业界一直领先学术界。每个主流IT公司都在搜索技术上有很大的投入,竞争颇为激烈。但搜索引擎的评价标准,业界一直没有一个统一的看法。大学、研究机构、媒体、投资领域都曾多次尝试对商业搜索引擎进行评测,发表了研究成果。但如果我们假设搜索质量好的搜索引擎会在未来的一段时间中增加市场份额,用这些研究成果来预测搜索引擎的市场发展规律的话,几乎全部的预测都是错误的。那么评价一个搜索引擎好坏的标准到底是什么,我认为这是一个极其有意义的研究课题。

请据此列一个研究计划,一周内提交给我。我将决定谁会成为我的「研究生」。


关键看分析日志。

搜索引擎的目标是帮助(自动补全)用户以最快的速度(响应时间)找到其最满意的结果(结果点击分析)。但是这个讲讲很简单,真正的评判标准是什么??还是看日志。

一、对某一个关键字的某一次搜索结果,分析日志,看看用户对结果的点击情况(点击了第几条结果,是否点击分页),点击了几个(零个或多个)结果后更改了关键词,每次搜索结果带来了持续点击量有多少?

二、还有就是关键字自动补全,用户使用这个功能的比例是多少,使用这个功能后,对点击结果的分析,同一。

三、搜索引擎的纠错功能,关键字纠错。出现率、点击率、后续点击分析,同一。

四、响应时间。不同响应时间下,上面三种分析的不同结果。

以上是对类似百度、谷歌这种搜索引擎来说,还有一类是淘宝这种的电商搜索引擎。

那么好坏就更加直接了,pv的提升量,商品点击率提升量,订单转换率提升。还有上面提到的一些汉指标


能不能实际的将网页与查询词两者,自动分类,分别匹配到各式的搜索需求里面,并对应著以此给出排名。

这是一个能与不能的二分问题,所以不能说一个搜索引擎究竟有「多好」,但至少能说明一个搜索引擎是「好」的,至少远好于目前的百度。

比如一个最简单的例子,「SEO是什么意思」,用这个词到Google搜索,没问题,会看到一堆页面确实解释了SEO是什么。信息类直接型的查询词,匹配到信息类的网页,很合理。

到百度去搜索,完蛋了。可以发现只要网页在标题里面出现过「SEO是什么意思」,排名就可能上去,不管网页实质上是属于哪类的。因为百度逃避了真正的搜索需求问题,而偷懒的通过分析搜索行为等方式,将其简化成了最原始的词项分析。

而搜索量小的词没有多少搜索行为可分析,所以。。。搜索质量就那什么了点。此时百度只是全文检索引擎的升级版,除了词项权重外,仅加入了链接权重、与查询词无关的文档权重,但将最重要的用户需求置之不顾。

百度也不是完全没有处理用户需求问题,只是方法特别囧,比较遭人骂。

比如上例中,「SEO是什么意思」,百度看到查询词里面有「什么」,知道了百度知道(好绕口)能符合这些信息类需求,就优先把百度知道列上去;看到了「什么意思」,又知道了百度翻译能符合用户的胃口。这就是百度伟大的阿拉丁计划中的蛋疼一环。。。
对通用搜索引擎来说,传统的标准:查准率,召回率,索引量,查询速度,去重,索引更新速度等对垂直搜索引擎来说,行业内信息量,信息展示模块的用户体验

现在比较新的要求:准确理解用户查询意图,包括前些年很热的」个性化搜索「都可以归结到这里面来。前一阵听了一期主题为智能演算法探讨的TUP报告,里面有邀请搜狗的一位研究员分享搜索意图方面的内容。其中有提到一个例子:搜索搜狗输入法。有的用户的输入是」搜狗拼音输入法「,有的输入的是」搜狗的 最新的 输入法 拼音的 下载「。如何让计算机更好理解用户的意图是未来做好搜索的关键


每个人网路的接触范围是有限的,如果我们摸透了一个人的脾气,将他经常接触到的放到他的面前。或许他就不用去搜索。 百度新首页和目前形形色色的导航,貌似可以解决这个问题。但是并不完美。

搜索引擎或许可以通过大量的收集数据,来判断一个人在网上浏览的信息【接触范围】。另外在适当推荐可能感兴趣的信息。

之前看过两篇文章,

访客如果能很方便的找到自己想要的东西,他就不会去搜索,这个说法好像还是来自淘宝碳酸志。

另外一个是说百度已经开始没落了。 例如,我们想娱乐的时候不是搜索「小游戏」而是搜索4399. 某人秤这种现象为定址搜索。

定址搜索现象越严重,越说明百度的搜索结果当中提供给我们的信息无用,百度的用户体验越差。所以大家需要记网站名称和网址来搜索,才能到达目标网站。

写的有点乱七八糟,希望对楼主能有所帮助。
搜索引擎的好坏主要是对用户而言的吧,而用户主要需求是:一,反应速度要快,能够在最快的时间内返回搜索结果二,搜索结果要准,能够返回最贴近用户想要的答案最后个人小建议,貌似现在百度搜出来的网站会有一些是带病毒的,希望能把安全因素考虑进去
推荐阅读:
相关文章