2007年11月8日星期四

李开复:整合搜索是未来趋势 看衰垂直搜索(一)

腾讯科技讯 近期,由腾讯科技、TechWeb和大度咨询联合举办的中关村"IT龙门阵"正在如火如荼的进行中。

IT龙门阵第14期
交流主题:Google对未来搜索的展望

主讲嘉宾:Google全球副总裁、大中华区总裁李开复
主办单位:腾讯科技、大度咨询、TechWeb

时间:2007年11月6日 晚上7:30-9:30

地点:清华紫光国际会议中心一层紫悦厅


李开复做主题演讲

主持人:现在是IT龙门阵第十四期,这一期很容幸有请到了李开复老师来和大家交流,主题是Google对未来搜索的展望。下面我们以热烈的掌声欢迎李开复老师。
李开复:很高兴有机会跟大家交流,这么大的龙门阵我还没有参加过,今天程天宇跟我说来聊聊天,所以主要是交流,那我想交流的话,可能先把一个主题铺开,我想不会讲太长。很多人说搜索是不是已经做到极致了,没什么好竞争的了?大家差不多了?今天我郑重的、彻底地否认这个看法。
我想谈的一部分就是说,我们在过去的一年多以来,在中文搜索上,把过去的不足,尽我们的能力弥补了,然后我们在传统的网页搜索上做到了什么样的绩。
另外我在想,现在已经开始对未来的工作,就是对网页搜索到整合搜索,有什么样的一些更大的契机。然后最后我再想讲一下除了整合搜索之外,还有什么样的搜索的一个机会?
从这个宏观的角度来看,我们肯定是需要搜索,而且越来越需要,越来越难,为什么这么说呢?信息,互联网的信息是越来越多还是越来越少?是越来越多元化?还是越来越一元化?那么东西越多、越多元化、越复杂,那么平常的浏览方式,就像我们在以前在Windows里面,我们可以把我们所有的电子邮件都能够非常好的分类,后来慢慢不行了。
所以在刚开始的雅虎做了分类之后,慢慢大家觉得分类不行了,不可能靠分类浏览的方式需要搜索。这个是1995年的情况,那12年之后信息越来越多,而且越来越复杂,有视频、有各种不同的新闻、图片,还有更多结构化的数据库的信息,所以越来越复杂,越来越多。当然要找到它,让人能够简便的找到它,就和当时Google的第一个版本是一样的,非常简单,打进去要找什么,然后给我很多的选择,让我有很大的概率能找到我想找到的。这样的理念我认为至少未来十年还是需要。
还有一点我想谈到的就是说,搜索的技术不是说好,技术开发出来以后,信息再来,我就兵来将挡,不是这么简单的事情。因为信息越来越多了,就表示你搜索引擎会越来越坏,我们在Google做了很多的内部评估,今天当然不能分享这些评估的信息,但是我可以告诉你,当你看到的一个搜索引擎,他没有继续投入,我有一些搜索引擎是这样的情况,然后它会在我们的衡量下会每况愈下。因为信息越来越多了,其实很简单,所以我们的评估会越来越难,所以一个不再往上推进的引擎,它会越每况愈下。就算你要维持现状也要花很多时间去努力,何况还有那么多视频,还有多媒体信息,还有结构信息的出现。首先我想谈一下就是苦功夫,我们Google中国,怎么把中文的搜索做好的?
首先我想坦诚一下,两年前我们的中文搜索确实有很多问题存在,也有好多人认为说中文搜索不是太好,不管是精确度体验,或者从它的涵盖度或者是新鲜,等等各种问题,反正用户的抱怨还是很多的。我们在中国开始建立团队的时候,前三个月的工作基本上全部在自我批评、自我批判,我们的搜索引擎哪些方面做的不好,怎么样去改进。那么一个传统的网页搜索引擎,它的评估和改进,其实就在几个比较简单的地方,一个是够不够精确,还有就是有没有作弊,搜的广度够不够多,还有他的新鲜事做的够不够好,这个是它的一个精确还是我们很重视的事情。在多次的网民调查,当然还有用户体验、新的功能,但是一个不精确的搜索引擎,还是本质上不能够被用户接受的,最重要的事情。所以在精确度方面,我们在这两年有了很大很大的提升,这个提升大概就是说,刚来的时候,和美国的英文搜索引擎差距非常地大,所以中国用户对我们当时有意见确实是有道理,因为我们的中文搜索远远不及我们的英文搜索。
在今天的情况,我们非常自豪地说是基本上中文搜索精准度,已经差不多赶上了英文的精准度,所以你们都知道美国的用户是多么认可我们的搜索,我们这方面也能够在这两年之内做了很大的提升。在中国至少有4、5次不同的盲测,每一次都从精准度来看的话,都是中国最好的搜索引擎。有一些在博客里面说还不见得是Google是最好的中文搜索,在这里我就邀请任何在座的一位听众,如果不认可我刚才讲的这句话的话,你们回去就把Google和你最喜欢的搜索引擎做一个对比,你想十个词出来,两边搜一下,然后两边评估一下是谁做的好。如果做出来我们还没有最好的话呢,我是不相信会有这样的事情发生的。所以你测一个词是我们不能保证,因为我想就是说,其实每个搜索引擎还是做的不错的,一个词、两个词,三个词,都可能A比B好,B比C好,但是十个词的话,我有99%的把握。所以这个精确度最重要,在多次的盲测,你们自己回家去测,都可以确认这样一个事实。这是第一点。
第二点就是说,抓得够不够多,我们这两年抓的网页至少多了三倍左右,我们抓的完整度至少比以前多了三倍左右。所以我认为从各种不同的评估来说,我们抓得应该是相对比较完整,我们也在这方面花了很多苦功夫,你可以想象要做很多功夫,找到你们不能抓取的网页。所以如果你有一个很奇怪的博客、或者一个很新奇的网页,我相信你在我们的搜索引擎都可以找到。
第三个是新鲜度。我昨天有一个很重要的信息出来,多快能够捕捉到?这个其实是不容易的事情,因为我们不可能一秒钟爬遍整个中国的网页,所以这个我们的做的方法其实我们有很多这种聪明的方法,我们会去判断一个网页的重要性,对重要的网页,我们可以几分钟就抓到,你放一个东西上去几分钟内在Google可以搜到,如果你不相信的话,其实很简单你到新浪、搜狐或者任何一个网页,你可以试试,你把一分钟前、两分钟前刚出来的新闻,你到Google里面,你会发现很多,很多我们的员工在比,在几分钟之内能抓到,但是我看到7分钟之内的、5分钟之内的,非常非常快就能捕捉到。当然这不是每个网页都能抓到,因为不是每个网页都和新浪新闻一样那么普遍,在中国的网民心中,把它排名排的这么高。但是重要新闻网页几分钟就可以抓到,不相信你可以自己去试试看,5秒钟就可以测试出来,这是新鲜度。

原文链接