《科技创新与品牌》杂志社创新成果

尹红风和他的搜索梦


    耶宝(Yebol)智能搜索引擎,能够综合人的知识和计算机的算法自动把互联网信息、人的行为等转化为知识库,从而提供用户准确而直接的搜索结果和答案。这是一种全新的智能语义搜索或者是以知识为基础的搜索



耶宝(Yebol)创始人尹红风博士


        在互联网上浩如烟海的信息中如何准确快速地找到自己需要的信息,已经成为广大网络用户的当务之急。
        但是,自从1994年最早的面向用户的搜索引擎Yahoo诞生至今,传统的搜索引擎的技术表达并没有发生根本性的变化。虽然在细节和服务项目方面一直在优化和丰富,但是互联网急速膨胀的信息量,仍然让传统搜索引擎有些吃不消。自搜索引擎巨头谷歌(Google)面世以来,Yahoo就节节败退,现在不得不与微软合作。而国人最熟悉的搜索引擎百度,现在也常常遭到网络用户的诟病。人们已经不再满足于在输入关键字之后,还要从下一个页面甚至几十页网页里寻找到自己想要的信息。
        人们迫切地需要新一代智能搜索引擎的出现。

        为了一个梦想

        早在10年前,尹红风博士就觉得互联网搜索领域需要一场大变革。
        尹红风在中国科学院自动化所读博士的时候师从中国科学院院士、工程控制论与人工智能专家戴汝为。戴汝为院士1955年从北京大学毕业后,就在中国科学院力学所师从著名科学家钱学森先生,而钱先生关于思维科学、开放复杂巨系统理论、“人机结合”的智能系统等思想和理论也在戴汝为院士及尹红风博士这里得到继承和发扬。
        尹红风在戴汝为院士的指导下,共同发表了长达6万字的论文《论思维与模拟智能》,文中提到思维模型的建立和形象思维研究的突破。论文得到了钱学森先生的高度评价,称此文“应写成为一篇划时代的经典性文章”。
        后来,尹红风专心研究模拟人类的形象思维,侧重于用联想记忆模式和人工神经元网络来对形象思维进行模拟;多年来以建立类似人的世界知识库为拼搏目标,实践着钱学森先生的科学思想和理论。他逐渐认识到,这一思想最终将使更加智慧、更加快速的智能搜索引擎成为可能,并最终颠覆传统的搜索方式。他始终怀有一个梦想,要做中国人自己的智能搜索引擎。
        为了实现这个梦想,2007年尹红风毅然辞掉了在美国Yahoo的工作并回绝了其他国际大公司提供的优厚条件,于2008年创建智能语义搜索引擎公司耶宝(Yebol)。

        搜索引擎大变革时期即将到来

        在Yahoo成立初期,使用目录导航系统来支持简单的数据库查询。这一系统的缺点就是网站收录和更新都是人工维护,所以后来在信息量剧增的条件下,就不是非常受用了。
        后来“机器人”一词在搜索领域开始流行并逐渐替代了人工。“机器人”(Computer Robot)是指某个能以人类无法达到的速度不间断地执行某项任务的软件程序。由于专门用于检索信息的“机器人”程序像蜘蛛一样在网络间爬来爬去,因此,搜索引擎的“机器人”程序就被称为“蜘蛛”程序。
        随着技术的发展和网络的实际需要,“蜘蛛”程序也做了很多改进,但基本上仍以链接索引为主,即以搜索工具在数据库中找到匹配信息。现代的搜索引擎基本也来源于同一工作原理。搜索引擎巨头谷歌的副总裁玛丽莎•梅耶也曾说,目前为止搜索引擎的工作已完成了90%,对传统的搜索引擎来说,玛丽莎•梅耶的观点是对的;但对新一代搜索引擎来说,目前的工作只完成10%,还有90%的问题需要解决。



尹红风博士在演讲


        而尹红风的耶宝(Yebol)智能搜索引擎,能够综合人的知识和计算机的算法自动把互联网信息、人的行为等转化为知识库,就能像人那样理解网页内容和用户搜索的意义,从而提供用户准确而直接的搜索结果和答案。用尹博士自己的话说,这是一种全新的智能语义搜索或者是以知识为基础的搜索。
        面对能否与谷歌和百度等搜索引擎竞争的疑问,尹博士自信地说,耶宝与之前的传统搜索引擎有本质的不同,可以说不是一个相同的产品,而是一个新兴的行业。耶宝和传统的引擎有一些交集,但并不是完全的竞争关系。打个比方说,这一代的东西很难竞争,下一代的东西大家都在同一个起跑线上,他们可能在商业方面更有优势,而我们在技术方面则更有优势。我们现在才刚刚开始,还有很多的机会。

        耶宝的优势

        作为新一代搜索引擎的领军力量,耶宝具有其他传统引擎无法替代的优势。
        最突出的优势就是,耶宝以处理信息内容为主,通过理解网页内容和用户搜索的意义,从而为用户提供准确而直接的搜索结果和答案,并将与信息内容相关的信息通过分类目录的形式提供给用户。
        传统的搜索引擎对于自然语言的理解能力十分有限。比如在搜索引擎里输入一个字或词,我们称之为“关键词”,它们能迅速地去寻找含有该关键词的网页,并通过相关算法把这些网页以目录索引的方式显示出来。然后用户在从这些网页中去寻找自己想要的信息。
        而耶宝在理解了这个关键词的意思之后,可以迅速地在页面直接给出关于该词的内容,并以分类目录的形式给出与该关键词意思近似、类似甚至相反的内容。
        就好比用户想找一本《红楼梦》,在搜索引擎输入关键词“红楼梦”,传统的搜索引擎只是把与“红楼梦”这个关键词匹配的所有网页罗列出来,让用户自行去网页目录中再次搜寻自己想要的信息。而耶宝可以在用户输入“红楼梦”的同时,就在页面显示书中的文字内容,并在页面相关板块给出关于“红楼梦”的其他信息,比如该书作者、该书的历史意义、对该书的评论,甚至也会给出《红楼梦》电视剧、话剧、舞台剧等等其他相关信息。这些围绕着关键词“红楼梦”的其他信息也是以一种立即显示结果的方式提供给用户,用户只需用鼠标点击相关链接即可。
        另外,对于传统引擎来说,如果输入的是一个句子,比如说一个问句,因为里面包含的关键字太多,这类引擎只能选择其中的一个词作为关键字。比如输入问句“玛丽莎•梅耶今年多大年纪?”传统引擎会选择“玛丽莎•梅耶”作为关键词,罗列出匹配该词的所有网页,然后用户再在这些网页中(比如玛丽莎•梅耶个人简历的页面)去寻找答案。这里,传统引擎之所以选择“玛丽莎•梅耶”作为“关键词”,是因为它是一个很热门的关键词,即该词相比其他关键词如“今年”、“年纪”,被网络用户搜索的次数更多。注意,我们这里所以要强调“今年”这个词,是因为搜索出来的很多页面,可能不是最近更新过的信息,比如2008年玛丽莎•梅耶出席的一次商务活动的页面也会在搜索结果中,这样用户得到的可能是比实际年龄小两岁的结果。
        而用户输入了同样的问句后,耶宝可以理解该问句的含义并立即给出玛丽莎•梅耶的实际年龄,而且会在页面中看到诸如她的生日、出生地、籍贯、履历、兴趣爱好等其他信息,并会看到关于她的图片和视频等其他内容。耶宝就是这样致力于第一时间满足用户的搜索需求。
        当然,据尹博士说,现在对于图片和视频的内容识别,耶宝正在努力完善,将来通过人工智能实现“人机结合”后,该项功能自然可以实现。目前,耶宝了解词和词之间的关系,比原先的搜索引擎进了一步。随着技术的完善,理解力越来越强,将会达到像人那样对整个长句子的理解。


        再一个突出优势就是实现“人机结合”。
        尹博士说,耶宝是综合集成的系统,对自然语言的理解只占很小一部分。以后要实现“人机结合”,即怎样把机器的智力和人的智力比较自然地结合在一起,这是我们将来一个很大的任务和目标。
        当然,这里的人工部分我们不是自己靠人力来做,而是靠互联网的数十亿用户,把他们的智力和知识综合起来。以后搜索引擎的发展趋势必然是人机结合或称为人机共建的系统,这个趋势现在已经很明显了。因为很多功能,比如对自然语言的理解、复杂问题的回答、图片和视频的识别等,在相当长的时间内机器还无法和人相比;但是如果把所有网络用户的智力集中起来,就能解决很多的问题,比如说百度的“百科”、“知道”等,其实不是机器的智力,而是人的智力。这里的“人”,以前是指相关领域的专家,现在是指所有的网络用户即网民,每个网民本身可以提供一个服务,将每个网民有限的知识集中起来,就形成一个很大的知识库,这样就能解决很多的问题。
        现在,耶宝在以第一时间满足用户搜索需求为第一要务的同时,也在细节和人性化等方面积极改变着。耶宝将会推出面向单个网络用户的搜索导航,按照用户的搜索习惯和搜索兴趣对页面进行合理的布局,并通过个人账号登录等方式妥善地保护用户的隐私。
        在用户普遍关心的竞价排名问题上,尹博士说:“我认为耶宝会采取国际上通用的公平竞争的方式,公正才能促进搜索行业的健康发展。我在美国看到有很多搜索引擎,一方面是自然的搜索,完全根据算法,不加入其他人为因素和金钱的因素,我很赞同这个观点。但另一方面,一些商业方面的广告,明码标明根据价钱或点击率来排名,我感觉也是可以的。总的来说,对于认可的网站,公正的非竞价排名是应该的。这才是正确的信念和价值观。”
        据尹博士介绍,将来耶宝会继续在智能化方面不断探索和努力,必定能够超越国外,实现领先世界的创新科技。我们期待着尹博士在高手林立的搜索引擎市场中,杀出重围,建立属于自己的搜索帝国。