首页 > 学术交流
 
技术视点:搜我"比谷歌还牛:深入新型"知识引擎"发布内幕"
    
来源:网易探索(广州)       作者:麻省理工《科技商评》       采集时间:2009-10-15     点击量:1544

本网讯   麻省理工《科技商评》杂志10月15日报道 4月27日晚,暴雨拍打着杰米威廉(Jamie Williams)隔间旁的小窗。这位物理学家坐了下来,筋疲力尽,却仍沉浸在食品科学的种种细节中。他面前的屏幕显示了一张来自美国农业部的原始数据表格,包含了从黑莓到牛肉等7000种食物的相关数据。他和一个四人的团队正在“审查”这些数据,为一种新的在线搜索做准备。

他梳理那些标识了150种属性(营养成分,热量,碳水化合物等等)的标签,保证各种缩写保持一致,并被电脑识别。他将食物分组以便更有利于自然语言查询。例如,搜索关于“牛奶”营养成分的信息将给出相关均值,而“脱脂乳”的搜索将给出特定的答案。

威廉并没在硅谷的网络企业家的阵营中立足,而是在中西部的一座科学怪人的城堡里:伊利诺斯州香槟市的Wolfram研究院,它位于一座可以俯视华尔格林公司和麦当劳的办公大楼中。这也是史蒂芬•沃尔弗拉姆(Stephen Wolfram)的“藏身处”。沃尔弗拉姆是一位物理学家,数学软件Mathematica的发明人,这款软件是面向数学家、科学工作者和工程师们的一款通用的、最为完整的、技术与图形化软件。

威廉正在致力于一项被公司称作“计算知识引擎”的工作:Wolfram Alpha。对于提出的问题,Alpha计算出答案而并非仅仅列出网页。它包括三个部分,一个在香槟市人工维护的不断扩展的数据库,一个精心制作的计算器,和一个用于查询的自然语言界面。

图:Alpha 之父: 源自他自己对科学再创新的认识,史蒂芬•沃尔弗拉姆希望避开网页搜索,而是通过计算来回答用户的在线查询,所有资源都来自于公司的数据库。5月15日,他在伊利诺伊州的控制中心发布了他的“知识引擎”Wolfram Alpha。来源:罗伊•瑞奇

什么是Wolfram系统可以做而谷歌却做不到的呢?例如,你想要知道你奶奶的玉米面包中含有多少胆固醇和饱和脂肪,你需要将黄色的索引卡上标出的成分输入到在线查询框中,Alpha将会开始计算并给出一个美国农业部官方风格的营养标签。Wofram研究院的创建人之一西奥多•格雷(Theodore Gray)说:“当然,你也可以使用谷歌,寻找出标准鸡蛋中的热量等等,但这是多么痛苦呀!你需要数据,并且需要那些已经根据需要转换好单位的数据,然后你要把他们加起来。你可以像几十年前一样去做,到图书馆找到参考文献,现在你可以通过谷歌或者其他搜索引擎开始查找,但我们使这变得更为简单了。”他补充道:“使用传统的搜索引擎,输入‘加入一杯糖,一磅面粉’,它会给出满屏无用的信息。”

这只是可以反映Alpha是做哪一类事情的一个例子:对特定的一类问题,首先通过一个有限集合,提供更深入、精确并且更图像化的答案。搜索“D# 大调”将会给出音乐谱线图,搜索“金星”将得到详细的当天夜空图,搜索成对的公司名将得到两公司的对比图表。它也会增加一些额外信息:搜索“纽约,伦敦,距离”不仅可以得到按照公里、英里和海里计量的距离数值,还有一张标出飞行路线的地图,并有喷气式飞机、声波和光束完成这一行程耗时的对比。询问某个字(以word开头)将会得到词源学的表格和同义词网络等。

为了完成这类工作,它运用数学、科学数据集合和已经嵌入到Mathematica中的一些公式,完成答案的组建。对于一些新的信息,如政府食品数据,仅需少量的重新整合,这也正是威廉目前正在做的。其他的,如实时股票价格,则需要执照。另外的信息,如飞机航班数据,则需要从一些公开的网络资源如维基百科、Freebase中收集,经整理后得出。

沃尔弗拉姆本人却正在波士顿,准备次日下午的首次公众演示(他已经给万维网创始人提姆•伯纳-李(Tim Berners-Lee)和其他技术界领袖,包括微软的比尔•盖茨、谷歌的谢尔盖•布林和亚马逊的杰夫•贝索斯在内的人们演示过)。我坐在格雷的办公室里,这里更像是一个元素周期表的世界而非工作间:镍、铬、硒、硫磺等将近一打样本装饰着玻璃架子。(他自豪的打开一个铅盒,拿出一个昏暗的大约两包扑克牌大的金属板,那是11磅重的非浓缩铀,但仍有一定的放射性。)格雷说:“目前只能搜索基于文本的现有素材,这种想法是有局限性的,代表了想象力的一种失败。”

只是初步:Wolfram Alpha起初范围有限,只拥有一个有些死板用户界面和模糊的信息来源,但公司合伙创建人(素材收集者)西奥多•格雷表示,目前主要的搜索引擎正遭受“大量假的幻想信息”的困扰,并且计算能力非常差。

大厅的另一侧,身为宇航员和MathWorld(目前由Wolfram主持的一种在线参考服务)创始人的埃里克•魏尔斯史甸(Eric Weisstein)正坐在办公室的吊兰植物和蜡纸杯之间(这可以有效地净化空气,他解释到),将一个复杂的单位转换器中已经完成转换的内容输入到Alpha中来检验结果。魏尔斯史甸说:“如果你搜索网页,不说上千,至少也得有上百个网页可以完成英尺到米的转换。但他们不够灵活,不够权威,大多数情况下覆盖面也不足。”

这种计算并不能告诉你一杯牛奶或者一杯面粉中有多少克(答案因物质而不同),更不用说用它们来转换1“捏”(对于盐来讲,是380毫克)或者1“滴”(如果是谷物油,1“标准滴”是56毫克)或者1“大桶”(相当于很多的酒,重248千克),还有更少见的导热系数单位,男士帽国际通用大小单位,或者任何种类的蒲式耳。魏尔斯史甸说:“蒲式耳很重要,1蒲式耳大豆和1蒲式耳小麦是不一样的,也和1蒲式耳容积不同,更别提1蒲式耳质量了。我们已经建成了世界上最好的单位换算器!”

在整座建筑和一些远程的分部里,大约有150名Wolfram员工以相似的方式工作着。我在艾得•佩格(Ed Pegg)的工作间里找到他,他正沉浸在瓷砖的课题中。他手边是一些权威的参考资料,700页的由Grünbaum和谢泼德(Shephard)写的瓷砖与样式,详细描述了人行道砖块的箭尾型和篮筐纹路材料的晶体学样式。

还有更多的花样:伊斯兰瓷砖样式(八边形、六边形、两种星型);由九边网状楔形组成的双螺旋;基于各种五角型的14种样式。尽管瓷砖的资料不会在引擎发布之前加载使用,佩格仍然创造了样式的组合和计算方法。使用这些工具,图案设计者就可以创造出埃舍尔样式(例如使用交互的鲜花,而非杂色金丝雀);化学家就可以探究一系列分子如何互相组合;家庭主妇则能够想象出一个新的浴室地板样式。

但首先,Alpha需要发布,而发布时间只有三周了,很多东西仍不确定。自然语言界面能够很好工作么?两台超级计算机(刚刚送达城外的数据中心)能否在发布之日支撑住?或者网站会瘫痪么?像被公认为2008年谷歌杀手的Cuil经历的那样?并且,人们真的在乎光速从纽约到伦敦用多少个毫秒么?在香槟市,开发人员正努力消除这些可能的隐患。威廉透露到:“想到问题从来不会停止,就令人感觉不安,尽管这仅仅是发布。”

格雷走进威廉的工作间,两人聚在电脑屏幕前,静静地观察了一会儿。

“为什么搜索两杯面粉和两个鸡蛋,它就不工作了?”格雷最后问到。

“嗯,这有个错误”威廉回答。

缓慢的语义学

1993年,马里兰大学一位刚毕业的俄罗斯学生来到Wolfram研究院实习,他非常聪明并对计算机充满兴趣,在Mathematica软件的核心方面做了一些实际工作。随后,他离开研究院前往斯坦福大学拿到了自己的硕士学位,并和他人一起创建了谷歌。如今,谷歌要处理约64%全美国的搜索。但是,从前的那个Wolfram实习生瑟吉•布因(Sergey Brin)并不是很开心。他统领了一个产业,身价120亿美金,在瑞士达沃斯的世界经济论坛年会上叱咤风云。

然而,搜索技术并没跟上他的个人提升的步伐。“我仍然希望,我们能够在更多重要领域取得进展。”布因在谷歌2008年度报告中写到:“完美的搜索需要近乎和人一样的智能,许多人仍然觉得这很遥远。然而,我相信,很快我们就会拥有一个搜索引擎,可以比今天的那些更多地理解我们的需求和文件的要求。有人声称已经可以做到这点,谷歌的后台系统也已经比外观部分更智能,但整个业界仍然因不能达到我希望的成果而感到羞愧。”

近年来,在网络搜索的一些主要领导角色中――从Excite(已破产)到Alta Vista(2003年被雅虎收购)到如今的顶尖五玩家(谷歌,雅虎,微软,Ask和AOL)――其核心方法仍然相同。他们创建大量的网页索引,即他们的软件为了找到最匹配的查询结果,将不断“爬满”数十亿计的网页,收集短语、关键字、标题和链接。

谷歌的成功之处在于它排列网页的方法,部分基于对链接之间结构的分析来产生较优的结果。虽然网页在过去的十年中已经翻了10000倍,但搜索引擎在找到相应答案并进行智能组合方面仍未取得相应的进步。语义学网页――一个期待已久的系统,其中的信息被标记并可以进行上述处理――仍然是遥遥无期。

去年,雅虎发布了“搜索猴子”(SearchMonkey),让网页发布者通过增加标签来使搜索引擎软件提高搜索质量,如“这是个地址”、“这是个电话号码”等等。(所以现在,如果你在雅虎上搜素一个饭店的地址,你可能不仅得到该饭店网页的连接,还会列有该饭店地址,电话号码的宣传单,还有一系列编辑好的评论。)雅虎实验室主管普拉巴卡尔•格海文(Prabhakar Raghavan)说:“‘搜索猴子’所做的就是,发掘了语义学网页的潜力并将它公布于众以便发布者可以参与进去。” 谷歌最近也开始研究相似的技术,并称其为“丰富片段”(rich snippets)。

即使由伯纳•李(Berners-Lee)领导的国际标准制定实体--世界万维网协会(World Wide Web Consortium,W3C)--已经制定了一系列措施,来促进推广语义学网页,但这个想法仍在互联网上传播缓慢。位于阿姆斯特丹的领导着世界万维网协会语义学研究的伊凡•赫尔曼(Ivan Herman)表示,即使世界万维网协会的标准被广泛采用,他们也不能在计算上有太多指导性。他说:“数据、数值计算和数学处理如何结合起来,仍然没有明确的定义,这当然是我们需要展开工作的领域。”

虽然目前的搜索引擎正逐步推广,并向新的领域扩张(地图、照片、视频、新闻),学习回答简单问题(“纽约的人口是多少?”),甚至进行简单的转换(“10英镑等于多少千克?”),但它们并不深入和高效。华盛顿大学计算机科学家和语义学网页研究员丹尼尔•威尔德(Daniel Weld)说:“虽然谷歌很棒,但我更愿意使用企业号飞船上那样的计算机,你可以对其询问一些高层次的问题,它会给出答案并加以解释,然后你可以提问说‘为什么你认为这是对的?’它就会给你答案的出处。”

当史蒂芬•沃尔弗拉姆看到这点时,他正在组建以真正智能的方式回答提问的基础构架――尽管起初只是偏向于一些怪异领域。他说:“我们无需面对网站普遍存在的员工变迁问题,我们咬牙坚持:‘让我们自己来处理这些数据吧!’如果语义学网页已经存在,而我们仅需要收集数据,那就太棒了!那会是完美的结合,但事实不是这样。” (本文来自/麻省理工《科技商评》)  


相关链接