框计算之资源收录、管理与需求展现

[ 三月 10th, 2011 | admin ]

框计算的诞生既是搜索技术与产品的系统升级,也是百度简单可依赖核心文化的又一次创新实践。简单的体现在于用户只需在百度“框”中输入需求,然后由“框”进行计算,通过需求识别与挖掘用户query的蕴含含义,搜索特定类优质资源,将最满足用户query的结果以最优的方式直观地呈现给用户,实现可依赖。

一、优质资源的开放收录

优质资源是框计算实践运营的重要特征与保障,而百度开放平台正是为支撑框计算而诞生的优质资源分享与交互平台(备注:由于资源属性不同,百度开放平台又分为数据开放平台和应用开放平台)。其中站长提交的数据类资源可登陆百度数据开放平台(open.baidu.com),应用类开发者可登录百度应用开放平台(app.baidu.com/developer),注册登录进去后,按照不同数据或应用所对应的不同规范和模板提交资源,即可被被百度开放平台收录。

当用户在“框”中输入对应此资源的query后,其数据或应用则会包含在搜索结果中,直接展示给用户。从站长角度看,实现了站长资源的直观展现,同时提升了资源的曝光率与点击率;从网民角度看,提升了网民的搜索体验;从百度角度看,将最能满足用户需求的信息展示给用户,实现了优质资源与用户需求的直接对接。

当然,信息是不断变化的,比如招聘信息、商品信息等。这意味着百度收录的资源需要不断地更新,以便给用户提供最新正确的信息。然而,站长不必担心资源的更新问题。百度开放平台为资源提供了方便简单的更新机制:站长只需更新本地的资源信息;平台依据资源的更新时间抓取资源信息,以实现收录资源的更新。

二、优质资源的管理运营

优质资源被百度收录之后进入资源管理阶段。管理系统根据市场运营策略与资源特点等相关机制对资源进行统一管理。资源管理包括关闭显示、位置排序、时效性、图片时效性、资源监控、信任评估、生效时间段、确定性和框icon是否展现等。

我们详细讨论一下关闭显示与监控周期属性。资源内容不符合用户体验预期时,系统则会自动将该资源关闭,以达到线上不展现的效果;资源内容正确时,则重新打开资源,重新在线上展现。资源监控是指当资源出现访问异常、更新延迟或xml检验失败时,系统会进行报警,通知相关监控人员信息异常,如果是数据源的问题,则会通知由站长或应用开发者审核、评估与修复。

以上两点是资源的收录与管理的基本过程,相信大家对这些过程有了一定的了解。这些过程均是服务于用户需求检索的前期准备工作。接下来,有必要阐述用户query的需求识别与特殊结果展现相关的技术。

三、优质资源的搜索呈现

当用户在“框”中输入query后,搜索引擎将query发送至需求匹配管理模块,其请求数据分析词典进行解析,判断此query是否有特殊库需求,并将分析结果返回需求匹配管理模块。若有特殊库需求,则会将query发送至大搜索与特殊库检索,然后检索的结果进行封装返回至需求匹配管理模块,并且大搜索的结果也会返回至需求匹配管理模块。需求匹配管理模块对两种途径返回的结果进行归并处理,然后返回给界面管理模块。界面管理模块对来自需求匹配管理模块和其他各个产品线模块的结果进行最大匹配飘红和样式排列等处理,将生成的结果页面返回至搜索请求服务器,用户即可看到搜索结果。

以上是框计算资源管理与需求展现的简单介绍,其目的是让大家更好地了解百度框计算的技术架构与实现流程,以此也希望越来越多的优质数据与应用资源方加入百度开放平台,分享框计算技术创新成果,共享数亿用户需求资源。

从亚运会看框计算与数据时效性

[ 三月 10th, 2011 | admin ]

在去年的广州亚运会期间,百度框计算携手亚组委以及网易官方,提供了实时的赛事概况、直播、赛程进展、奖牌榜、比赛项目进程及直播等一系列的服务,取得了重大突破。数据显示,亚运会的15天时间,通过百度框计算进行亚运相关检索的数量达到了4000万次,较上届2006年的多哈亚运会15天仅有74万的检索量相比,今年的网页检索量增长了54倍之多,可见框计算的威力之大!

框计算的优点是数据准确,更新及时。传统的大搜索由于数据量庞大,无法满足一些像亚运会这样时效性要求特别高的查询需求。这就决定了框计算技术从理念上区别于大搜索。为此百度框计算团队做了很多创新,以下以亚运会这个案例为背景介绍一下框计算的主要流程。

 

一、   数据源准备

框计算在在两年多前被称为“阿拉丁”,意指神灯可以照亮大搜索搜不到的“暗网”。将一些用户需求很明确,但大搜索无法很好地展示给用户的资源以特殊的样式展示给广大用户。由此,优质资源的引入是个难题。

框计算目前为了确保数据的正确性,需要站长直接整理并提交数据,并及时以适当的周期更新数据。但是像亚运会这样的大case,合作方除了网易之外,还有央视、迅雷、新浪等数据要同时插入到结果中做展示,需要各资源方提供了数据后,由我们的机制生成合并后的可用数据。目前这样的case还有一些,如nba、足球赛事、以及天气和列车数据等重点资源,都需要资源数据整合,加入一些逻辑控制(如亚运会的重要赛程选择,奖牌榜数据计算等),以提供给用户更丰富、更明确、更需要的信息。

在数据拼装过程会同时伴随有数据正确性验证的一系统监控机制,旨在资源进入框计算平台前保证数据的正确性。

二、   平台生成规则数据

目前我们的框计算资源平台(即百度开放平台)每天会接受到数百个新的资源,同时也会增加数百个新用户。如何从这么多的资源里挑选出可用的呢,平台首先会通过自动化检查机制筛掉一部分不合理资源,如数据无法获取,xml格式错误之类的。接着管理后台列出所有用户新提交的资源,并进入PM的产品筛选流程,这中间可能需要涉及到跟站长系统回复确认的过程。 

当资源获得初步认定可用之后,站长的大量数据会被平台第一次抓取,并经过一连串的检查及数据重写过程,生成对应配置文件给建库端进行预览建库,生成预览数据。 

如果一切正常,则可以通过系统审核并发起资源上线过程,平台会通知数据抓取模块按照站长设置的频率定期地抓取站长数据。如此反复地更新资源,最终展示给用户便是实时的确定性结果。

需要说明的是,开放平台收录的各种资源在百度结果页上的展示样式不尽相同,这是通过一种模板技术实现的。我们会事先做好各种数据类型的通用模板,并将模板对应的数据样式提供给站长,这样就能确保数据跟展示对应上。

 

三、   Query变换分析

query变换是另外一个不得不说的亮点,也许你注意过,搜索“亚运会赛程”,“广州亚运会赛程”,“广州 亚运会 日程”会出现同样的搜索结果,事实上他们都对应于亚运会赛程这个搜索词,那么具体是怎么做的呢。

主要介绍两个过程:

1、同义词替换:

如赛程与日程、时间、赛果,比赛是同义词,会在query变换过程中进行同义词替换。这个过程需要调用自然语言分析模块提供的接口。

2、智能配词:

有些特殊需求的query需要增加,如在亚运会赛程的基础上可以增加广州、中国、全部等这种词语,这个配置会告诉检索机制,遇到这些字眼时忽略掉就是了。所以搜索“广州亚运会赛程”,“中国亚运会赛程”,“全部亚运会赛程”都会对应到亚运会赛程。注意第三个query中的空格也是可忽略的词语。

还可以配置必须以某某开头,长度如何等更严格的变换规则,通用特殊库检索模块会在用户搜索一个query时,进行query变换,再去建好的库中检索出对应的数据,通过模板规则拼装页面结果,最终与大搜索页面进行合并后展示给用户。

百度开放平台在两年多的时间,无论从技术,还是从产品,都有了相当大的成就,现在已经成为了百度的明星项目,并引领着行业规则的新变化(目前如列表类数据、下载类、APP应用类搜索等均已成为国内外搜索的新标准)。

一切都是过去,百度框计算团队有更远的目标。不久的一天,当你在百度框里输入‘打开电视机’,‘呼叫某某’时,意外地发现百度为您完成了所有的步骤。还只是开始,为了广大用户的搜索体验,我们一直在路上。

解读:百度框计算

[ 三月 8th, 2011 | admin ]

一、框计算的基本概念
框计算(Box-Computing)是2009年8月18日,百度董事长兼首席执行官李彦宏在2009百度技术创新大会上所提出的全新技术概念。
基本概念:用户只要在“搜索框”中输入服务需求,系统就能明确识别这种需求,并将该需求分配给最优的内容资源或应用提供商处理,最终精准高效地返回给用户相匹配的结果。这种高度智能的互联网需求交互模式,以及“最简单可依赖”的信息交互机制与实现过程,称之为“框计算”。
案例示范:如用户在百度输入“万年历“,即可看到由”礼拜六工作室“开发提交的万年历应用搜索结果,图示如下:

二、框计算的系统特征
百度框计算并不是一个细节的、局部的技术创新,而是一个系统性的集成创新,具体表现为以下几个特征:
核心技术升级:一方面,框计算将搜索的核心技术全面升级,即对“用户搜索请求任务识别“更精准、更及时、更智能。另一方面,在满足用户搜索请求结果时,实现了海量数据资源的精准调度与高效智能匹配。
资源开放机制:通过开放机制,使很多传统搜索无法直接抓取和覆盖到的海量优质资源(包括数据和应用),直接提交到百度开放平台,从而全面升级满足用户搜索的资源广度、深度、种类、数量与质量。
需求交互创新:相比传统搜索,框计算下的搜索结果展现,突破性地进行了可浏览化、直接可交互、即搜即得、即搜即用等人性化设计,以最优的展现形式和最佳的展现位置呈献最精准的搜索结果,从而大幅度提升了用户通过搜索获取信息的效率、准确率。而且,这些搜索交互创新设计已逐步形成了标准化、规模化,以及专利化。
以上三个主体部分,共同有机地构成了框计算的整体。如图所示:

三、框计算的技术架构解读
框计算是以技术创新为核心的智能搜索整体解决方案,在每一次的搜索体验中,这种系统性也都能充分地体现出来,如图(框计算的技术架构解读):

(备注:该图也可以看作是框计算的工作原理示意图)
四、百度开放平台
基本概念:百度开放平台是基于“框计算”创新的信息技术与服务机制,针对用户需求,为广大站长和开发者免费提供的开放式数据分享暨对接平台。以此,站长和开发者可以将结构化的数据或具体应用直接提交到百度开放平台,并实现最佳位置和最佳形式的搜索结果直接展现。
隶属关系:百度开放平台是框计算具体实践运营的重要基础设施,是框计算整体的不可缺少的一部分。百度开放平台又包括数据开放平台和应用开放平台。
百度数据开放平台:以新闻资讯、工作、生活、学习、娱乐、商务等各种信息数据为主。数据被提交通过后,即可在大搜索中实现“即搜即得”。
百度应用开放平台:以在线小游戏、工具、在线视听、电子阅读和在线订购等各种交互应用为主。应用被提交通过后,即可在大搜索中实现“即搜即得”。
五、用户价值
框计算运营下的搜索,可以更准确地理解用户需求;并提供最优质恰当的资源;最终以最优形式的搜索结果展现。尤其是,传统的搜索,只能检索到数据信息,以静态“看”的结果为主;但在框计算的支持下,用户还可以直接搜索到小游戏、杀毒、电视直播、音乐电台、读小说、订餐、购票等各种应用,并且能在搜索结果中进行即搜即用的“玩、听、用、读、购”等动态交互体验。

六、合作者价值
首先、能直接共享百度搜索海量的需求资源,以最便捷渠道和最快捷速度获得用户,实现数据和应用的最大价值;
其次、这种合作能直接体现合作者的官方身份(或官方授权),防止自身数据与应用被“山寨”、被盗版和被非法下载,由此不仅可以有效的保护其版权,还能全面提升合作内容及其运营载体的可信度及品牌价值;
第三、百度框计算还为合作开发者提供一系列辅助开发工具、专业的统计数据,以及其他必要的技术支持等;
最后、百度框计算还将为合作者提供潜在的商业收益运营解决方案。
综合来讲,对接百度框计算暨百度开放平台,能给予合作者用户流量、品牌展现、版权保护、数据分享、技术支持和相关价值收益等综合的价值,图示如下:

七、对于行业与社会
第一、引领我国互联网核心技术、运营机制与用户体验模式的创新与变革;
第二、挖掘并解放海量的互联网优质资源,大幅度提升资源利用效率和价值;
第三、鼓励创新,推动互联网产业内容质量与数量升级,建设良性循环的互联网产业链与生态圈;
第四、促进传统行业的信息化进程,优化产业结构,引领新经济增长。
总之,框计算的行业与社会等宏观价值可以如下图所示:

搜火车票(及代售点),查长途汽车,买飞机票,开车自驾游,天气预报以及春节放假安排…亿万民众所有春运所需,只需百度一下,即搜即得,实用而给力!框计算,帮你回家,快来体验一下吧!

1、火车票

体验请输入关键词:火车票、春运、余票查询、火车票代售点(或“城市/地名+火车票代售点”)、列车时刻表、列车查询、火车票预售期;或者从某城市到某城市的火车,如“北京到郑州的火车”等。

体验价值:可以查两个城市之间的所有列车车次、票价、时间等信息,而且还能单独查询车次、车站,以及余票查询、火车票代售点地图、火车票转让、预售期等春运最热的及时需求。

2、飞机票

体验请输入关键词::机票、飞机票、机票查询、飞机票查询,或者“从某城市到某城市的飞机”,如“从北京到广州的飞机”;或者查具体的“航班号”。

体验价值:不仅能查任国内任意城市之间的飞机票,而且还能在线订购折扣机票。
阅读全文 »