返回上一页
陈尚义百度新存储系统应对大数据挑战
来源:不详 2012-05-24

陈尚义演讲
近日,百度技术委员会理事长陈尚义应邀与电子学会名誉理事长、原信息产业部部长吴基传,中国电子学会副理事长刘汝林以及北京航空航天大学计算机学院院长吕卫峰等产业界高端专家、学者共同出席第四届中国云计算大会的“云计算与大数据专题论坛”。
论坛上,陈尚义作了题为“百度大数据挑战及应对”的主题演讲,从百度的数据特点及对存储系统的要求出发,介绍了百度存储系统的先进性。
在介绍百度的数据特点时,陈尚义用了“海量”和“复杂”来形容百度数据特点。他说:“百度储存和处理的数据主要包括:网页和超链接的数据量、日志、数据仓库、广告数据以及UGC(用户创造的数据)等。百度拥有上百PB(1PB= 1048576GB)的数据总量,日处理量达几十PB,且呈现高速增长的态势。这些数据都具有结构化与非结构化并存、系统数据对数据一致性要求强弱程度不同、用户对数据的访问行为存在不确定性,即在毫无征兆的情况下,对某些信息进行突发式访问等特点,这些特点使得百度要应对复杂的存储要求。
那么如何应对这样的挑战呢?陈尚义通过解析百度的云储存架构及优势,为与会嘉宾解开了心中的疑惑。他特别指出,百度对存储系统做了全局优化,包括针对访问模式的优化、硬件特性的优化、依访问模式定制硬件、提升单机性能、与CDN系统实现更优结合等。“比如,在硬件特性优化方面,百度对单机的硬件(CPU、内存、硬盘、SSD等)进行了合理配比,以实现单机资源的充分利用。”陈尚义解释说,“又如,在与CDN系统实现更优结合方面,百度将最常被访问的数据自动缓存到距离用户最近的数据中心。”
此外,在谈到百度储存优势时,陈尚义还介绍了李彦宏发明的超链分析技术。他说:“这一技术早在1999年就被授予了专利,比Google创始人佩奇申请的Pagerank专利还早,是搜索引擎产业发展的基石。原中国计算机学会理事长、中国工程院院士李国杰先生曾称赞‘李彦宏在推动计算技术和产业的发展中作出了可载入史册的历史性贡献’。”
责编/刘荣 高玉梅
最新资讯
手机版

公众号

头条号


