围绕鲲鹏计算生态华为强攻数据基础设施

未来的智能世界需要"ABC"三大要素，所谓ABC概念提出已久，A是人工智能、B是大数据、C是云计算。其中，大数据是基础，如何存储数据、分析数据是科技公司的关键能力。

于是，和数据产业息息相关的IT基础建设就十分关键，这既包括芯片等底层硬件，也包括数据库、数据引擎等底层软件。而华为正在发力数据领域的技术技术推进，尤其是516之后，华为加速了业务线进程。

近日，华为在2019全球数据基础设施论坛上表示，面向鲲鹏计算产业，华为启动数据基础设施战略，并计划2020年6月开源数据虚拟化引擎HetuEngine（河图引擎），使用河图可以共享一个数据源、一个接口、统一的安全管理、统一目录。

这些能力意在让合作伙伴像使用"数据库"一样使用"大数据"，让数据治理、使用更简单。同时，华为表示还会开源内核，开发者可以基于开源代码进行定制，包括数据源扩展、SQL执行策略等，实现应用快速对接，提升开发效率。

这是继今年9月基于"鲲鹏+昇腾"双引擎全面启航计算战略后，华为从数据角度对计算战略的再度阐述。

华为Cloud&AI产品与服务总裁侯金龙就谈道，随着5G、AI和云的普及，数据量正以惊人的速度增长：从1080P到4K、8K，视频数据量将提升40倍，从4K到4KVR要增加6倍以上；未来每辆自动驾驶汽车每天就会产生高达64TB数据；深圳一个城市有超过200万摄像头，每天将产生80PB数据，平均保存30天，大家希望保存更长时间；大量的数据过去只需存几天，现在需要保存几个月甚至永久保存。

根据预测，全球数据量将从2018年的33ZB快速增长到2025年的180ZB。但是产生的数据中仅有不到2%被保存，而被保存的数据中仅有不到10%被应用。这些海量数据的增长背后是需要海量存储和计算的资源，数据增长是无限的，而存储资源却是有限的。

"我们认为现有的IT架构，满足不了数据增长、存储资源以及应用需求的矛盾，所以我们提出了重构数据基础设施，希望打破以前的边界。"侯金龙向记者表示，数据应用的核心包括存储和分析，而现在的烟囱式IT业务系统带来两个问题：存的时候会产生多个冗余副本，且数据无法流动，存储成本高；分析的时候会导致大量数据搬迁，分析效率低。

因此，华为希望打破4堵墙，让数据的每比特发挥价值最大，数据的每比特成本最优。这4面墙包括存储内部系统墙、数据库与存储链路墙、大数据与存储配置墙、数据库与大数据协同墙。

为解决这些壁垒，华为已经储备了不少技术能力，包括芯片、数据库、河图引擎、存储产品等等，而这些举措都是华为计算产业、鲲鹏生态的重要组成部分，也是IT世界的基建。

华为智能数据与存储领域总裁周跃峰在采访中对21世纪经济报道记者表示："我们突然发现，过去很多的创新是互联网创新、是应用创新，应用下面的基础设施千疮百孔。这种千疮百孔为什么华为公司今天意识到了，不是我们先知先觉，而是516之后我们有切肤之痛，我们意识到了很多东西不可用。今天我们有CPU，我们搭建了服务器，但实际上这些服务器生态还有待构建，Windows跑不到我这个上面来。"

可以看到，过去这些IT基础设施都是以欧美企业主导，但是现在华为等国内企业正在提供另一种选择。"这个世界既可以选择英特尔生态，也可以选择基于华为鲲鹏的生态。"周跃峰说道："但是我们自始至终从来没有说把英特尔和X86当敌人，华为的Gauss数据库既支持ARM、鲲鹏，也支持X86，但是我的客户有多个选择。"

需要指出的是，生态的建设并非易事，华为也面临挑战。比如在数据库方面，周跃峰就对记者坦言，华为今年对外推出的GaussDB数据库目标就是希望做到跟Oracle一样，但是这个数据库还有很多问题要解决，河图也并非完美，还要继续完善。因此华为也发了两个悬红，提出世界级的难题，希望学术界共同来研究。

因此，对于华为而言，数据基础设施才刚刚开始。

围绕鲲鹏计算生态 华为强攻数据基础设施