小米集团数据中台核心价值与技术趋势

通过深入剖析小米在数据建设领域的领先实践,不仅能洞察到其在数据驱动战略方面的前瞻性思维,更能深刻地理解数据在企业发展中不可或缺的作用。

640-133
出处:大数据技术标准推进委员会

随着数字化时代浪潮的不断推进,小米集团根据自身业务形态设计的特有数据中台架构与执行策略引发了广泛关注。通过深入剖析小米在数据建设领域的领先实践,不仅能洞察到其在数据驱动战略方面的前瞻性思维,更能深刻地理解数据在企业发展中不可或缺的作用。在2023年大数据产业发展大会——数据中台高质量发展论坛上,小米数据中台部门负责人刘应耀发表了《数据中台核心价值与技术趋势》的主题演讲。

以下为演讲实录

各位信通院的领导和数据专家,下午好!非常荣幸能够与大家分享关于数据中台的想法。在加入小米之前,我在阿里工作了九年,并一直担任阿里集团大数据委员会的委员,因此亲历了整个数据中台的发展与成熟阶段。

在中台形成之前,我们专注于解决两个关键问题。面对集团规模的迅速发展,我们一方面要重构数据技术平台,以解决资源浪费和数据孤岛问题;另一方面要建立规范统一的服务能力,以支持数据高效应用到核心业务场景。数据技术平台 + 服务能力,正是数据中台的核心价值所在。

640-134

近几年,密集发布了一系列数据政策——2016年,“十三五规划”明确国家大数据战略;2019年十九届四中全会正式提出,将现在耳熟能详的“数据要素”作为五大生产要素之一;2021年“十四五规划”对数据要素市场按照规则作出一系列指引;同年,《数据安全法》、《个人信息保护法》正式实施;2022年推出著名的“数据二十条”,把数据资源所有权、数据加工使用权、数据产品经营权进行创新的三权分治,从而让数据市场化的交易成为可能;今年年初,国务院发布《数字中国建设整体布局规划》,要求夯实数字基础设施和数据资源体系“两大基础”,推进数字技术与经济、政治、文化、社会、生态文明建设“五位一体”深度融合,强化数字技术创新体系和数字安全屏障“两大能力”,优化数字化发展国内国际“两个环境”。

640-135

政策多且持续完善,究其根本,是要解决不同的数据问题。企业追求高效发展,国家注重安全和可控性,个人希望得到充分的信息保护。不同利益主体的实际需求存在较大差异,涉及到企业追求高效率和高回报以及数据权益的平衡,同时也涉及隐私安全和更多数据共享使用之间的基本矛盾。随着数字时代的到来,传统工业时代的法律体系无法满足核心要素的权利管理要求,比如数据归属权问题与传统物权就有本质不同。近两年,政策针对互联网电商、互联网金融的纠偏校准,聚焦数据确权和合理使用,以避免数据无节制应用带来的监管问题。企业需要思考在安全合规的前提下高效经营,而数据中台在其中扮演关键角色。

640-136

数据中台首先要解决企业一个根本性问题,即使用数据的安全合规。小米已拥有庞大的5亿月活手机用户及规模更大的IoT设备,每日数据采集和加工任务十分庞大。同时,小米作为一个全球性企业,不同地域的数据安全合规的要求各不相同,而且数据的跨境流动是一个非常敏感的问题,我们既要安全合规,又要保证全球数据能够正确处理,同时还要尽可能降低成本。

数据部门往往是成本中心,所以数据中台的核心任务是保安全、稳质量、降成本,确保企业能够可持续发展,战略任务是帮助企业提升数据生产效率和数据应用效率,中长期的风险任务是如何助力企业数字化转型,实现数据价值变现。尽管数字化转型已经被广泛讨论多年并在各个企业中推行,但许多所谓的数字化实际上仍局限于信息化层面,主要集中在数据收集和业务效果量化。真正的数字化意味着建立完整的数据流,不仅清晰展示业务结果,更重要的是为业务提供数据决策支持。仅仅依赖数据进行高效决策运营尚不足够,离真正的数字化目标还有距离。中台的核心价值在于将数据更好的应用到业务中,以实现数据价值变现。

640-137

640-138

640-139

小米数据的降本增效只花了一年时间,但收益是很大的。实现数据IDC月成本下降40%,这对任何企业来说都是非常可观的。因为我们的核心任务是数据的存储和计算,除常规的数据治理手段,将数据的存储、计算、质量、安全、规范通过量化评分模式来联动业务方,达成数据治理目标外,还需要结合云原生的系列能力,实现更大程度的降本增效。

业内大部分企业尚未实现存算分离,弹性上云,仍基于Hadoop生态。但随着云原生能力的发展和成熟,Hadoop生态的性价比已经比较低。当前无论国内还是海外,性价比较好的模式是IDC+云。国内的云还有较高性价比的选择,金山云和阿里云;海外的话只能是亚马逊、微软或者Google,不得已的情况下,不同地域只能选某一种云,所以一定要有具备能够同时上云和下云的能力。

先说存储,要结合云对象存储能力实现分层存储。随着公有云对象存储规模化推广,传统的基于 HDFS的3副本存储的性价比已经太低了,对HDFS、云对象存储的标准模式和归档模式,单位存储价格比例为10:2:1;对于许多企业需要长期保留大量源头的不可再生日志数据,以及部分访问频度很低的可再生数据,这些使用HDFS存储可能会导致极大的成本浪费。因此,通过合理的存储治理手段,实现动态的数据生命周期管理和云对象化存储,可实现较大的成本收益。

然后是计算,要实现存算分离,弹性上云。我们将实时计算等常驻作业保留在IDC机房,最大程度提高IDC机房资源利用率,然后将凌晨的离线计算作业分发到云上计算密集型ARM服务器,以及结合云上容器弹性能力,实现数据生产的极致性价比。

为实现业务使用数据的高效和体验一致,我们建设统一的数据生产平台,构建统一的数据采集、同步、处理能力,并兼容各主流云厂商,实现作业的特征识别和动态路由。

海外的云数据解决方案提供商,如Snowflake、Databricks,都是实现云能力的服务化封装,以确保最高性价比地满足功能性要求。随着企业数字化的持续演进和发展,Hadoop生态如何结合应用云原生的系列能力,是企业降本增效的必经之路。

640-140

还有中台的服务能力建设,重点是践行DataOps,敏捷协同、持续集成。角色包括三类:业务伙伴BP、解决方案架构师SA、项目经理PM。面对复杂的集团型企业,业务伙伴BP角色至关重要,能帮忙我们深入了解业务,确保合作关系畅通,为下一阶段的计划做好准备。解决方案架构师SA是站在业务视角下,将现有数据技术平台能力应用于业务,并将业务需求带回来,推动完善底层技术平台。然后项目经理PM是负责将所有规划以科学的项目管理方式推动落地、按期交付。通过三位一体的合作,将数据中台的能力有效运用于业务中。

640-141

2017年,我在集团内提出和倡导的数据智能化,现在已然是必然趋势。从最早的信息化阶段到现阶段,许多公司已经拥有了足够的数字化能力,实现了数据驱动的业务模式。然而,随着数据不断增加,仅仅依靠寻找数据已经很难实现更快、更高效的目标。进入大模型时代,人机协同已经成为现实,如何通过比较好的智能化手段来推动数字化消费将成为新的挑战。

640-142

数据智能核心包括三层:首先是模型和数据之间的关系、数据各项洞察能力以及价值挖掘工具,通行的挖掘算法虽然较多,但必须针对业务定制才能更好地应用,真正能够在实践中成功落地的企业相对较少,关键是需要有专业团队为业务场景进行定制化;其次是增强分析,数据洞察(现在发生了什么)、数据预测(将来会发生什么)、数据决策(现在做什么能够影响将来发生什么);最后是上层数据消费,包括分析意图、对话以及数据转型的场景化。数据消费方式在数据时代已经有很大的变化,传统的建指标、做报表,已经不能满足现在业务场景的数据消费需求。类比我们买东西,前些年是超市的货架模式,现在更适合电商及外卖的按需取用模式。如今存在大量BI产品和业务运营团队,构建再多的报表也不能很好满足数据消费要求。我们从传统的GUI(图形化界面交互)已经开始往LUI(自然语言界面交互)演变。

640-143

大模型的兴起,一定会对数据应用领域带来显著变革,我们必须积极学习并适应。基于现有LLM底座,通过Prompt学习和微调的能力,针对分析场景进行持续微调,对齐相关信息,实现可解释的数据分析。这种对话式数据消费,很快会成为普及的全新数据产品形态。AI替代不了人,但会用AI的人会替代你。共勉。