有三家公司原本都把数据管得井井有条,直到业务突然加速,旧平台开始“喘不过气来”。社交平台每天新增数千亿条日志,算法同学要在30分钟内调一次参数,原来的“隔夜报表”明显来不及。
而车企的智能网联汽车从400万辆往1000万辆冲,每秒进平台的消息很快突破百万级,老系统写都写不进去,实时诊断难上加难。更别说SaaS服务CRM租户超过20万,大客户要求“点一下按钮就能看见结果”,原来的15分钟同步窗口越来越尴尬。
这才先后意识到:继续给旧架构“打补丁”只能延缓崩溃,必须换一条新跑道。于是,他们不约而同地把目光投向同一种思路——“增量计算+湖仓一体”。
一、社交平台:让“实验指标”先提速
1. 背景(2022年上半年)
推荐算法是社交平台的生命线。以往算法工程师提出新思路,要等第二天才能看到离线报告,再决定要不要全量上线。随着内容池扩大,实验数量从几百涨到上千,隔夜节奏明显拖慢迭代。
2. 旧链路的问题
公司原来走“双轨制”:
- 离线:日志→Spark→ClickHouse,数据全、准,但T+1。
- 实时:日志→Flink→ClickHouse,分钟级,却要采样,维度少,和离线结果经常对不上。
两套代码、两套运维,算法同学不敢拍板,因为不知道哪套数更可信。
3. 目标
做一条“5分钟可见、全量不采样、和离线差异<1%”的新链路,把实时与离线合二为一,减少重复开发。
4. 方案选型(2022年中)
团队先后比较两条路线:
A. 开源拼盘:Paimon+Iceberg+StarRocks。能跑,但组件多、调优深,千亿级体量下稳定性存疑。
B. 商用一体:某引擎自带增量计算,存储直接复用现有的Iceberg,SQL与Hive语法兼容,改造成本低。
最终社交平台选了B,理由是“一套SQL写完,离线逻辑能原样提速,不用再写Flink”。
5. 模型与优化(2022下半年)
- 先把“秒级明细”压缩成“5分钟+用户”粒度,数据量从千亿降到数亿,查询压力骤减。
- 把经常变动的上千个实验指标放进JSON列,加指标不再改表结构,BI自助配置即可。
- 对“用户—实验”映射表建倒排索引,查询速度再提20倍。
6. 上线结果(2023年初)
- 资源消耗只有旧实时链路的36%,数据差异却从5%压到1%以内。
- 算法同学30分钟调参一次的习惯被完整保留,但看数延迟从“隔天”变成“5分钟”。
- 同一份Iceberg表既服务实时,也服务离线,再也不用双轨对账。
三、车企:让“车联网”数据能写会算快查
1. 背景(2022年全年)
车企旗下智能化研究院负责集团全部车联网数据。车门、座椅、刹车……每辆车上传近千种信号,400万辆车同时在线,每秒吞吐数百万条记录,2025年还要翻两倍。
旧平台采用Lambda架构:Spark管离线,Flink管实时,Doris做查询,Kafka来回倒。数据量一上来,写入延迟高、查询经常超时,成本也直线上升。
2. 四大痛点
- 写不进:峰值TPS逼近千万,旧通道出现积压。
- 算不起:Json裸存,压缩差;一次延迟数据回传就要重扫全表。
- 查不动:列多且变,Doris做大宽表成本爆炸。
- 管不了:多组件各自调优,任何调整都要改一遍配置。
3. 目标
一条链路同时完成“高并发写入、分钟级加工、秒级查询”,并且把存储、计算、运维成本全部降下去。
4. 方案选型(2022Q4)
车企同样评估了两条路线:继续开源“堆组件”或者采用某一体化引擎。最终理由与社交平台类似——“引擎内置增量计算,能直接复用Iceberg,不需要额外引入Paimon,也不需要维护Flink常驻任务。”
5. 关键技术落地(2023年)
- 千万级TPS写入:独立Ingestion Service+读写分离,小文件自动合并,Map格式压缩,存储省一半。
- 增量计算:每5分钟把新信号与历史结果合并,避免全量回刷;延迟数据只重算对应分区,CPU省35%。
- MV on MV:一层物化视图套一层物化视图,系统自动感知新数据并级联刷新,开发只写一句SQL。
- 行级+信号级去重:车辆静置时重复数据被提前剔除,下游计算再省30%耗时。
- 查询加速:向量化执行、CBO、共享缓存,P99响应从十几秒降到秒级。
6. 上线结果(2023下半年)
- 平台顺利顶住“双十一”峰值,写入吞吐提升3倍,仍有余量。
- 存储成本下降50%,计算成本下降35%,查询平均提速3~5倍。
- 一套SQL同时支持实时、离线、交互分析,运维人力回到原来的三分之一。
- 2025年千万辆车目标不再担心“写不进”。
四、SaaS服务:从“15分钟”到“亚秒级”
1. 背景(2022年)
某SaaS服务平台上有20多万租户,核心BI依赖Greenplum。随着全球500强大客户增多,15分钟同步窗口被频繁投诉:“为什么我刚赢的单子,报表里找不到?”同时,公司正在把AI能力嵌入CRM,要求数据“说拿就拿”。
2. 旧瓶颈
- 同步慢:自研工具→Greenplum,15分钟是常态。
- 扩容贵:Greenplum Shared-Nothing架构,加节点就要重分布数据,时间越长客户越不满。
- 多结构化:行为日志、文档、外部Excel都要进仓库,Greenplum啃半结构化数据费劲。
- AI难消费:数据散落在MySQL、Redis、ES、Greenplum,统一特征工程麻烦。
3. 目标
“5分钟内可见、亚秒级可查、弹性伸缩、AI友好”,还要保证租户隔离与权限一致。
4. 方案选型(2022Q3)
SaaS服务同样看中“增量计算+湖仓一体”的开放性格式:引擎要兼容SQL,存储要放在客户自己的S3/OSS桶以保证安全。
5. 验证与切换(2022Q4-2023Q2)
- 用脱敏数据模拟8000张表、亿级维度,5分钟内完成同步,99%数据亚秒级。
- 单集群150 QPS下,最慢SQL不超过4秒,满足交互式体验。
- 语法兼容度>95%,时间函数少量改写即可。
- 采用“双写→灰度→全量”三步走,国内腾讯云、AWS集群全部切换完毕,客户零感知。
6. 上线结果(2023全年)
- 同步时效从15分钟提到5分钟,大部分场景亚秒级。
- 实时计算性能提升30%,BI度量、数据导出限制逐步放开。
- 存算分离,租户需要就扩容,用完就缩,不再一次性重分布数据。
- JSON、Map、Array多类型原生支持,结构化与半结构化数据统一入湖,AI团队直接拿特征。
四、结果可套用的公式
把三段故事放在一起,我们可以发现一条清晰的业务因果链:
- 业务提速→数据暴涨→旧架构“写不进、算不起、查不动”。
- 继续堆开源组件只能缓解表面痛,引入的新问题比解决的老问题还多。
- 增量计算+湖仓一体”用同一套引擎完成离线、实时、交互三种形态,天然省去多通道对账。
- 存储坚持开放格式(Iceberg),公司历史资产不浪费,未来想迁也迁得走。
- 资源不再常驻,按增量调度,CPU、存储、运维三线成本同时下降。
- 查询提速后,业务决策从“隔天”变“分钟”甚至“秒”,算法、运营、客户体验一起受益。
问题是,还能再快吗?下一步打算:
- 社交平台:把分钟级实验指标推广到核心交易、广告投放链路,最终让“全域近实时数仓”成为默认选项。
- 车企:2025年接入千万辆车,信号数破万,平台继续横向扩展;同时把增量计算从车联网延伸到质量、供应链、营销全链路。
- SaaS服务:推动AI与湖仓深度结合,用大模型直接消费湖内特征,让CRM从“人看报表”进化到“AI给建议”。
同时,数治网给正在数据平台搭建选型的人三句话:
- 数据再大,也要先想清楚“业务等不等得起”,等不起就别再隔夜。
- 与其堆引擎,不如选一套真正能跑增量计算的平台,让离线逻辑原样提速,开发最省心。
- 坚持开放存储,防止今天省下的迁移成本变成明天锁死的代价。
结语
社交平台让算法迭代从“次日”变“5分钟”,车企让千万级“车联网”写得进也查得快,SaaS服务企业让全球大客户的报表“点一下”就出来。
三家公司业务不同、规模不同,却走在同一条技术脉络上:用增量计算打破“离线慢、实时贵”的老诅咒,用湖仓一体守住“数据开放、成本可控”的底线。当数据继续膨胀、业务继续提速,要破解“数据x业务x成本”暴涨不可能三角,这条路线大概率会成为更多企业的默认选择。
填空赢企业数据平台降本秘笈
请根据您企业最近12个月的真实峰值填写,我们将基于行业案例、场景及痛点的实战经验,为您匹配可复制的降本路径,高达50%!提交后您将获得:
- 数治网院iDigi数据素养职能微认证买一赠一
- 增量计算技术白皮书,突破数据处理“不可能三角”
- 一年免费资源包(1CRU计算·时/天+1TB存储,免费365天)
来源:云器科技,本篇针对全文结合生成式 AI 做出的核心摘要和解答,仅作为参考,请以原文为准。
碎片化学习,上 shuzhi.me !数智有你,一课开启:
- 升级为数治Pro会员15分钟AI适配个性化学习路径
- 从真实业务“小而痛”场景入手定制职能模块微课件
- AI工具、脚本、模板、速查卡片等实战包一步到位
- AI共创导师+Q小治盒子陪你云上多端随时随地随学
所有课件、题库、问答基于海光认证iDTM+DeepSeek R1应用生成。免改免维云上多端AI透明化终身学习,现在我的台我来站!
更多有关模块课程、配套工具、框架问卷、服务矩阵以及整改案例等数治Pro一站式治理,欢迎扫码入群 @老邪 了解、获取。