回望 2022 年,整个世界依旧在疫情、战争和局部不稳定中挣扎,但得益于开源在⾏业中受重视程度的逐渐提升,各个⽅向的开源技术继续得到了快速发展。⽆论在企业或社区,对各项开源技术的采⽤也受到技术需求迫切度和技术流⾏度的影响。根据多个官⽅统计,我们看到在过去⼀年中,⼈⼯智能&机器学习&深度学习成为最受关注的领域,其次操作系统、云计算、数据库等也受开源的加持,收获了⼤量的关注和开源贡献。
点击图片查看中国开源软件商业化高清大图
我们重点关注了以下⼏项技术赛道的开源技术过去⼀年的发展,并综合评估出数个对开源领域有⼴泛影响⼒的事件,回顾其过程、讨论其意义。
⼈⼯智能
• AIGC(AI-Generated Content)相关技术引发全球关注
2022 年,AIGC(AI-Generated Content,⼈⼯智能⽣成内容,或⽣成式AI)这⼀领域,取得了突破性的进展,引发了全球全社会的关注,《Science》在其发布的 2022 年度科学⼗⼤突破中,也将 AIGC 列⼊其中。
Gartner 预测,到 2025 年,企业中流通的 30% 的信息将由⽣成式 AI ⽣成,除了软件代码外,还会⽣成各种新颖的内容,例如图像、视频、⾳乐、语⾳和⽂本。
Forrester 预测,到 2023 年,10% 的世界 500 强企业都将采⽤ AIGC 相关技术。
• OpenAI 上线升级版⽂本⽣成图像模型 DALLE 2
今年四⽉ OpenAI 宣布,⽂本⽣成图像模型 DALL·E 的升级版本 DALL·E 2 上线,七⽉,⼜宣布开发者可以将⽂本⽣成图像模型 DALL·E 2,直接集成到其应⽤程序和产品中。
• OpenAI 发布 ChatGPT
ChatGPT 是 OpenAI 开发的⼀个⼤型预训练语⾔模型。它是 GPT-3 模型的交互式变体,ChatGPT 能够快速⽣成⾼质量的⽂本内容,并且能够模仿⼈类的语⾔习惯,⽣成通顺流畅的⽂本,它在实现聊天机器⼈、问答系统等应⽤中展现出了不凡的实⼒,⽽引发了巨⼤的参与热情。
• Stability AI 连续发布 Stable Diffusion 多个新版本
Stability AI 作为今年全球最受瞩⽬的⼈⼯智能公司,在其主导下的开源产品 AI 绘画机器学习模型 Stable Diffusion 从今年 8 ⽉上线 1.0 版本⾄现在,连续上线发布多个⼤版本。Stable Diffusion 1.0 的发布改变了开源AI 模型的性质,以极低的操作⻔槛,在全球范围内推动了数百种新模型的创新,直接推动了 AIGC 产业的进步。
• 英伟达(NVIDIA) 开源其 Linux GPU 内核模块
英伟达(NVIDIA)在今年宣布,将 Linux GPU 内核模块作为开放源代码发布。在消息公布前,NVIDIA 已经开始在 GitHub 上陆续公开相关代码,这⼀⾏为可以帮助改善英伟达 GPU 在 Linux 环境下的体验,与操作系统的紧密集成是帮助开发⼈员开展调试、集成和贡献回馈的重要⼀步,这些模块的开源还使得驱动程序在 Linux 发⾏版供应商⼿中更加易⽤。
• 阿⾥巴巴开源联邦学习框架 FederatedScope
阿⾥巴巴在今年五⽉宣布开源的 FederatedScope 框架,使⽤事件驱动的编程范式来构建联邦学习,⽀持⼤规模、⾼效率的联邦学习异步训练,能兼容不同设备运⾏环境,且提供丰富功能模块,降低了隐私保护计算技术开发与部署难度,⽬前该框架现已⾯向全球开源。
操作系统
• Google 发布安全操作系统 KataOS
Google 在今年发布的安全操作系统 KataOS,作为最新专注于运⾏环境,侧重于机器学习⼯作负载的嵌⼊式设备的操作系统。出于将安全性放在⾸位的宗旨,KataOS 专⻔使⽤ Rust 语⾔开发,并基于 seL4 微内核进⾏了构建。
• Linux 受欢迎程度⼤幅超越 macOS
根据 Stack Overflow 2022 年开发者调查结果显⽰,开发者将 Linux 作为主要操作系统的⽐例已经达到了40.23%,不仅超过了 macOS,还将差距拉到了 9%。2018-2020 年之间,Linux 的数据分别为 23.2%、25.6%、 26.6%,⼀直屈居第三。⾃2021年以 0.9 %的微弱优势⾸次超越 macOS,第⼀仍是 Windows。
• 中国⾸个桌⾯操作系统开源社区开放麒麟正式发布
开放麒麟(openKylin)由麒麟软件、国家⼯业信息安全发展研究中⼼等单位联合成⽴,⽬标通过开放操作系统源代码的⽅式,让更多的开发者共同参与国产开源操作系统的开发,从⽽打造具有⾃主创新技术的开源桌⾯操作系统。
• Android 13 正式版发布
Google ⾯向 Pixel ⼿机率先推出 Android 13 正式版,此次 Android 更新进⼀步增强 Android 12 中引⼊的Material You 主题,改进了现有的隐私控制,并引⼊了在⽀持的 Android 设备复制和粘贴的功能。
编程语⾔
• New Relic :Java 11占⽐飙升,经典 Java 8 退场
New Relic 发布的《2022 年 Java ⽣态系统状况报告》,提供有关当今 Java ⽣态系统状态的背景和⻅解。数据显⽰,⽬前已有超过 48% 的应⽤程序在⽣产中使⽤ Java 11(2020 年为 11.11%);Java 8 紧随其后,占⽐为 46.45%。新发布的 Java 17 占⽐尚且不⾼,但已经超过了 Java 6、Java 10 和 Java 16 版本的份额。对 Java 7 的⽀持预计在 2022 年结束。
• Vue 3:2022 年期间 Vue 3 的 NPM 使⽤率增⻓了近 200%
今年 2 ⽉,Vue 的默认版本切换到了 3.x;最新的稳定版本是 11 ⽉发布的 Vue 3.2.45。尤⾬溪称,这⼀转变标志着 v3 框架的所有官⽅部分都已准备就绪,包括对提供最新最佳实践指南的⽂档进⾏重⼤修改。不过其⽬前仍处于⽣态系统迁移到 Vue 3 的过渡期。
• JavaScript 最流⾏,Rust 最受开发者喜爱
根据 Stack Overflow 2022 年开发者调查结果显⽰,JavaScript 连续第⼗年成为最流⾏的编程语⾔,Rust 已连续第七年成为最受喜爱的语⾔,87% 的开发⼈员表⽰他们希望继续使⽤它。
• PyTorch 正式加⼊ Linux 基⾦会
Linux 基⾦会在其官⽹宣布,PyTorch 已经正式加⼊ Linux 基⾦会。Linux 基⾦会已经托管并与许多项⽬合作,这些项⽬已经为基础 AI/ML 项⽬(LF AI 和数据)做出贡献,或为其⽤例做出贡献并与其平台集成。(例如,LF Networking、AGL、Delta Lake、RISC-V、CNCF、Hyperledger)
• Google 开源 Carbon
在今年的 CPP North C++ ⼤会上,Google Carbon 团队宣布将 Carbon 正式开源,其表⽰希望能够取代C++,虽然并有着庞⼤的代码库,但因诸多历史遗留问题,C++ 想要进⾏持续改进相对困难。团队认为 Carbon 在继承了 C++ 现有特性与⽣态的基础上,更加符合当代对编程语⾔的需求,拥有更为⼴阔的优化空间和发展潜⼒。
Web 3
• 以太坊正式合并 PoS
今年9⽉,作为开源⽣态最繁荣的公链以太坊,正式合并(The Merge)完成,ETH进⼊ 2.0 时代,从 PoW 机制完全过渡到到 PoS 机制,实现了 Web3.0 历史上重要的⾥程碑。
• Web3.0 安全问题频现,损失创历史新⾼
在过去的⼀年,由于各类漏洞被攻击、利⽤,2022年成为了⾃ Web3.0 技术兴起⾄今,资产损失最严重的⼀年。根据相关安全机构的统计,2023年全年因为恶意攻击造成的资产损失接近40亿美元。
作为最流⾏的区块链智能合约开源项⽬ Solidity,在全年共进⾏了 7 次重要更新发布,对其中 v0.8.14 版本中修复了两项 calldata 的重要漏洞。
• Web3.0 钱包 Tally Ho 开源
Tally Ho 作为开源的去中⼼化 Web3 钱包,因不满 MetaMask 调整为分层开源的举措,在今年⼀⽉宣布开源,Tally Ho ⽀持 Chrome 与 Brave 浏览器,将有 NFT 画廊展⽰、⽀持分类账⼾等功能。
• Orca 漩涡池智能合约宣布开源
Orca 是为 Solana ⽣态系统⽽建的开源集中流动性⾃动做市商(CLAMM)项⽬,该智能合约是专⻔为Solana虚拟机设计的,强调安全性和效率,⽬前已经完成⽉ 10 亿美元的双重审计交易量
• EVM 编程语⾔ Huff 宣布开源
以太坊⼆层隐私解决⽅案 Aztec Network 宣布开源 EVM 编程语⾔ Huff。该语⾔由 Aztec Network 创始⼈Zac Williamson 在 2019 年创建,是⼀种类汇编语⾔,允许开发者直接在 EVM 机器代码中进⾏编程。
数据库
• PostgreSQL 受欢迎程度有超越 MySQL 的趋势
根据 Stack Overflow 2022 年开发者调查结果显⽰,专业开发者群体中,PostgreSQL(46.48%)已经超越MySQL(45.68%)夺得了第⼀名。专业开发者⽐正在学习编程的⼈更有可能使⽤ Redis、PostgreSQL、Microsoft SQL Server 和 Elasticsearch。
• 全球开源数据库数量依旧呈增⻓趋势
根据国际著名数据库统计⽹站 DB-Engines 显⽰,2022年间,开源数据库受欢迎指数不断上升,截⽌2022年12⽉,指数已上涨⾄51.64%,该⽹站收录的 402 款数据库中,209 款为开源数据库,这个数字预计还会迎来进⼀步增⻓。
• Apache Druid 受到开发者关注
Apache Druid(德鲁伊)是⼀个分布式的、⽀持实时多维 OLAP 分析、列式存储的数据处理系统,⽀持⾼速的实时数据读取处理、⽀持实时灵活的多维数据分析查询。在过去⼀年中受到了社区内开发者们的好评与推荐,赢得了较⼤的增⻓。
• TiDB 宣布正式开源分析引擎 TiFlash
TiFlash,基于 ClickHouse 开发,是 TiDB HTAP 形态的关键组件,它是 TiKV 的列存扩展,通过 Raft Learner 协议异步复制,但提供与 TiKV ⼀样的快照隔离⽀持。这个架构解决了 HTAP 场景的隔离性以及列存同步的问题。⾃ 5.0 引⼊ MPP 后,也进⼀步增强了 TiDB 在实时分析场景下的计算加速能⼒。
• ⽯原⼦宣布开源⼀体化实时 HTAP 数据库 StoneDB
StoneDB 是⼀款全⾯兼容 MySQL 的实时 HTAP 数据库,⾃研 Tianmu 引擎对标 MySQL HeatWave架构,具备⾏列混存、⾃适应压缩、知识⽹格和智能索引等核⼼技术特性,能够⾼效解决 MySQL 在分析场景中⾯临的性能瓶颈,同时⽀持数据强⼀致性的事务特性,具备完整的事务并发处理能⼒,相⽐ MySQL 原⽣分析能⼒最⾼可提升100倍。
• 蚂蚁集团宣布开源云原⽣时序数据库 CeresDB
CeresDB 是⼀款⾼性能、分布式、Schema-less 的云原⽣时序数据库,能够同时处理时序型(time-series) 以及分析型(analytics)负载。不同于传统时序数据库,CeresDB 的⽬标不仅仅是能够处理具备常规时序特征(Timeseries)的数据,同时也要能够应对复杂的分析型场景。
• 格睿云宣布开源云原⽣时序数据库 Greptime
GreptimeDB 是分布式、⾼性能、存储计算分离的开源云原⽣时序数据库。Greptime使⽤ Rust 构建时序数据库。架构⽅⾯,Greptime实现了存算分离,以 Datanode 作为核⼼组件,具备时序存储引擎、查询引擎和Python Coprocessor等功能,并且功能可以单独划分为特定的计算池,读、写、分析和 Python 计算的负载相互隔离,互不影响。
• Meta 宣布开源通⽤向量化执⾏引擎 Velox
Velox 是⼀个 C++ 数据库加速库,提供可重⽤、可扩展和⾼性能的数据处理组件。这些组件可以重⽤来构建专注于不同分析⼯作负载的计算引擎,包括批处理、交互式、流处理和AI/ML。Velox 利⽤了⼤量的运⾏时优化,例如过滤器和连接的重新排序、数组和基于哈希的聚合和连接的 key 标准化、动态过滤器下推和⾃适应列预取。考虑到从传⼊的数据批次中提取的可⽤信息和统计数据,这些优化提供了最佳的本地效率。
• InfluxDB 宣布开源引擎 IOx
时序数据库 InfluxDB 的创建者⽇前宣布了其下⼀代时序存储引擎 InfluxDB IOx,新引擎将InfluxDB 重新定义为⼀个列式实时数据平台,提供⾼容量数据摄取,并针对全部时间序列数据进⾏优化。InfluxData 还增加了对SQL 语⾔查询的⽀持,随着 SQL 的引⼊,InfluxDB 现在可以通过商业智能和机器学习⼯具实现⼴泛的分析⽤例。
InfluxDB 基于 DataFusion 和 Apache Arrow 构建了 IOx。
• Google 宣布推出 AlloyDB for PostgreSQL
AlloyDB 的核⼼是专为 PostgreSQL 构建的智能的、数据库优化的存储服务。AlloyDB 在堆栈的每⼀层都对计算和存储进⾏分解,使⽤⽀持⼤型 Google 服务(如 YouTube、搜索、地图和 Gmail)的相同的基础架构模块。AlloyDB 在分析加速、嵌⼊式 AI/ML 和数据⾃动分层⽅⾯进⾏了更多的投⼊,以减少处理⼯作负载所需的开销。
AlloyDB ⽬前并不开源,收录到此,是因为其基于开源数据库 PostgreSQL 14 开发,关注度较⾼。
• Oracle 宣布推出 MySQL HeatWave Lakehouse
MySQL HeatWave Lakehouse ⽤以解决存储在数据库之外的⽂件数据等⾮结构化数据的查询和处理。MySQL HeatWave Lakehouse 是 MySQL HeatWave 产品组合的新产品,能够将事务处理、分析、机器学习和基于机器学习的⾃动化结合在单⼀ MySQL 数据库中。
MySQL HeatWave Lakehouse ⽬前并不开源,收录到此,是因为其基于开源数据库 MySQL 8.0 开发,关注度较⾼。
云计算
• CNCF 全年托管 20 个毕业项⽬
2022 年全年,CNCF 共托管了 20 个毕业项⽬、35 个孵化项⽬和 102 个沙箱项⽬,这些项⽬来⾃ 189 个国家的 17.8 万多名贡献者推动。
• CNCF 正式接受 Istio 成为孵化项⽬
今年九⽉底,CNCF 基⾦会宣布,已投票接受开源服务⽹格 Istio 成为 CNCF 正式孵化项⽬。Istio 作为全球最欢迎的服务⽹格,已经有来⾃全世界 70 多家公司的 8000 多名开源贡献者为 Istio 贡献代码。
• CNCF 正式接受 Volcano 成为孵化项⽬
今年4⽉份,CNCF 基⾦会宣布,由华为云捐献的业界⾸个云原⽣批量计算项⽬ Volcano 正式晋级为 CNCF 孵化项⽬。Volcano ⾃2020年进⼊CNCF以来,在⼈⼯智能、⼤数据、基因测序等海量数据计算和分析场景得到快速应⽤,并构建起完善的上下游⽣态,⽬前腾讯、爱奇艺、⼩红书、蘑菇街、唯品会、鹏城实验室、锐天投资等企业均已将 Volcano 应⽤于⽣产环境。
• CNCF KubeEdge 云原⽣边缘计算项⽬发布多项关键突破
KubeEdge 是 CNCF ⾸个云原⽣边缘计算项⽬,CNCF ⾸批集成 Fuzzing 项⽬。 KubeEdge 于2022发布《Kube Edge 单集群10 万边缘节点报告》,《云原⽣边缘计算威胁模型及安全防护技术⽩⽪书》,并于KubeEdge Summit 2022 正式开源分布式协同AI基准测试平台 Ianvs 。⽬前项⽬已完成 EdgeMesh ⾼可⽤架构, KubeEdge on openEuler ⽀持, KubeEdge on openHarmony ⽀持。在下⼀代云原⽣边缘设备管理框架 DMI 也将给⽤⼾带来更优质的体验。
• 腾讯开源⼀站式为服务解决⽅案 Spring Cloud Tencent
Spring Cloud Tencent 实现了Spring Cloud 标准微服务 SPI,开发者可以基于 Spring Cloud Tencent 快速开发 Spring Cloud 云原⽣分布式应⽤,实现诸如服务注册与发现、配置中⼼、服务路由、限流熔断以及元数据链路透传能⼒等分布式微服务场景。
• 字节跳动开源⾃研数据集成引擎 BitSail
BitSail ⽀持 20 多种异构数据源间的数据同步,并提供离线、实时、全量、增量场景下的全域数据集成解决⽅案。⽬前,BitSail 服务于字节跳动内部⼏乎所有业务线,包括抖⾳、今⽇头条等⼤家⽿熟能详的应⽤,同时也⽀撑了⽕⼭引擎多个客⼾的数据集成需求。
• TDengine 开源三周年,发布 TDengine 3.0
TDengine 3.0 正式发布,升级成为⼀款云原⽣时序数据库(Time Series Database),解决了困扰时序数据库发展的⾼基数难题,⽀持 10 亿个设备采集数据、100 个节点,⽀持存储与计算分离。
• 华为开源业界⾸个分布式云原⽣开源套件 Kurator
分布式云开源套件 Kurator 助⼒企业业务跨云跨边、分布式化升级,⽬标是标准化、统⼀分布式云管理,整合 Karmada、KubeEdge、Volcano、Kubernetes、Istio、Prometheus 等业界主流开源技术栈,为⽤⼾提供多云、多集群统⼀编排,统⼀调度,统⼀流量治理,边云协同,统⼀监控运维等核⼼能⼒,助⼒企业业务跨云跨 边、分布式化升级。
本文摘编自开源社发布的《2022中国开源年度报告》,全文下载请留意下一篇有关开源商业化的驱动要素。