


东谈主类历史上最历害的压缩技巧,不是 ZIP 或 JPEG,而是笔墨。
一个"火"字,就能把灭亡、温度、神志、危急、能量等复杂的元素浓缩进一个象征。几笔写成,信息密度极高,解码本钱极低。
大模子压缩,骨子上在作念合并件事:设想一套更高服从的"笔墨",用最少的笔画承载最多的常识。
然则,2026 年的半导体市集呈现出一种极致的扯破感。一边是高盛等机构不停调高预期,HBM(高带宽内存)供不应求,DDR5 价钱接续飙涨,"内存墙"成为算力发展的物理瓶颈;另一边,端侧 AI 开拓受限于功耗与体积,内存规格无法无尽膨大,大模子在末端的落地似乎被一皆无形的本钱天花板死死压住。
算力在涨,但末端装不下。"旧笔墨"太占方位了。传统大模子用 FP16 暗意参数,相当于用复杂英笔墨母写文章,篇幅雄壮。产业界进犯需要一套笔画更少、信息密度更高的"新笔墨"。
5 月 23 日,BitCPM-CANN 于华为鲲鹏昇腾开发者大会(KADC 2026)初次亮相,由面壁智能 AI Infra 负责东谈主、清华大学狡计机系高性能所 · 水木学者博士后李宇轩进行技巧共享。

苟简来讲,面壁智能寰球初次在华为昇腾平台上完成端到端 1.58-bit(极致低比特)磨砺栈,并将领域推至 8B 级别,相较于换取尺寸的全精度模子,性能险些无下落。
它向外界开释了一个明敬佩号:在国产算力底座上,通常能出生引颈宇宙的磨砺范式。
那么,这套"新笔墨"是怎么设想出来的?它将如何改写端侧 AI 的产业律例?

在谈判面壁智能这次技巧突破的意旨之前,咱们有必要先谛视当下端侧 AI 产业所濒临的真的逆境。2026 年的 AI 产业,名义上答允无尽:大模子正不甘人后从云表向手机、PC、汽车快速下千里,多样" AI Phone "" AI PC "见解层见叠出,仿佛东谈主东谈主都能遇到最强 AI。
然则,在这股高潮之下,一场对于活命本钱的暗战正在打响。
问题的根源要从咱们用来承载 AI 常识的"笔墨"提及。
传统大模子用的是一套相当浪掷的"笔墨系统"。每个参数用 FP16 暗意,相当于每个笔画要占 16 个格子。一个 70 亿参数的模子,光"写下来"就需要约 14GB 内存。加上操作系统和其他利用,16GB 的旗舰手机仍是写不下了。

这套"旧笔墨"不光占方位,书写本钱还在飙升。高盛的最新算计披露,受 AI 处事器需求拉动,存储芯片市集正在资格一轮超等周期。HBM 供不应求,DDR5 等主流内存价钱涨幅预期最高被调至 280%。对端侧开拓厂商而言,这是一皆狂暴的采取题:要么领受上升的 BOM 本钱,压缩本就陋劣的利润空间;要么削减内存建树,让 AI 功能沦为"能装不可跑"的营销噱头。
固有的"内存墙"加深了这一逆境。冯 · 诺依曼架构下,狡计单位与存储单位在物理上永诀,数据需要在两者之间庸碌搬运。即便端侧芯片的 TOPS 数值再高,如若内存带宽无法实时"喂饱"数据,大部分算力都将处于空转现象。
何况,国内 AI 大模子的磨砺与部署经久高度依赖 NVIDIA CUDA 生态。很长一段时期里,许多国产大模子的磨砺仍需在 NVIDIA 集群上完成中枢考证,再费时忙活地搬动至昇腾平台。这种"绕谈走"的模式,不仅拉长研发周期、提高试错本钱,也让国产算力平台经久难以解脱追逐者的位置,难以扶植委果自主的技巧体系。

层层压力类似下来,今天的端侧 AI,正被困在一个无法破解的不可能三角里:念念要更强的模子智力,就要付出更高的硬件本钱;念念要截止本钱、裁减功耗,就不得不砍掉模子智力。三者之间险些莫得兼顾的余步。
传统惩处决策如模子蒸馏、常识剪枝骨子上都是在丢精度换内存,代价是字变得莽撞。行业委果需要的是一种笔画更少、信息密度更高的笔墨系统。而在 KADC 2026 上亮相的 BitCPM-CANN,恰巧切中了这一核肉痛点。

2026 年 5 月 23 日,华为鲲鹏昇腾开发者大会上,面壁智能 AI Infra 负责东谈主李宇轩将证明向业界展示 BitCPM-CANN ——十足在国产算力上磨砺的开源三值大模子。它是 1.58-bit 极致轻量化大模子。从底层算子到磨砺框架,再到最终的模子输出,整条链路都在华为昇腾平台上原生完成。
好多东谈主会酷爱,1.58-bit 到底是什么?用最迫临生活的方式来交融,它就像是 AI 宇宙里一套相配精简的笔墨系统。
咱们熟悉的传统大模子,参数大多是 16 位浮点风物,能暗意的数值领域尽头宽广,看似精度很高,可实践运行中大都精度都是过剩的,就像用字母广阔的拉丁文去写一句苟简的日常用语,既占空间又没必要。BitCPM-CANN 把每个参数压缩到唯有三个取值:-1、0、+1。如若把传统参数比作一整套包含大小写、象征、异常字体的竣工英文系统,那 1.58-bit 就像是把一切简化为"点、横、竖"三种最基础的笔画,用最少的抒发,承载最中枢的信息。

虽然,除了"笔画少",BitCPM-CANN 还把这套新笔墨体系化了。
第一,它有一套竣工可用的字库。在这之前,行业里不是莫得过低比特模子的连接,但绝大多数服从都仅仅展示某一个固定尺寸、某一项单一盘算,更像是一个并立孤身一人的演示 demo,厂商压根无法据此判断技巧是否牢固、能不可委果用在家具里。BitCPM-CANN 十足跳出了这种局限,一次性推 0.5B、1B、3B、8B 四档竣工模子,何况和同尺寸的全精度模子作念一双一、全维度的对皆评测。在技巧罢了上,它采取 STE 三值量化器,磨砺时保留残差保证模子不错接续学习,导出时严格输出三值权重,把精度耗费截止在极小领域。实践测试结尾很有劝服力:1B、3B、8B 这三档主力模子,智力保留率达 95.7% 到 97.2%,8B 模子在 ARC/cmmlu/gsm8k 等枢纽任务保留全精度 93%~99%,十足达到可对外使用的水位;仅 0.5B 小模子保留率 90.1%,为后续优化明确标的。这种从袖珍到中型的全尺寸障翳,博亚体育app官网下载世界杯版(中国)官方入口就像为 AI 产业准备好了从短句、漫笔到长篇著述的竣工笔墨体系,手机、汽车、末端开拓厂商不错径直按需求选用,无须再从零运行适配调试。
第二,它制定了纯属牢固的排版程序。好多低比特样貌留步于"能跑通","模子能磨砺、数值能下落"就宣告奏效。但这么的代码每每是一次性的,换个尺寸、换个任务就要再行调参。BitCPM-CANN 则把低比特智力千里淀为 MindSpeed 磨砺基础风物的一部分。基于 Megatron-LM 框架,镶嵌可插拔的 QAT 并行线性层,调节模子存储风物,还援手 32K 长序列磨砺。主决策采取 QAT 加后磨砺蒸馏,磨砺轮廓仅下落 5%,险些不加多迥殊本钱。这意味着国产 NPU 第一次领有了属于我方的 1.58-bit 低比特磨砺栈,无须再先跑到国外 CUDA 生态上考证,再忙活搬动回归,委果罢了了基础风物级别的技巧千里淀,后续扫数念念在昇腾上作念低比特磨砺的团队,都不错站在这个底座上径直起步。

第三,它的智能密度极高。面壁智能与华为昇腾的协同优化披露,采取 1.58-bit 磨砺范式,同等内存容量下可承载约 6 倍的模子参数目。这 6 倍的红利来自三个层面:一是权重从 16-bit 压缩到 1.58-bit 带来的存储圣洁;二是整数狡计替代浮点狡计带来的算力开释;三是昇腾团队从辅导集到算子层的深度优化。
而 BitCPM-CANN 能达到这么的领域和纯属度背后是几年接续进入的结尾。在行业对极低位宽 QAT 还持不雅望作风的时候,面壁智能就仍是选用了小于就是 2-bit 的阶梯。
彼时,国内算力和好意思国差距很大,举座 AI 基础风物都相对逾期,国产芯片用来磨砺大模子不太够用。为了在有限资源下磨砺大模子,面壁很早就自研了散布式磨砺框架 BMTrain。这不仅是对标 DeepSpeed 或 Megatron 的工程罢了,更是"密度定律"的体现——仅用 32 张卡致使更少的资源,就不错启动百亿级模子的磨砺,极地面裁减了大模子的准初学槛。
面壁智能与 DeepSeek 被业内称为两家"国内最会作念架构考订的公司",但两者的战场天悬地隔:DeepSeek 紧抓云侧大算力场景,在万卡集群上榨干算力价值;面壁则聚焦单张端侧芯片,在功耗、散热、访存带宽的严苛料理下追求极致服从。好多大模子企业,采取保守的传统架构,通过合并批数据磨砺多个尺寸模子,面壁智能则针对端侧芯片特点,作念了大都稀罕狡计、近存狡计等底层优化。在经久探索中,团队围绕学习率、蒸馏战略、数据配比等中枢变量,少量点摸索、反复考证,最终千里淀出一套牢固、可搬动的超参措施论。
这些底层积聚最终成为 BitCPM-CANN 能在昇腾上"发明新笔墨"的复旧。

如若说前两部分商议的是"旧笔墨的问题"和"新笔墨怎么造",那么这一部分咱们不妨把视野拉高,谛视 BitCPM-CANN 开源这套"新笔墨"之后的产业意旨。它不仅仅跑通了一个模子,而是把推理侧 6 倍显存红利形成可复用智力,把低比特磨砺形成不错搬动、不错扩展、不错赓续优化的昇腾智力底座。
先看技巧层面的填补,BitCPM-CANN 当先补上了国产 AI 芯片经久存在的一块空缺。经久以来,国产 AI 芯单方濒临一个无语的形势:硬件参数可圈可点,可复旧芯片运行的"笔墨体系"却经久攥在别东谈主手里。CUDA 生态就像一套纯属的拉丁字母系统,好用但受制于东谈主。国产算力念念要罢了十足自主,毫不可只停留在"读懂、使用"别东谈主的体系,必须领有属于我方的"造字"智力,从底层算法到磨砺框架都掌执在我方手中。
BitCPM-CANN 的发布冲突了这一僵局。这是国产 NPU 平台上第一次公开、系统化的 1.58-bit 三值磨砺适配,领域一次推到 8B 量级,何况与面壁智能的全精度模子家眷作念了 1:1 对皆评测。这意味着业界第一次不错在国产算力上看到一个低比特模子的竣工智力争谱。

再把视野转向端侧 AI 产业,技巧最终要处事于场景,BitCPM-CANN 的价值毫不仅限于昇腾平台本人。
把眼神从技巧本人转向落地场景,BitCPM-CANN 的价值早已超出昇腾平台,委果触达了扫数这个词端侧 AI 产业的中枢需求。技巧最终的归宿是服求实践场景,而 BitCPM-CANN 恰好踩中了手机、PC、汽车等末端开拓最进犯的痛点。对末端厂商而言,将 1.58-bit 三值模子与 MoE 技巧聚积,有望把 60B 级别的模子智力委果装脱手机。更枢纽的是,比拟传统的 BF16 风物,实践显存收益能达到 6 倍,无须迥殊加多物理内存,就能让开拓承载更强的 AI 智力。在寰球内存价钱接续上升、硬件本钱居高不下确当下,这早已不仅仅单纯的技巧上风,而是企业截止本钱、耕种家具竞争力的势必采取。
开运体育中国官网入口与此同期,行业里还存在一个显豁的供需错位。高通的新一代芯片平台仍是援手 2-bit 原生推理,硬件准备好了,但市集上一直败落委果可落地、牢固可用的低比特权重。BitCPM-CANN 的开源恰好填补了这一空当,让芯片的硬件智力有了用武之地,让平常开发者也能零门槛体验国产算力在低比特场景的真的性能。这种模子与芯片的"双向奔赴"才是端侧 AI 走出实验室、大领域落地的真的起跑线。

何况,手脚寰球首个十足在国产算力上原生完成的三值模子,它诠释昇腾不仅能训大模子、更能训极低比特大模子,改写了外界对国产芯片"重推理、轻磨砺"的固有理解。它罢了了国产 NPU、国产 AI 模子、国产磨砺框架三者的竣工联动,诠释了在不依赖国外算力、不依附 CUDA 生态的前提下,中国团队依然能打造出宇宙级的 AI "新笔墨"。
把眼神收回到面壁智能自身,BitCPM-CANN 标志着面壁智能成长弧线上的一个明晰分水岭。
在这之前,面壁智能在行业中的定位是一家悉力于 AGI 的大模子公司。行业遍及还在追逐参数领域、云表竞赛、榜单刷分的时候,面壁智能仍是完成了从底层磨砺框架到端侧压缩阶梯的积聚,早已成为中国端侧大模子技巧阶梯的界说者。
这次 BitCPM-CANN 开源不仅仅一次苟简的服从发布,它同期开释了一个明晰的技巧信号:端侧大模子的中枢矛盾在内存与服从;惩处旅途应该指向压缩范式本人的重构。面壁智能莫得采取随从国外阶梯作念一个适配者,而是采取在极低比特这条更难、更底层的阶梯上,成为律例的书写者。
这个分水岭的实质,是面壁智能完成了从模子提供者到技巧措施论界说者的身份跃迁。

虽然,语言权的扶植,从来靠的不是单点突破,而是系统性输出。BitCPM-CANN 仅仅冰山浮出水面的那一角,水面之下是面壁智能从 BM-Train 到 MindSpeed、从低比特措施论到端侧落地闭环的竣工体系。
回头看,BitCPM-CANN 的委果意旨在于,它为国产算力在极低比特磨砺方朝上提供了一个可考证的起首。这套"新笔墨"仍是写出来了,字典和范文都开源了。更多伟大的作品还要看产业界的后续用功,但至少,笔仍是交到了每个东谈主手里。
博亚体育