文章来源:08ai导航网发布时间:2025-10-14 15:23:06
人工智能(AI)和组合优化正在推动科学研究和工业应用的快速发展,但它们日益增长的能耗也对数字计算的可持续性提出了严峻挑战。
同时,目前大多数新型计算系统要么只擅长AI,要么只擅长优化,而且还需频繁进行高能耗的数字转换,效率受限。另外,在实际应用中,这些系统也常难与硬件高效配合,无论是处理内存受限的神经网络、解决复杂优化问题,还是应对模拟计算噪声,都表现不佳。
如果换一种思路,不再依赖“0”与“1”的切换,而是用光与模拟信号去计算呢?这种不需要频繁转换、不依赖数字逻辑的计算方式,能否打破现有的限制?
基于此,微软英国剑桥研究院团队及其合作者提出了“模拟光学计算机”(AnalogOpticalComputer,AOC),其在无需数字转换的情况下,能够同时高效完成AI推理与组合优化任务,并具备显著的扩展潜力与能效优势。
相关研究论文已发表在权威科学期刊Nature上。上海交大校友、微软英国剑桥研究院首席研究员褚嘉琦(JiaqiChu)为该论文的作者之一。
论文链接:https://www.nature.com/articles/s41586-025-09430-z
据介绍,AOC实现了将模拟电子技术与三维光学技术相结合,使同一平台能够同时加速AI推理和组合优化任务。这种“双领域能力”得益于快速的定点搜索方法,无需数字转换,同时也增强抗噪声能力。基于这种定点抽象,AOC可运行具备递归推理能力的新型计算密集型神经模型,并采用先进的梯度下降方法解决高表现力优化问题。
图|AOC架构与应用示意图
研究团队表示,AOC架构基于可扩展的消费级技术构建,为实现更高速、更可持续的计算提供了有前景的路径。其原生支持迭代式、计算密集型模型,为AI与优化领域的未来创新提供了可扩展的模拟计算平台。
AOC在应用层面主要面向两类任务:机器学习推理任务和组合优化任务。研究团队通过四个典型案例展示了AOC在这两类任务中的能力。这项研究也体现了硬件与抽象层协同设计的优势,呼应了数字加速器与深度学习模型共同演进的趋势。
AOC硬件结合了3D光学技术与模拟电子技术,并基于平衡模型实现了两个机器学习推理任务:图像分类与非线性回归。在这两项任务中,模型均通过AOC-DT进行数字训练,并直接部署到硬件上,无需进一步校准。这对硬件精度提出了较高要求,同时也要求AOC-DT具备较高的保真度。
在图像分类实验中,AOC的结果证明了采用数字训练并将权重转移至光电模拟推理硬件的可行性。将AOC的结果与线性分类器进行比较时,运行在AOC上的平衡模型所作出的贡献更加明显。研究人员还训练了一个简单的前馈模型,线性分类器和前馈模型都具有与AOC硬件相同数量的参数。尽管AOC实现了略高的准确率,但MNIST和Fashion-MNIST数据集本身较为简单,难以充分展现自递归模型的全部潜力。
研究表明,AOC硬件可以运行非线性回归模型。他们选择两个非线性函数进行回归:高斯曲线和正弦曲线。硬件准确地重现了这两个函数。相比高斯曲线,正弦曲线由于存在多个极小值和极大值,对拟合精度提出了更高要求,因此需要更高精度的可微分数字孪生模型(AOC-DT)。此外,AOC为运行在硬件上的平衡模型提供了支持。
图|AOC在机器学习推理中的应用
QUMO代表了一类广泛的组合优化问题,旨在最小化目标函数,QUMO问题的求解过程即为找到一组使目标函数最小化的变量赋值。研究团队在AOC硬件上展示了两个典型的QUMO应用场景:医学图像重建与金融交易结算。
他们在AOC硬件上实现了压缩感知,这是一种可以用更少的测量实现准确信号重建的技术。最终的图像重建结果与原始线条高度一致。所有QUMO实例均以完全模拟方式求解,未使用任何数字后处理。为了验证压缩感知在大规模下的QUMO表达形式,研究人员使用AOC-DT从FastMRI数据集中重建了一幅脑部扫描图像。这一问题包含超过200000个变量。在典型的4倍和8倍欠采样率下,重建的均方误差(MSE)均低于0.07。
在金融领域的优化任务中,他们使用AOC硬件解决了一个交易结算问题。每一笔证券交易都是以支付换取证券的交换,清算所会处理这类交易的批次,在每个交易批次中,交易结算的目标是最大化已结算交易的总数或总价值。鉴于交易数量庞大,同时受到法律约束和其他附加要求的限制,这成为一项复杂的优化问题。在该交易结算场景中,AOC硬件在7个块坐标下降法(BCD)步骤内找到了全局最优解。相比之下,量子硬件在相同问题上的成功率仅为40–60%。
图|AOC在优化中的应用
利用AOC-DT,研究人员还在QPLIB基准测试中最难的具有线性不等式约束的二次二元问题上验证了算法性能,这些问题被表述为QUMO实例。AOC方法与商用求解器Gurobi进行了对比,后者在这些问题上通常需要超过一分钟才能达到当前已知的最优解。
这种全模拟操作最大限度地减少了模数转换的开销。
值得注意的是,现实应用对硬件的扩展能力提出了更高要求。使用AOC处理实际任务,需要其硬件能够支持从数亿到数十亿个权重的可扩展性。
研究团队表示,AOC通过模块化架构具备满足这一需求的潜力,该架构可将核心的光学矩阵–向量乘法运算分解为较小的子向量与子矩阵乘法,从而实现可扩展的内存计算。
研究团队预计,AOC可支持参数规模在1亿至20亿之间的模型,对应需要50至1000个光学模块。如果单个光学模块能够同时处理正负权重,则所需模块数量可减少一半。AOC所采用的所有组件,包括microLED、光电探测器、SLM及模拟电子器件,均已具备持续扩展的制造生态系统,能够支持晶圆级的生产。
AOC的运行速度和功耗决定了其能效。其速度受光电组件带宽限制,通常为2GHz或更高。对于一个1亿权重的矩阵,使用25个AOC模块时,功耗估计为800W,可实现400Peta-OPS的计算速度,在8位权重精度下的能效为每瓦500TOPS。相比之下,最新的GPU在相同精度下处理稠密矩阵时,其系统能效最高仅为每瓦4.5TOPS。
总之,AOC架构在扩展到实际的机器学习和优化任务方面展现出良好前景,有望在能效方面实现约100倍的提升。
展望未来,AOC的协同设计方法——将硬件与机器学习和优化算法紧密对齐——有望持续推动硬件与算法的创新飞轮,这对实现可持续计算至关重要。
本文来自微信公众号“学术头条”(ID:SciTouTiao),作者:学术头条,经授权发布。
相关攻略 更多
最新资讯 更多
100倍AI推理能效提升,微软提出“模拟光学计算机”,研究登上Nature
更新时间:2025-10-14
拳打英伟达、脚踢苹果?谷歌加码推销自研芯片
更新时间:2025-10-14
GPT-5,脱缰的能耗怪兽,日耗等于150万美国家庭电量
更新时间:2025-10-14
全球超7800亿元规模,国外销售占7成,国产芯片设备如何在内卷中“替代”?
更新时间:2025-10-14
港科广×腾讯联手打造《我的世界》神操作,400张截图就能让AI挖矿通关,成本降至5%|EMNLP 2025
更新时间:2025-10-14
OpenAI盯上苹果开发者生态,吞了家AI编程公司
更新时间:2025-10-14
美国又出狠招提出“GAINAI”法案:拟全面限制高端AI芯片出口
更新时间:2025-10-14
字节Seed最新版原生智能体来了!一个模型搞定手机/电脑/浏览器自主操作
更新时间:2025-10-14
消息称DeepSeek正开发更先进模型:具备AI智能体能力,剑指年底发布
更新时间:2025-10-14
OpenAI宣布推出AI在线招聘平台,和微软的领英打起来了
更新时间:2025-10-14