英伟达发布Nemotron 3 Nano Omni，AI Agent推理吞吐量提升9倍

英伟达又出大招了。

4月29日，英伟达发布了新一代开源全模态模型Nemotron 3 Nano Omni，专门为AI Agent场景设计，号称能把推理吞吐量提升9倍。

这次升级了什么

简单说，就是把文本、图像、音频、视频四种模态统一到一个推理体系里。

之前AI Agent处理任务时，需要调用多个模型分别处理不同类型的信息，比如用这个模型处理文字，那个模型处理图片。现在一个模型就能搞定，效率自然就上来了。

官方数据显示，9倍的吞吐量提升意味着什么？原来需要9台服务器处理的任务，现在1台就够了。

消息一出，开发者社区就炸了锅。

有人实测用它做自动化脚本，原本需要2小时的手动操作，现在8分钟搞定。也有开发者表示，在处理多模态内容（比如视频字幕生成+翻译）时，延迟明显降低。

当然，也有人泼冷水：本地部署对显卡要求高，RTX 4090跑起来都吃力，更别说普通开发者的RTX 3060了。

虽然这是面向开发者的技术升级，但最终会影响到我们日常使用的AI应用。

推理效率提升意味着：

英伟达还宣布，开源首月提供1000万Token免费额度，开发者可以去官网申请测试。

英伟达这两年在AI基础设施上的投入越来越激进，从芯片到模型到开发工具，闭环越做越完整。

这次发布的模型主打"Agent"场景，说明AI正在从"聊天"进化到"干活"。以前大家用AI问问题、聊天，现在开始让它自动完成复杂任务了。

不过，性能提升归提升，实际落地效果还得等社区验证。毕竟实验室数据和真实场景之间，差距还是不小的。

感兴趣的朋友可以去英伟达官网看看，附上链接：https://developer.nvidia.com/nemotron