

最新AI工具和功能加速RTXAIPC上的Windows应用开发生成式AI赋能的笔记本电脑和PC正在推动游戏、内容创作、生产力和程序开发更进一步。目前,超过600款Windows应用和游戏已在全球超过1亿台GeForceRTXAIPC上本地运行AI,提供快速、可靠的低延迟体验。在MicrosoftIgnite大会上,NVIDIA与微软联合推出多个工具,帮助Windows开发者在RTXAIPC上快速构建和优化AI赋能的应用,使本地AI更加便捷。这些新工具使应用和游戏开发者能够利用强大的RTXGPU加速AI智能体、应用助手和数字人等应用的复杂AI工作流。RTXAIPC通过多模态小语言模型为数字人赋能我们来认识一下James,一个熟知NVIDIA及其产品的交互式数字人。James将NVIDIANIM微服务、NVIDIAACE和ElevenLabs数字人技术相结合,可提供自然的沉浸式交互体验。NVIDIAACE是一套数字人技术,可以让智能体、助手和虚拟形象栩栩如生。为了深度理解信息,以更强的情境感知能力做出响应,数字人必须能够像人一样在视觉上感知世界。提升数字人交互的真实感,需要能够感知和理解周围环境更细微差别的技术。为此,NVIDIA开发了多模态小语言模型,可同时处理文本和图像信息,在方面表现出色,并针对响应速度进行了优化。NVIDIA即将推出的Nemovision-4B-Instruct模型利用最新的NVIDIAVILA和NVIDIANeMo框架进行蒸馏、剪枝和量化,使其体积小到足以在RTXGPU上以开发者所需的精度运行。该模型使数字人能够理解现实世界和屏幕上的视觉图像,以做出相关的响应。多模态作为智能体工作流的基础,让我们得以窥见,届时数字人只需极少的用户辅助,即可进行推理并采取行动。NVIDIA还推出了MistralNeMoMinitron128kInstruct系列模型,这是一套专为优化的高效数字人交互而设计的长上下文小语言模型。这一系列模型提供8B、4B和2B参数版本的灵活选项,以平衡在RTXAIPC上运行的速度、显存用量和模型精度。模型单次推理可以处理大量数据,无需进行数据分割和重组。这些模型提供GGUF格式,为低功耗设备的效率进行优化,并与多种编程语言兼容。利用面向Windows的NVIDIATensorRTModelOptimizer加速生成式AI将模型引入PC环境时,开发者面临着有限的显存和计算资源,这为本地运行AI提出了挑战。开发者希望模型可以被更多人使用,同时精度损失最小。今天,NVIDIA公布了NVIDIATensorRTModelOptimizer(ModelOpt)的更新,为Windows开发者提供了针对ONNXRuntime部署的模型优化方案。借助最新更新,TensorRTModelOpt可将模型优化为ONNX格式,以便使用CUDA、TensorRT和DirectML等GPU运行后端在ONNX运行时环境中部署模型。最新更新使模型可优化为ONNX检查点,以便通过CUDA、TensorRT和DirectML等执行提供商在ONNX运行时环境中部署模型,从而提高整个PC生态系统的精度和吞吐量。在部署时,与FP16模型相比,这些模型可将显存占用减少2.6倍。这可提高吞吐量,同时精度损失降到最低,使其能够在更多的PC上运行。详细了解从WindowsRTXAIPC到NVIDIABlackwell驱动的Azure服务器等Microsoft系统开发者如何改变用户日常与AI交互的方式。