英伟达开源 Nemotron-Mini-4B-Instruct 小语言 AI 模型：专为角色扮演设计，9216 MLP、上下文长度 4096 词元

9 月 15 日消息，科技媒体 marktechpost 昨日（9 月 14 日）发布博文，报道称英伟达开源了 Nemotron-Mini-4B-Instruct AI 模型，标志着该公司在 AI 领域创新又一新篇章。

Nemotron-Mini-4B-Instruct AI 模型专为角色扮演、检索增强生成（RAG）及函数调用等任务设计，是一个小语言模型（SLM），通过蒸馏（distilled）和优化更大的 Nemotron-4 15B 获得。

英伟达使用剪枝（pruning）、量化（quantization）和蒸馏（distillation）等先进 AI 技术，让该模型更小巧高效，尤其适用于设备端部署。

这种缩小化并未影响模型在角色扮演和功能调用等特定场景下的性能，让其成为需要快速按需响应的应用的实用选择。

该模型在 Minitron-4B-Base 模型上微调，采用了 LLM 压缩技术，最显著的特点之一是其能够处理 4096 个上下文窗口词元（token），能够生成更长且更连贯的回复。

Nemotron-Mini-4B-Instruct 以其强大的架构著称，确保了高效性与可扩展性。

该模型的 Embedding Size（决定了转化后的向量的维度）尺寸为 3072，多头注意力（Multi-Head Attention）为 32 个，MLP 中间维度为 9216，在处理大规模输入数据集时，仍能以高精度和相关性作出响应。

此外，模型还采用了组查询注意力（GQA）和旋转位置嵌入（RoPE）技术，进一步提升了其处理与理解文本的能力。

该模型基于 Transformer 解码器架构，是一种自回归语言模型。这意味着它根据前面的标记生成每个标记，非常适合对话生成等任务，其中对话的连贯流畅至关重要。

Nemotron-Mini-4B-Instruct 在角色扮演应用领域表现尤为突出。凭借其庞大的标记容量和优化的语言生成能力，它可以嵌入到虚拟助手、视频游戏或任何其他需要 AI 生成关键响应的交互式环境中。

英伟达提供了一种特定的提示格式，以确保模型在这些场景中，尤其是在单轮或多轮对话中，输出最佳结果。

该模型还针对函数调用进行了优化，在 AI 系统必须与 API 或其他自动化流程交互的环境中变得越来越重要。生成准确、功能性响应的能力使得该模型非常适合 RAG 场景，即模型需要创建文本并从知识库中检索和提供信息。

附上参考地址

Nvidia Open Sources Nemotron-Mini-4B-Instruct: A 4,096 Token Capacity Small Language Model Designed for Roleplaying, Function Calling, and Efficient On-Device Deployment with 32 Attention Heads and 9,216 MLP
Nemotron-Mini-4B-Instruct

Published by