Início Tecnologia A NVIDIA lança um novo modelo pequeno e aberto Nemotron-Nano-9B-V2 com o...

A NVIDIA lança um novo modelo pequeno e aberto Nemotron-Nano-9B-V2 com o raciocínio ativado/desligado

10
0

Quer insights mais inteligentes em sua caixa de entrada? Inscreva -se para que nossos boletins semanais obtenham apenas o que importa para a IA, dados e líderes de segurança corporativos. Inscreva -se agora


Modelos pequenos estão tendo um momento. Brand após o lançamento de um novo modelo de visão de IA pequeno o suficiente para caber em um smartwatch Do MIT Spin -off Liquid AI e um modelo pequeno o suficiente para executar em um smartphone do Google, Nvidia está se juntando à festa hoje com Um novo modelo de idioma pequeno (SLM) sincero, Nemotron-Nano-9B-V2que atingiu o maior desempenho em sua classe em benchmarks selecionados e vem com a capacidade de os usuários ativarem e desligar a IA “raciocínio”, ou seja, se auto-verificar antes de emitir uma resposta.

Enquanto os 9 bilhões de parâmetros são maiores que alguns dos parâmetros multiméricos pequenos modelos VentureBeat foram abordados recentementeNvidia observa que é uma redução significativa de seu tamanho authentic de 12 bilhões de parâmetros e foi projetado para caber em um GPU único NVIDIA A10.

Como Oleksii Kuchiaev, diretor da NVIDIA do modelo de IA pós-treinamento, disse em x Em resposta a uma pergunta que enviei a ele: “O 12B foi podado ao 9B para ajustar especificamente o A10, que é uma escolha in style da GPU para implantação. É também um modelo híbrido que permite processar um tamanho de lote maior e ter até 6x mais rápido que os modelos de transformadores de tamanho semelhante. ”

Para o contexto, muitos LLMs líderes estão no intervalo de 70 bilhões de parâmetros (os parâmetros de recall se referem às configurações internas que regem o comportamento do modelo, com denotando mais geralmente um modelo intensivo maior e mais capaz, ainda mais computado).


Ai escala atinge seus limites

Capitões de energia, custos crescentes de token e atrasos de inferência estão remodelando a IA corporativa. Junte -se ao nosso salão exclusivo para descobrir como são as principais equipes:

  • Transformando energia em uma vantagem estratégica
  • Arquitetagem Inferência eficiente para ganhos reais de rendimento
  • Desbloqueando o ROI competitivo com sistemas de IA sustentáveis

Prenda seu lugar para ficar à frente:


O modelo lida com vários idiomas, incluindo inglês, alemão, espanhol, francês, italiano, japonês e em descrições prolongadas, coreano, português, russo e chinês. É adequado para ambos Instrução a seguir e geração de código.

Nemotron-Nano-9B-V2 e é conjuntos de dados pré-treinamento Disponível agora em abraçar o rosto e através do catálogo de modelos da empresa.

Uma fusão de arquiteturas de transformador e mamba

É baseado em Nemotron-Hum conjunto de modelos híbridos de transformador de Mamba que formam a base para as últimas ofertas da empresa.

Enquanto a maioria dos LLMs populares são modelos “transformadores” puros, que dependem inteiramente de camadas de atenção, eles podem se tornar caros na memória e calcular à medida que os comprimentos da sequência crescem.

Em vez disso, modelos Nemotron-H e outros usando o Arquitetura Mamba desenvolvida por pesquisadores na Universidade Carnegie Mellon e Princeton, também Teus em modelos seletivos de espaço de estado (ou SSMS), que podem lidar com sequências muito longas de informações dentro e fora da manutenção do estado.

Essas camadas escalam linearmente com o comprimento da sequência e podem processar contextos por muito mais tempo que a auto-atendimento padrão sem a mesma memória e calcular a sobrecarga.

A hYbrid Mamba-Transformer reduz esses custos substituindo a maior parte da atenção por camadas espaciais de estado linear, alcançando até 2-3 × maior taxa de transferência em contextos longos com precisão comparável.

Outros laboratórios de IA além da NVIDIA, como a AI2, também lançaram modelos baseados na arquitetura Mamba.

Atribuir/de raciocínio usando linguagem

O Nemotron-Nano-9B-V2 está posicionado como um modelo de bate-papo unificado e somente de texto e um modelo de raciocínio treinado do zero.

O O sistema é o padrão de gerar um rastreamento de raciocínio antes de fornecer uma resposta remaining, embora os usuários possam alternar esse comportamento Através de tokens de controle simples, como /pense ou /no_think.

O modelo também euNTRODUCE RUNDO Time “Pensando Orçamento” Gerenciamentoqual permite que os desenvolvedores limitem o número de tokens dedicado ao raciocínio interno antes que o modelo conclua uma resposta.

Este mecanismo visa equilibrar a precisão com a latência, particularmente em aplicativos como suporte ao cliente ou agentes autônomos.

Benchmarks contam uma história promissora

Os resultados da avaliação destacam a precisão competitiva contra outros modelos abertos de pequena escala. Testado no modo “Raciocínio on” usando a suíte Nemo-Abilities, Nemotron-Nano-9B-V2 atinge 72,1 % no AIME25Assim, 97,8 % em Math500, 64,0 % no GPQAe 71,1 % no LivecodeBench.

Também são relatadas pontuações nas seguintes e parâmetros de referência de longo contexto: 90,3 % no ifeval, 78,9 % no teste do governante 128ke ganhos menores, mas mensuráveis, no BFCL V3 e na referência do HLE.

Em geral, o Nano-9B-V2 mostra maior precisão que o QWEN3-8B, um ponto comum de comparação.

A NVIDIA ilustra esses resultados com curvas de precisão e orçamento que mostram como o desempenho é escala como o subsídio de token para o raciocínio aumenta. A empresa sugere que o cuidadoso controle orçamentário pode ajudar os desenvolvedores a otimizar a qualidade e a latência nos casos de uso da produção.

Treinado em conjuntos de dados sintéticos

Tanto o modelo Nano quanto a família Nemotron-H confiam em uma mistura de dados de treinamento com curadoria, origem na Internet e sintéticos.

Os corpora incluem documentos gerais de texto, código, matemática, ciências, jurídicos e financeiros, bem como conjuntos de dados de resposta a perguntas no estilo de alinhamento.

A NVIDIA confirma o uso de traços de raciocínio sintéticos gerados por outros grandes modelos para fortalecer o desempenho em benchmarks complexos.

Licenciamento e uso comercial

O modelo Nano-9B-V2 é lançado sob o Contrato de licença de modelo aberto da NVIDIAúltimo atualizado em junho de 2025.

A licença foi projetada para ser permissiva e amiga da empresa. Nvidia afirma explicitamente que os modelos são comercialmente utilizável fora da caixae isso Os desenvolvedores são gratuitos para criar e distribuir modelos derivados.

É importante ressaltar que a NVIDIA não reivindica a propriedade de quaisquer saídas geradas pelo modelo, deixando a responsabilidade e os direitos com o desenvolvedor ou organização que o utilizam.

Para um desenvolvedor corporativo, isso significa que o modelo pode ser colocado em produção imediatamente sem negociar uma licença comercial separada ou pagar taxas vinculadas aos limites de uso, níveis de receita ou contagem de usuários. Não há cláusulas que exijam uma licença paga quando uma empresa atingir uma certa escala, ao contrário de algumas licenças abertas em camadas usadas por outros fornecedores.

Dito isto, o contrato inclui várias condições que as empresas devem observar:

  • Guardrails: Os usuários não podem ignorar ou desativar os mecanismos de segurança internos (referidos como “Propriedades Guarda”) sem implementar substituições comparáveis adequadas à sua implantação.
  • Redistribuição: Qualquer redistribuição do modelo ou derivado deve incluir o texto e a atribuição da licença do Modelo Aberto da NVIDIA (“Licenciado pela NVIDIA Company sob a licença do NVIDIA Open Mannequin”).
  • Conformidade: Os usuários devem cumprir os regulamentos e restrições comerciais (por exemplo, leis de exportação dos EUA).
  • Termos de IA confiáveis: O uso deve se alinhar com as diretrizes de IA confiáveis da NVIDIA, que abrangem a implantação responsável e as considerações éticas.
  • Cláusula de litígio: Se um usuário iniciar um litígio de direitos autorais ou patentes contra outra entidade alegando violação pelo modelo, a licença termina automaticamente.

Essas condições se concentram no uso authorized e responsável, em vez de escala comercial. As empresas não precisam procurar permissão adicional ou pagar royalties à NVIDIA simplesmente para a construção de produtos, monetizá -los ou escalar sua base de usuários. Em vez disso, eles devem garantir que as práticas de implantação respeitem as obrigações de segurança, atribuição e conformidade.

Posicionamento no mercado

Com o Nemotron-Nano-9B-V2, a NVIDIA está visando desenvolvedores que precisam de um equilíbrio de capacidade de raciocínio e eficiência de implantação em escalas menores.

Os recursos de controle do orçamento de tempo de execução e raciocínio-toggle destinam-se a oferecer aos construtores de sistemas mais flexibilidade no gerenciamento da precisão do versus velocidade de resposta.

Sua libertação no rosto abraçando e o catálogo de modelos da NVIDIA indica que eles são destinado a ser amplamente acessível para experimentação e integração.

O lançamento da NVIDIA do Nemotron-Nano-9B-V2 mostra um foco contínuo na eficiência e no raciocínio controlável em modelos de idiomas.

Combinando arquiteturas híbridas com novas técnicas de compressão e treinamentoa empresa está oferecendo ferramentas de desenvolvedores que buscam manter a precisão e reduzir os custos e a latência.


avots