Revolução no Serviço de LLMs: Together AI Lança OSCAR para Contextos Extensos
A inteligência artificial generativa tem testemunhado avanços exponenciais, especialmente no campo dos Modelos de Linguagem Grandes (LLMs). No entanto, um dos gargalos mais significativos para a escalabilidade e eficiência desses modelos, particularmente quando se trata de processar contextos longos, é o consumo de memória e a latência associados ao cache KV (Key-Value Cache). Em resposta a este desafio crítico, a Together AI deu um passo monumental ao abrir o código do OSCAR (Offline Spectral Covariance-Aware Rotation), um sistema de quantização INT2 para o cache KV. Esta inovação promete otimizar drasticamente o serviço de LLMs, permitindo que eles lidem com sequências de texto muito mais extensas de forma mais rápida e com menor consumo de recursos. Mergulharemos nas profundezas técnicas desta tecnologia e exploraremos seu impacto potencial no ecossistema de Inteligência Artificial.
O Desafio do Cache KV em LLMs de Longo Contexto
Para entender a importância do OSCAR, é crucial compreender o papel do cache KV. Durante o processo de inferência de um LLM, especialmente em modelos baseados em Transformers, o cache KV armazena as representações intermediárias das chaves (Keys) e valores (Values) de cada token na sequência de entrada. À medida que a sequência de entrada cresce, o tamanho do cache KV aumenta linearmente, tornando-se um dos principais consumidores de memória VRAM (Memória de Acesso Aleatório de Vídeo). Para LLMs que precisam processar documentos longos, artigos de pesquisa, livros ou mesmo longas conversas, o tamanho do cache KV pode se tornar proibitivo, limitando o comprimento máximo do contexto que pode ser gerenciado eficientemente.
A latência também é um fator crítico. A necessidade de armazenar e recuperar esses dados de cache contribui para o tempo total de inferência. Portanto, reduzir o tamanho do cache KV não só economiza memória, mas também pode acelerar significativamente o processo de geração de texto, um aspecto vital para aplicações em tempo real e para o serviço de modelos em larga escala.
Quantização: Uma Abordagem para Redução de Memória
A quantização é uma técnica amplamente utilizada em aprendizado de máquina para reduzir o tamanho dos modelos e acelerar a inferência. Ela envolve a representação de pesos e ativações do modelo com menor precisão numérica. Tradicionalmente, modelos são treinados com precisão de ponto flutuante de 32 bits (FP32) ou 16 bits (FP16/BF16). A quantização pode reduzir essa precisão para inteiros de 8 bits (INT8), 4 bits (INT4) ou até mesmo menos.
No contexto do cache KV, a quantização visa reduzir a precisão dos vetores de chave e valor armazenados. Enquanto a quantização de pesos do modelo é uma área bem explorada, a quantização do cache KV apresenta desafios únicos, especialmente ao tentar manter a precisão do modelo, dado que o cache KV é dinâmico e gerado durante a inferência.
OSCAR: Indo Além das Transformações de Hadamard
Abordagens anteriores para quantização do cache KV frequentemente se baseavam em transformações de Hadamard. Essas transformações são eficientes computacionalmente e aplicam uma rotação fixa e independente dos dados aos vetores de chave e valor. No entanto, elas podem não ser ideais, pois tratam todos os dados de forma semelhante, sem considerar as estruturas de covariância específicas que emergem das atenções dentro do modelo.
O OSCAR, desenvolvido pela Together AI, adota uma abordagem mais sofisticada. Ele introduz um sistema de quantização INT2 (2 bits) para o cache KV que é consciente da atenção e utiliza rotações espectrais. Diferentemente das rotações baseadas em Hadamard, o OSCAR deriva rotações separadas para chaves e valores com base em estruturas de covariância conscientes da atenção. Essas estruturas são estimadas offline, permitindo que o sistema aprenda as características mais importantes dos dados de atenção para otimizar a quantização.
Como Funciona o OSCAR?
O nome OSCAR – Offline Spectral Covariance-Aware Rotation – encapsula sua metodologia:
- Offline: A estimação das estruturas de covariância e a derivação das rotações ocorrem antes do processo de inferência em tempo real. Isso evita a sobrecarga computacional durante a geração de tokens.
- Spectral: A abordagem utiliza análise espectral para entender a distribuição e as correlações dos vetores de atenção.
- Covariance-Aware: A quantização leva em conta as relações de covariância entre os elementos dos vetores de chave e valor, permitindo uma representação mais eficiente e precisa.
- Rotation: Aplica rotações otimizadas aos vetores quantizados para minimizar a perda de informação.
Ao estimar essas rotações de forma consciente da atenção, o OSCAR consegue preservar melhor a informação relevante contida nos vetores KV, mesmo com uma precisão extremamente baixa de 2 bits por elemento KV. Isso resulta em uma perda de precisão significativamente menor em comparação com métodos anteriores que usavam quantização de baixa precisão.
Resultados e Métricas de Desempenho
A Together AI apresentou resultados impressionantes com o OSCAR:
- Redução de Memória: O OSCAR atinge aproximadamente 8x de redução na memória do cache KV. Isso significa que um LLM pode carregar e processar 8 vezes mais informações de contexto com a mesma quantidade de VRAM.
- Aceleração de Decodificação: O sistema proporciona até 3x de aceleração na velocidade de decodificação, especialmente notável em contextos longos, como 100K tokens.
- Preservação da Precisão: Mesmo operando a 2.28 bits por elemento KV, o OSCAR demonstra uma perda de precisão mínima. Por exemplo, em testes com o modelo Qwen3-4B-Thinking-2507, a lacuna de precisão em relação ao BF16 foi de apenas 3.78 pontos. Para o modelo Qwen3-8B, essa lacuna foi ainda menor, em 1.42 pontos.
Esses números são particularmente significativos. Alcançar uma redução de memória tão drástica e, ao mesmo tempo, manter uma alta precisão é um feito notável. Isso abre portas para aplicações que antes eram inviáveis devido às limitações de hardware e custo, como:
- Serviço de LLMs para usuários com hardware menos potente.
- Processamento de documentos inteiros ou longas transcrições de áudio em tempo real.
- Chatbots com memória de longo prazo mais eficaz e coerente.
- Sistemas de RAG (Retrieval Augmented Generation) mais eficientes, capazes de lidar com um corpus de documentos maior.
Impacto no Ecossistema de Inteligência Artificial
A decisão da Together AI de abrir o código do OSCAR é um catalisador para a inovação. Ao disponibilizar esta tecnologia para a comunidade, eles permitem que pesquisadores e desenvolvedores:
- Integrem o OSCAR em suas próprias aplicações e fluxos de trabalho.
- Utilizem-no como base para desenvolver métodos de quantização ainda mais avançados.
- Realizem experimentos e benchmarks para explorar novas fronteiras em LLMs eficientes.
A democratização de ferramentas de otimização como o OSCAR é fundamental para acelerar a adoção e o desenvolvimento da Inteligência Artificial. Modelos mais eficientes significam menor custo de treinamento e inferência, menor pegada de carbono e maior acessibilidade para empresas de todos os portes.
Comparativo com Abordagens Anteriores
Para contextualizar a inovação do OSCAR, podemos considerar uma tabela comparativa simplificada:
| Característica | Transformações de Hadamard (Genérico) | OSCAR (Together AI) |
|---|---|---|
| Precisão do Cache KV | Variável (geralmente INT4 ou superior para boa precisão) | INT2 (2.28 bits/elemento em média) |
| Base da Rotação | Data-oblivious (fixa, independente dos dados) | Covariância atencional (derivada offline) |
| Eficiência de Memória | Boa (dependendo da precisão) | Excelente (aprox. 8x redução) |
| Velocidade de Decodificação | Melhoria (dependendo da precisão) | Excelente (até 3x em 100K contexto) |
| Perda de Precisão do Modelo | Pode ser significativa em precisões muito baixas | Mínima (ex: ~1.42 pts em Qwen3-8B) |
| Complexidade de Implementação | Moderada | Moderada a Alta (requer estimação offline) |
A principal distinção do OSCAR reside na sua capacidade de aprender e aplicar rotações que são específicas para a estrutura de atenção do modelo e dos dados. Isso permite que ele comprima os vetores KV de forma muito mais eficaz, capturando as informações mais críticas para a geração do texto, mesmo com uma representação de bits extremamente limitada.
O Futuro do Serviço de LLMs de Longo Contexto
O lançamento do OSCAR pela Together AI marca um ponto de virada potencial no desenvolvimento e serviço de LLMs. Ao resolver um dos maiores desafios técnicos – o gerenciamento eficiente de contextos longos – a empresa não apenas avança o estado da arte, mas também torna a tecnologia de LLMs mais acessível e prática para uma gama mais ampla de aplicações.
Com a quantização de cache KV atingindo níveis de precisão tão baixos como 2 bits, podemos esperar ver LLMs cada vez mais capazes de processar e gerar texto em contextos que antes eram inimagináveis. Isso terá implicações profundas para a pesquisa, desenvolvimento de produtos e a forma como interagimos com a inteligência artificial no dia a dia.
A comunidade de Inteligência Artificial certamente se beneficiará enormemente desta contribuição. A natureza open-source do OSCAR garante que seu impacto será amplificado, impulsionando novas inovações e consolidando o papel da otimização de recursos na era da IA em larga escala.
As informações originais foram detalhadas no Artigo de Origem.
