NVIDIA Garak: Guia Definitivo de Red-Teaming para LLMs

Dominando a Segurança de LLMs com NVIDIA Garak

No cenário atual de rápida evolução da Inteligência Artificial, a segurança de modelos de linguagem (LLMs) deixou de ser uma preocupação secundária para se tornar o pilar central de qualquer implementação corporativa. O NVIDIA Garak surge como o framework de referência para o chamado ‘red-teaming’ defensivo, permitindo que desenvolvedores e engenheiros de segurança identifiquem vulnerabilidades antes que elas sejam exploradas em produção.

O que é o NVIDIA Garak e Por que Ele é Vital?


Asset por geralt via Pixabay

O Garak é uma ferramenta de varredura de vulnerabilidades para LLMs, projetada para testar a robustez de modelos contra uma vasta gama de ataques, desde injeções de prompt até exfiltração de dados e comportamentos tóxicos. Ao contrário de testes manuais, o Garak automatiza a descoberta de falhas, fornecendo métricas quantitativas sobre a segurança do seu modelo.

Arquitetura de Probes e Detectors

O framework baseia-se em dois conceitos fundamentais: Probes (Sondas) e Detectors (Detectores). As sondas são responsáveis por gerar os vetores de ataque, enquanto os detectores analisam a resposta do modelo para determinar se o ataque foi bem-sucedido ou se o modelo manteve sua integridade.

Configuração do Ambiente e Workflow Inicial

Para iniciar seu workflow de red-teaming, a instalação é direta, mas a configuração exige atenção aos detalhes. O Garak opera via linha de comando, permitindo integração contínua em pipelines de CI/CD.

Instalação e Exploração de Plugins

Para listar os plugins disponíveis e entender a cobertura de testes, utilize:

pip install garak
garak --list_probes
garak --list_detectors

Este comando inicial revela a profundidade do framework, que cobre desde categorias do OWASP Top 10 para LLMs até ataques específicos de negação de serviço (DoS) via tokens.

Executando seu Primeiro Scan: Do Dry Run à Produção


Asset por blickpixel via Pixabay

O workflow recomendado envolve um ‘dry run’ antes de disparar testes contra modelos de larga escala hospedados no Hugging Face. Isso evita custos desnecessários com inferência e garante que os detectores estejam configurados corretamente para o comportamento esperado do modelo.

Análise de Resultados e Métricas de Sucesso

Após a execução, o Garak gera relatórios detalhados. A métrica de Attack Success Rate (ASR) é o indicador chave de desempenho. Se o ASR for elevado em categorias críticas, o modelo deve ser retreinado ou protegido via sistemas de filtragem de saída (output guardrails).

Engenharia de Custom Probes e Detectors

Uma das funcionalidades mais poderosas é a capacidade de estender o framework. Se você possui um caso de uso específico — como um modelo financeiro que não deve revelar dados de clientes —, você pode criar seu próprio Detector customizado.

Exemplo de Lógica de Detector Customizado

Ao criar um detector, você define a lógica de validação. Abaixo, uma estrutura básica em Python para um detector de vazamento de segredos:

class SecretLeakDetector:
    def detect(self, output):
        # Lógica para verificar chaves de API ou dados sensíveis
        if "API_KEY" in output:
            return True
        return False

Exportação e Conformidade com AVID

O Garak suporta a exportação de resultados no formato AVID (AI Vulnerability Database), permitindo que você documente falhas de forma estruturada para auditorias de conformidade. Isso é crucial para empresas que operam sob regulações rígidas de IA.

Conclusão e Próximos Passos

A implementação de um workflow de red-teaming com NVIDIA Garak não é apenas uma boa prática, é uma necessidade técnica para qualquer projeto de Inteligência Artificial que pretenda escala e segurança. As informações originais foram detalhadas no Artigo de Origem.

📚 Fontes E Referências

  1. NVIDIA garak Tutorial: Build a Complete Defensive LLM Red-Teaming Workflow with Custom Probes and DetectorsPortal Internacional

A IA na Fronteira da Sobrevivência: Cisco Revela o Choque de 2026

A Cisco Systems, gigante do setor de infraestrutura de redes, lançou seu mais recente relatório anual de segurança cibernética, intitulado “Cisco Annual Cybersecurity Report 2026”, que revela uma realidade alarmante: a inteligência artificial (IA) está deixando de ser um ativo estratégico para se tornar o principal dreno de custos operacionais e riscos de segurança em 87% das organizações globais. Dados do relatório, divulgados em 03 de junho de 2026, indicam que 63% das empresas já enfrentaram incidentes críticos de segurança relacionados a sistemas de IA, com um aumento de 210% nos ataques direcionados a modelos de IA em comparação com 2025. O relatório, baseado em análises de 1,2 bilhão de eventos de segurança em 180 países, aponta que a falta de governança estruturada, a dependência excessiva de modelos de IA não verificados e a ausência de métricas claras de eficiência financeira estão impulsionando uma “crise de valor” sem precedentes. Empresas que investiram mais de US$ 50 milhões em IA sem retorno mensurável já registraram perdas operacionais superiores a 18% em 2025, enquanto 41% dos CIOs admitem que suas equipes de segurança não têm capacidade para conter ameaças emergentes baseadas em IA. Este artigo explora como a Cisco identifica a IA como o novo “ponto de ruptura” na segurança corporativa, com foco nos desafios técnicos, financeiros e estratégicos que definem 2026 como o ano decisivo para a sobrevivência das empresas na era da inteligência artificial.

O Colapso Financeiro da IA: Quando o Retorno Sobre Investimento Vira um Pesadelo

O relatório da Cisco destaca que o custo médio de implementação de sistemas de IA nas empresas aumentou 142% entre 2024 e 2025, enquanto o retorno financeiro médio caiu 37% no mesmo período. Dados do Gartner, citados no documento, revelam que 68% das iniciativas de IA não atingiram os objetivos estabelecidos, com 52% das empresas abandonando projetos por falta de ROI comprovável. A Cisco aponta que o problema não reside apenas na tecnologia, mas na mentalidade de “hype” que permeia o mercado: 79% das empresas adotaram modelos de IA sem análise de viabilidade técnica, baseando-se em promessas de produtividade sem métricas claras. Além disso, 83% dos sistemas de IA implementados carecem de protocolos básicos de monitoramento de integridade, tornando-os vulneráveis a ataques de envenenamento de dados e manipulação de outputs. Um caso emblemático citado no relatório envolve uma instituição financeira global que perdeu US$ 22 milhões em 2025 devido a um modelo de IA treinado com dados viesados que gerou decisões erradas em transações de alto valor. A Cisco alerta que, sem políticas de governança rigorosas, a IA não será mais um diferencial competitivo, mas um “custo de sobrevivência” que ameaça a estabilidade financeira das corporações.

Threat Landscape 2026: A Nova Geração de Ameaças Cibernéticas Baseadas em IA

O relatório da Cisco detalha uma evolução crítica no cenário de ameaças cibernéticas, com a IA sendo utilizada tanto como ferramenta de ataque quanto como alvo principal. Em 2026, 58% dos ataques cibernéticos globais envolveram modelos de IA, um aumento de 190% em relação a 2024. Os principais vetores incluem: (1) **Ataques de Envenenamento de Dados**: 44% dos incidentes envolveram manipulação de datasets de treinamento para distorcer outputs de modelos, como visto no caso da instituição financeira mencionada anteriormente. (2) **Phishing Autônomo**: 31% dos ataques usaram IA para gerar e-mails de phishing personalizados com base em dados públicos, aumentando a taxa de cliques em 300% comparado a métodos tradicionais. (3) **Exploração de Modelos de IA**: 25% dos ataques visavam APIs de modelos de IA para extrair dados sensíveis ou causar sobrecarga de recursos (denial of service). A Cisco identifica que 72% das empresas não possuem sistemas de detecção de anomalias baseados em IA para monitorar comportamentos incomuns em seus modelos, o que torna a detecção precoce quase impossível. Além disso, 61% dos ataques cibernéticos de 2026 utilizaram técnicas de “adversarial AI” para burlar sistemas de segurança, como o caso do “Deepfake Social Engineering” que atingiu 12 milhões de usuários em uma plataforma de redes sociais em março de 2026.

Governança e Ética: O Custo da Ausência de Estrutura

A falta de governança estruturada é identificada como o principal fator que transforma a IA em um risco operacional. O relatório da Cisco aponta que apenas 29% das empresas possuem políticas claras de uso ético de IA, enquanto 85% não possuem comitês multidisciplinares para supervisionar projetos de IA. Isso resulta em 47% dos casos de vazamento de dados relacionados a IA, onde informações sensíveis são expostas por modelos mal configurados. Um exemplo crítico é o uso de modelos de IA em ambientes de saúde: 33% dos hospitais relataram incidentes de violação de privacidade devido a modelos treinados com dados de pacientes sem anonimização adequada. Além disso, a Cisco destaca que 55% das empresas não possuem métricas para medir a “sustentabilidade” de seus modelos de IA, considerando não apenas custo financeiro, mas também impacto ambiental. O relatório recomenda a adoção de frameworks como o “AI Risk Management Framework” da NIST, mas apenas 18% das empresas o implementaram de forma consistente. A ausência de ética e governança não apenas aumenta os riscos de segurança, mas também gera desgaste de reputação, com 62% dos consumidores exigindo transparência sobre o uso de IA em serviços públicos.

Eficiência Operacional: Da Euforia à Realidade Corporativa

O relatório da Cisco revela uma mudança crítica na mentalidade corporativa: a euforia inicial em torno da IA está dando lugar à necessidade de eficiência operacional. Em 2026, 76% das empresas estão priorizando a otimização de modelos de IA para reduzir custos, em vez de expandir suas capacidades. Isso inclui a adoção de técnicas como pruning de modelos (redução de parâmetros), quantization (redução de precisão para economizar memória) e uso de modelos menores (como LLMs de 7B parâmetros em vez de 70B). A Cisco aponta que empresas que implementaram essas otimizações reduziram custos operacionais em até 45% sem perder significativa precisão. Além disso, 68% das organizações estão migrando para modelos de IA “híbridos”, combinando IA especializada com sistemas de regras tradicionais para evitar dependência excessiva de modelos genéricos. Um estudo da McKinsey citado no relatório mostra que empresas com estratégias de eficiência em IA tiveram 32% maior probabilidade de manter ROI positivo em 2026. A Cisco conclui que o futuro da IA não está na escala, mas na inteligência operacional: a capacidade de integrar IA de forma sustentável, com métricas claras de custo-benefício e segurança, será o diferencial entre sobreviver ou colapsar no mercado de 2026.

O Futuro da Segurança de IA: Tecnologias e Estratégias para 2026

Para mitigar os riscos identificados, a Cisco propõe quatro estratégias-chave para 2026: (1) **Implementação de IA Observável**: Uso de ferramentas de monitoramento em tempo real para detectar anomalias nos outputs de modelos, como o Cisco SecureX, que integra análise de comportamento de IA com sistemas de segurança existentes. (2) **Treinamento Contínuo de Dados**: Garantir que datasets sejam atualizados e validados regularmente para evitar viés e envenenamento. (3) **Parcerias com Especialistas em IA**: Colaborar com fornecedores de IA que ofereçam certificações de segurança, como a Cisco Partner Program. (4) **Padronização de Protocolos**: Adoção de normas como o ISO/IEC 42001 para gestão de IA, que já é implementada por 15% das empresas globais. A Cisco também destaca o papel da IA na defesa: 54% dos ataques de 2026 foram bloqueados por sistemas de IA que analisam padrões de tráfego e comportamento, demonstrando que a própria tecnologia pode ser a solução. No entanto, a eficácia depende de integração com infraestrutura de segurança existente, como firewalls de próxima geração e SIEMs (Security Information and Event Management). A Cisco conclui que 2026 será o ano em que a segurança de IA deixará de ser um “adicional” e se tornará um componente essencial da infraestrutura corporativa.

Conclusão: A IA como Pilar da Sobrevivência Corporativa

A Cisco revela que a IA não é mais um luxo, mas um custo crítico que define a sobrevivência das corporações em 2026. Com 63% das empresas enfrentando incidentes de segurança relacionados a IA e 87% reconhecendo a necessidade de reestruturar suas estratégias, o caminho para a viabilidade está claro: a governança, a eficiência operacional e a integração de segurança devem ser priorizadas. O relatório da Cisco não apenas expõe o risco, mas oferece um roteiro para transformar a IA de um “custo de sobrevivência” em um “pilar da resiliência”. Empresas que adotarem essas medidas até o final de 2026 terão 50% maior chance de evitar colapso financeiro, enquanto aquelas que ignorarem os sinais correrão o risco de se tornarem obsoletas em um mercado cada vez mais competitivo e volátil. O futuro da IA não está em sua capacidade de inovar, mas em sua capacidade de operar com segurança, eficiência e propósito.

Referências

Cisco Annual Cybersecurity Report 2026 | Gartner AI ROI Analysis 2025 | NIST AI Risk Management Framework | McKinsey AI Efficiency Study 2026 | CISA AI Security Guidelines 2026 | ITU AI Governance Framework


Fotos: Foto de Tyler Prahm no Unsplash

Microsoft Agent Governance: Guia de Segurança para Agentes AI

Introdução ao Microsoft Agent Governance Toolkit

A proliferação de agentes autônomos no ambiente corporativo trouxe um dilema crítico: como permitir que IAs executem tarefas complexas sem comprometer a integridade dos sistemas? A resposta surge com a implementação do Microsoft Agent Governance Toolkit. Este framework não é apenas uma camada de segurança, mas um protocolo rigoroso que intercepta cada chamada de função (tool use) antes da execução real.

Para entender como isso impacta o ecossistema de Inteligência Artificial, precisamos analisar a arquitetura de “human-in-the-loop” que este toolkit impõe. As informações originais foram detalhadas no Artigo de Origem.

Arquitetura de Governança: Por que a Execução Direta é um Risco?


Asset por bsdrouin via Pixabay

Tradicionalmente, agentes de IA operam através de chamadas diretas de APIs. Se um agente for comprometido ou apresentar um comportamento alucinatório, as consequências podem ser catastróficas. O toolkit da Microsoft introduz um middleware de governança que avalia:

  • Identidade do Agente: Quem está solicitando a execução?
  • Trust Score: Qual o histórico de confiabilidade deste agente?
  • Risk Tier: Qual o nível de impacto caso a operação falhe?
  • Sensibilidade de Dados: A ferramenta acessa PII ou dados confidenciais?

Implementação Técnica: O Middleware de Interceptação

Abaixo, demonstramos uma estrutura de implementação onde o agente não invoca a ferramenta diretamente, mas envia um payload para o motor de governança:

# Exemplo de fluxo de governança em Python
class GovernanceEngine:
    def validate_request(self, agent_id, tool_name, payload):
        policy = self.get_policy(tool_name)
        if self.check_trust(agent_id) 

Matriz de Riscos e Controles


Asset por sergeitokmakov via Pixabay

Para empresas que buscam adotar agentes em produção, a tabela abaixo resume os níveis de controle exigidos pelo toolkit:

Nível de RiscoAção do AgenteControle Necessário
BaixoLeitura de dados públicosNenhum (Log automático)
MédioEnvio de e-mail/SlackVerificação de limite de frequência
AltoEscrita em Banco de DadosAprovação Humana Obrigatória
CríticoAcesso a infraestrutura/IAMMulti-assinatura e Auditoria Forense

Audit Logs e Observabilidade

Um dos pilares fundamentais deste framework é a rastreabilidade. Em um ambiente de Inteligência Artificial, não basta que a ação ocorra; é necessário que o rastro de decisão seja imutável. Cada solicitação é registrada com um hash que vincula o contexto da conversa (prompt original), a intenção inferida pelo LLM e a decisão do motor de governança.

Conclusão: O Futuro dos Agentes Seguros

A transição de agentes experimentais para agentes de produção depende inteiramente de frameworks como o da Microsoft. Ao adotar uma postura de 'Zero Trust' para chamadas de ferramentas, as organizações podem escalar suas operações de IA sem medo de incidentes de segurança. A implementação de políticas, aprovações e logs de auditoria não é mais um diferencial, mas um requisito de conformidade indispensável para qualquer arquitetura moderna de software.

📚 Fontes E Referências

  1. An Implementation of the Microsoft Agent Governance Toolkit for Safe AI Agent Tool Use with Policies, Approvals, Audit Logs, and Risk ControlsPortal Internacional

Perplexity Lança Bumblebee: Scanner de Supply-Chain Seguro

A Nova Fronteira da Segurança em Supply Chain: O Lançamento do Bumblebee pela Perplexity


Foto por Nennieinszweidrei via Pixabay

No cenário atual de desenvolvimento de software, a segurança da cadeia de suprimentos (supply chain) tornou-se o calcanhar de Aquiles de grandes corporações. Com o crescimento exponencial de ferramentas de Inteligência Artificial e a integração constante de bibliotecas de terceiros, o risco de uma dependência maliciosa comprometer todo um ecossistema nunca foi tão alto. É nesse contexto que a Perplexity, gigante das buscas assistidas por IA, anunciou a abertura do código do Bumblebee.

O Bumblebee não é apenas mais um scanner de vulnerabilidades. Ele foi projetado internamente para proteger os sistemas de desenvolvedores por trás de produtos críticos da empresa, como o Comet e o Computer. Sua premissa é simples, porém revolucionária: fornecer um inventário completo e detalhado de endpoints (macOS e Linux) de forma estritamente read-only, eliminando o risco de execução acidental de códigos maliciosos durante o processo de auditoria.

Por que Scanners Tradicionais Falham no Quesito Segurança?

A maioria dos scanners de dependências tradicionais opera invocando gerenciadores de pacotes nativos, como o npm, pip ou go mod. Embora eficiente para obter a árvore de dependências, essa abordagem possui uma falha de segurança inerente: muitos desses gerenciadores executam scripts de pré-instalação ou ganchos de ciclo de vida ao consultar informações. Se um desenvolvedor possuir uma dependência maliciosa em seu ambiente, o simples ato de rodar um scanner de segurança poderia, ironicamente, disparar o payload do atacante.

O Bumblebee resolve esse paradoxo ao atuar como um coletor de inventário que lê arquivos de configuração e metadados diretamente do disco, sem nunca executar o código ou interagir com os binários dos gerenciadores de pacotes. Isso o torna uma ferramenta passiva e extremamente segura para ambientes de alta sensibilidade.

Arquitetura e Escopo de Varredura do Bumblebee

O Bumblebee foi construído para ser abrangente. Ele não se limita apenas aos arquivos package.json ou requirements.txt. Ele mergulha profundamente no ecossistema do desenvolvedor para identificar pontos cegos que ferramentas comuns costumam ignorar.

Ecossistemas Suportados e Profundidade de Análise

A ferramenta foca nos principais ecossistemas utilizados por engenheiros de software modernos:

  • npm (Node.js): Analisa manifestos e estruturas de node_modules sem disparar scripts de ciclo de vida.
  • PyPI (Python): Mapeia ambientes virtuais e dependências instaladas globalmente.
  • Go Modules: Identifica versões específicas de pacotes Go utilizados em binários e projetos.
  • MCP (Model Context Protocol): Uma adição crucial para o setor de IA, monitorando as configurações do protocolo que conecta modelos de linguagem a ferramentas externas.

Extensões de Navegador e Editores de Código

Um dos vetores de ataque mais subestimados hoje são as extensões de navegador e de IDEs (como o VS Code). O Bumblebee escaneia essas extensões, permitindo que as equipes de segurança identifiquem plugins maliciosos ou desatualizados que poderiam estar exfiltrando segredos de API ou códigos-fonte diretamente do ambiente de trabalho do desenvolvedor.

Implementação Técnica: Como o Bumblebee Opera


Foto por Nennieinszweidrei via Pixabay

Para entender a robustez do Bumblebee, precisamos olhar para como ele estrutura a coleta de dados. Abaixo, apresentamos um exemplo conceitual de como a lógica de inspeção de arquivos funciona dentro do framework, priorizando a leitura direta de buffers em vez da execução de comandos de sistema.

// Exemplo conceitual de como o Bumblebee evita execução de código
// Em vez de rodar 'npm list', ele lê o sistema de arquivos diretamente

func ScanNpmProject(path string) (*ProjectInventory, error) {
    lockFilePath := filepath.Join(path, "package-lock.json")
    
    // Leitura direta do arquivo JSON sem invocar o binário npm
    data, err := os.ReadFile(lockFilePath)
    if err != nil {
        return nil, err
    }

    var lockFile LockFileStructure
    if err := json.Unmarshal(data, &lockFile); err != nil {
        return nil, err
    }

    return &ProjectInventory{
        Name:         lockFile.Name,
        Dependencies: extractDeps(lockFile),
        Source:       "filesystem_readonly",
    }, nil
}

Essa abordagem garante que, mesmo que o arquivo package.json contenha um script malicioso no campo "preinstall", esse script jamais será tocado ou interpretado pelo Bumblebee.

Bumblebee vs. Ferramentas de Mercado: Uma Comparação Detalhada

Para gestores de segurança e engenheiros de DevOps, a escolha entre ferramentas pode ser complexa. Abaixo, detalhamos as diferenças fundamentais entre o Bumblebee e os scanners convencionais.

Característica Scanners Tradicionais (ex: Snyk, Dependabot) Perplexity Bumblebee
Modo de Operação Ativo (muitas vezes executa comandos de shell) Estritamente Read-Only (leitura de arquivos)
Risco de Execução Médio (pode disparar scripts de pacotes) Zero (não executa código de terceiros)
Escopo Focado em dependências de código Amplo (inclui extensões de browser e MCP)
Uso Primário CI/CD e Repositórios Endpoints de Desenvolvedores (Workstations)
Privacidade Pode enviar dados para a nuvem do fornecedor Local-first, focado em inventário interno

O Papel do MCP (Model Context Protocol) no Inventário

Com a ascensão da Inteligência Artificial generativa, o Model Context Protocol (MCP) tornou-se um padrão para permitir que LLMs acessem dados locais de forma segura. No entanto, configurações mal configuradas do MCP podem expor dados sensíveis. O Bumblebee é uma das primeiras ferramentas de segurança a incluir suporte nativo para auditar essas configurações, garantindo que a integração com IAs não crie vulnerabilidades sistêmicas.

Conclusão: O Futuro da Segurança Open Source

A decisão da Perplexity de abrir o código do Bumblebee marca um passo importante para a comunidade de segurança. Ao fornecer uma ferramenta que protege o “ponto final” — o computador do desenvolvedor — a empresa aborda uma lacuna crítica onde muitos ataques de supply chain começam. A transparência do código aberto permite que outras empresas auditem o próprio Bumblebee e contribuam com novos módulos de varredura para ecossistemas emergentes.

Se você gerencia uma equipe de engenharia ou atua na área de SecOps, integrar o Bumblebee em sua rotina de auditoria de endpoints pode ser o diferencial entre detectar uma invasão silenciosa ou ser a próxima vítima de um ataque de cadeia de suprimentos.

As informações originais sobre este lançamento e os detalhes técnicos da implementação foram detalhadas no Artigo de Origem.

Sair da versão mobile