Inferência
Tiny-vLLM: Revolução C++ para Inferência LLM de Alta Performance
Guilherme Soares
A Nova Fronteira da Inferência LLM: Tiny-vLLM em C++ e CUDA No dinâmico universo da inteligência artificial, a eficiência na ...

LLM em Tempo Real: 3k Tokens/s em GPUs Comuns
Guilherme Soares
Desvendando a Inferência de LLMs em Tempo Real com GPUs Padrão A busca por inferência de Modelos de Linguagem Grandes ...