CUDA

Tiny-vLLM: Revolução C++ para Inferência LLM de Alta Performance

Guilherme Soares

A Nova Fronteira da Inferência LLM: Tiny-vLLM em C++ e CUDA No dinâmico universo da inteligência artificial, a eficiência na ...

mKernel: Fusão de Kernels para Comunicação Multi-GPU

mKernel: Fusão de Kernels para Comunicação Multi-GPU

Guilherme Soares

Na vanguarda do desenvolvimento de infraestrutura de hardware e software para Inteligência Artificial, o gargalo do desempenho computacional mudou drasticamente. ...