CUDA
Tiny-vLLM: Revolução C++ para Inferência LLM de Alta Performance
Guilherme Soares
A Nova Fronteira da Inferência LLM: Tiny-vLLM em C++ e CUDA No dinâmico universo da inteligência artificial, a eficiência na ...

mKernel: Fusão de Kernels para Comunicação Multi-GPU
Guilherme Soares
Na vanguarda do desenvolvimento de infraestrutura de hardware e software para Inteligência Artificial, o gargalo do desempenho computacional mudou drasticamente. ...