Domanda di colloquio di Oracle

Describe 3 different optimisations applied to LLM inference.

Risposta di colloquio

Anonimo

7 lug 2025

KV caching, speculative decoding, operator fusion