Domanda di colloquio di OpenAI

Design a distributed rate limiter for an LLM inference API