Domanda di colloquio di Meta

How to design a multimodal LLM? Coding: DFS on tree.