Multimodal
概念定義
能在同一架構中處理或產生多種資料型態的模型,例如文字、圖片、音訊與影片。GPT-4o、Gemini、Claude vision 與 Sora 都屬於相關例子。
相關術語
LLM (Large Language Model)
在大規模文字語料上訓練、用來預測下一個 token 的神經網路,因此展現推理、寫程式與語言理解等能力。例子包含 GPT-4、Claude、Gemini 與 Llama,規模可從數十億到數兆參數。
Diffusion Model
一種學習反轉加噪過程的生成模型。它從純噪聲開始逐步去噪,產生圖片、音訊或影片,是 Stable Diffusion、DALL-E 3、Midjourney 與 Sora 等系統的基礎。
Embedding
把文字、圖片或其他資料表示成高維度數值向量;語意相近的資料在向量空間中距離也會較近。這是語意搜尋、RAG 與推薦系統的基礎。
Multimodal 相關文章
全部術語
AgentAttention MechanismChain-of-ThoughtContext WindowDiffusion ModelDistillationDPO (Direct Preference Optimization)EmbeddingFew-shot PromptingFine-tuningFunction CallingGAN (Generative Adversarial Network)GRPO (Group Relative Policy Optimization)HallucinationInferenceLLM (Large Language Model)LoRA (Low-Rank Adaptation)MCP (Model Context Protocol)MultimodalPrompt EngineeringQLoRA (Quantized LoRA)QuantizationRAG (Retrieval-Augmented Generation)RLHF (Reinforcement Learning from Human Feedback)TemperatureTokenizerTool UseTop-p (Nucleus Sampling)TransformerVector DatabaseZero-shot Prompting