Multimodal 是什麼？— AI 術語表 2026

定義

能在同一架構中處理或產生多種資料型態的模型，例如文字、圖片、音訊與影片。GPT-4o、Gemini、Claude vision 與 Sora 都屬於相關例子。

LLM (Large Language Model)

在大規模文字語料上訓練、用來預測下一個 token 的神經網路，因此展現推理、寫程式與語言理解等能力。例子包含 GPT-4、Claude、Gemini 與 Llama，規模可從數十億到數兆參數。

Diffusion Model

一種學習反轉加噪過程的生成模型。它從純噪聲開始逐步去噪，產生圖片、音訊或影片，是 Stable Diffusion、DALL-E 3、Midjourney 與 Sora 等系統的基礎。

Embedding

把文字、圖片或其他資料表示成高維度數值向量；語意相近的資料在向量空間中距離也會較近。這是語意搜尋、RAG 與推薦系統的基礎。

為什麼 OpenAI API 定價是產品策略，不是註腳

Anthropic 推出 12 個 Claude 法務工具

Pion 用正交變換鎖住權重譜

LongMemEval-V2：測 agent 長期記憶

AlphaGRPO 讓多模態模型學會自我修正