讓AI繪圖更有創意：用排斥力提升生成多樣性

OraCore Editors

返回首頁

[RSCH] 2026年3月31日6 分鐘閱讀OraCore 編輯部

讓AI繪圖更有創意：用排斥力提升生成多樣性

研究團隊在擴散Transformer中引入即時排斥機制，防止模式崩潰，生成更創意、更多元的文字轉圖像結果。

多樣性 transformer 文字轉圖像影像生成擴散模型

分享 LinkedIn

文字轉圖像模型現在超擅長遵循指令。告訴它「一隻狗在賽博龐克城市裡戴著墨鏡」，它會生成視覺協調的圖像，完美符合敘述。問題是？它們的共識能力太強了。

現代擴散模型患上研究者所謂的「典型性偏差」：它們傾向於最統計可能的輸出，產生狹隘、安全的變化，看似可信但缺乏想像力。要求同一提示的十個變化，你會得到本質上同一影像的細微重排，而非真正多元的創作。

來自頂級AI研究機構的團隊，由Omer Dahary、Benaya Koren、Daniel Garibi和Daniel Cohen-Or領導，有個解決方案。他們引入「脈絡空間排斥」—一個技術，能推動擴散模型朝向多元結果，同時保持品質和語義對齐。這項研究已有條件地被電腦圖學最高殿堂SIGGRAPH 2026接受。

影像生成中的多樣性問題

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

擴散模型透過反覆精煉隨機雜訊成結構化影像，由文字嵌入引導。在每個步驟，它們根據當前狀態和文字條件信號預測下一個精煉步驟。給定相同隨機種子，這個過程是確定的，所以多樣性需要多個種子或明確鼓勵變化的機制。

簡單地變化隨機種子會產生變化，但這些變化很膚淺—不同隨機雜訊通道導致略微不同的像素值，同時保留整體結構。模型迅速落定在它的「最愛」解決方案，次要擾動無法將它推往別處。

這發生是因為學到的分數函數（預測精煉方向的網路）有強大吸引子—特定配置在訓練資料中感覺自然。「狗」的提示會吸引解決方案朝向某些狗姿勢、顏色和背景，因為那些在訓練中統計常見。

對抗這個現象需要在正確時點介入：在模型編碼語義資訊之後（所以輸出仍忠於提示），但在完全承諾特定解決方案之前（所以替代方案仍然可能）。時機是一切。

脈絡空間排斥如何運作

研究者的洞察優雅而簡單：在不同生成軌跡間應用排斥，但在Transformer的注意力通道中進行，而非在像素空間。這避免了基於軌跡方法（如MPS）的計算開銷。

在前向傳遞中，當文字條件豐富新興影像結構時，資訊區塊開始融入語義內容。與其讓這些區塊收斂到預設解決方案，排斥機制溫和地推動區塊朝向不同結果。

機制即時運作，新增最小計算開銷—對實務部署至關重要。與需要重新採樣或軌跡引導的方法不同，脈絡排斥即使在犧牲推論速度的蒸餾模型和「Turbo」變體上也能運作。這非常重要，因為快速推論現在是商業影像生成的必需品。

這對真實系統的意義

先前的多樣性增強方法在生產環境常失敗。有些需要架構改變（與現有模型不相容）。有些施加沉重的計算成本（10-50%推論時間開銷）。有些明確新增雜訊或偽影，降低視覺品質來增加變化。

脈絡排斥解決這些限制。它是外掛，適用於任何擴散Transformer架構。它新增可忽略的計算成本。最關鍵的是—它不需要犧牲視覺保真度或語義對齐。影像保持高品質且忠於提示。

對於創意專業人士，這意味著能從單個提示生成真正不同的設計方向，無需手動重新提示或等待多個推論執行。對於構建這些產品的AI公司，這意味著更好的用戶體驗，沒有部署困擾。

技術機制

該方法識別Transformer中應用文字條件的區塊，然後應用排斥損失，對不同去噪步驟的相似啟動值施加懲罰。這推動模型朝向不同解決方案軌跡。

關鍵洞察是在注意力通道空間（Transformer計算的中間特徵）運作，而非像素或潛在空間。像素空間排斥很慢且降低品質（你在對抗模型的學到偏好）。潛在空間排斥需要早期承諾解決方案方向。注意力空間排斥是完美中點：它影響高層語義決策，無需限制低層細節。

排斥是溫和的—作者使用軟懲罰，非硬約束。這讓模型自然調整，而非被強制進入尷尬、視覺不同但不連貫的變化。結果感覺像模型做出思慮周密的不同選擇，而非被人為推動。

實驗驗證

測試顯示脈絡排斥成功增加多樣性指標，同時保持或改善品質分數。用戶研究（永遠是真實測試）確認生成的變化顯現更視覺不同和創意差異，不只技術上多樣。

方法在不同模型規模和架構上運作，暗示原則一般化。即使在蒸餾模型（為速度壓縮）上，多樣性也大幅改善—關鍵實務發現，因為生產系統偏好快速推論。

特別令人印象深刻的是在「具挑戰性」提示上的表現—那些自然推動模型朝向模式崩潰的提示（常見審美方向、流行風格）。在這些提示上，脈絡排斥見到最大收益，防止齊一化而無損提示遵循。

對未來生成模型的啟示

這項工作暗示更廣泛的原則：生成模型的多樣性不需要根本性演算法改變。它需要尊重生成過程並在正確抽象層級介入。像素級控制太粗。語義級干預太鈍。中級表示控制是完美中點。

作者方法暗示未來在生成控制其他方面的工作。類似的注意力空間技術能改善多角色場景的連貫性嗎？強化長序列的風格一致性嗎？原則—在中級表示干預—可能廣泛應用。

也有模型設計的教訓。如果簡單的注意力空間排斥顯著改善多樣性，或許自然鼓勵多元注意力模式的架構選擇能改善生成品質上游。這可能推動未來Transformer設計朝向內在阻止模式崩潰的機制。

侷限與開放問題

方法需要調整排斥強度超參數—太弱多樣性收益消失，太強影像變得視覺不同但失去連貫性。論文展現這個權衡，但生產系統需要每個用例的仔細校準。

也有一般化問題：脈絡排斥對分佈外提示有幫助嗎？描述模型鮮少見過概念的提示？早期結果暗示是，但這值得深入調查。

產業影響

像Anthropic、OpenAI和Stability AI這樣的公司在積極追求影像品質和多樣性改善。脈絡排斥自然融入這個軌跡。它不是範式轉變，但它是務實的進步，適用於現有部署。

該技術對開源模型特別有價值，效率在其中非常重要。如果脈絡排斥能作為Stable Diffusion等現有模型之上的外掛實作，研究社群獲得改善的即時工具。

未來展望

論文代表對常見問題的成熟方法：生產模型運作良好但缺乏風格。與其重新設計整個生成流程，作者找到一個外科手術式介入，改善結果。這種系統級思維—找到在現有限制內運作的槓桿點—日漸定義實務AI進展。

對於未來研究，自然問題是：我們能自動做這個嗎（學習排斥強度而非手動調整）？我們能將相似原則應用到其他生成瓶頸嗎？注意力空間干預能解鎖其他改善嗎？

對於使用文字轉圖像模型的從業者，含義很清楚：生成多樣性是可修復的，修復正在到來。預期未來模型發布強調不僅品質和速度，還有創意靈活性—探索提示的真正不同詮釋的能力。脈絡排斥展示一個有希望的前進路徑。

要瞭解詳情，探索arXiv上的完整論文、追蹤SIGGRAPH 2026技術論文，並關注擴散模型多樣性最新研究。與生成模型中的模式崩潰的連接深厚，為未來創新提供豐富領土。

// 相關文章

讓AI繪圖更有創意：用排斥力提升生成多樣性

影像生成中的多樣性問題

訂閱 AI 趨勢週報

脈絡空間排斥如何運作

這對真實系統的意義

技術機制

實驗驗證

對未來生成模型的啟示

侷限與開放問題

產業影響

未來展望

TurboQuant 與小站 SEO 變化

TurboQuant 與 FP8 實測結果

LLMbda 演算替 AI 代理人立安全規則

更簡單的毫米波波束域去噪器

為什麼 AI 基準賽在資安領域的勝利，應該讓防守方警醒

為什麼 Linux 安全需要「補丁浪潮」思維