[RSCH] 6 分鐘閱讀OraCore 編輯部

讓AI繪圖更有創意:用排斥力提升生成多樣性

研究團隊在擴散Transformer中引入即時排斥機制,防止模式崩潰,生成更創意、更多元的文字轉圖像結果。

分享 LinkedIn
讓AI繪圖更有創意:用排斥力提升生成多樣性

文字轉圖像模型現在超擅長遵循指令。告訴它「一隻狗在賽博龐克城市裡戴著墨鏡」,它會生成視覺協調的圖像,完美符合敘述。問題是?它們的共識能力太強了

現代擴散模型患上研究者所謂的「典型性偏差」:它們傾向於最統計可能的輸出,產生狹隘、安全的變化,看似可信但缺乏想像力。要求同一提示的十個變化,你會得到本質上同一影像的細微重排,而非真正多元的創作。

來自頂級AI研究機構的團隊,由Omer Dahary、Benaya Koren、Daniel Garibi和Daniel Cohen-Or領導,有個解決方案。他們引入「脈絡空間排斥」—一個技術,能推動擴散模型朝向多元結果,同時保持品質和語義對齐。這項研究已有條件地被電腦圖學最高殿堂SIGGRAPH 2026接受。

影像生成中的多樣性問題

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。

不會寄垃圾信,隨時可取消。

擴散模型透過反覆精煉隨機雜訊成結構化影像,由文字嵌入引導。在每個步驟,它們根據當前狀態和文字條件信號預測下一個精煉步驟。給定相同隨機種子,這個過程是確定的,所以多樣性需要多個種子或明確鼓勵變化的機制。

簡單地變化隨機種子會產生變化,但這些變化很膚淺—不同隨機雜訊通道導致略微不同的像素值,同時保留整體結構。模型迅速落定在它的「最愛」解決方案,次要擾動無法將它推往別處。

這發生是因為學到的分數函數(預測精煉方向的網路)有強大吸引子—特定配置在訓練資料中感覺自然。「狗」的提示會吸引解決方案朝向某些狗姿勢、顏色和背景,因為那些在訓練中統計常見。

對抗這個現象需要在正確時點介入:在模型編碼語義資訊之後(所以輸出仍忠於提示),但在完全承諾特定解決方案之前(所以替代方案仍然可能)。時機是一切。

脈絡空間排斥如何運作

研究者的洞察優雅而簡單:在不同生成軌跡間應用排斥,但在Transformer的注意力通道中進行,而非在像素空間。這避免了基於軌跡方法(如MPS)的計算開銷。

在前向傳遞中,當文字條件豐富新興影像結構時,資訊區塊開始融入語義內容。與其讓這些區塊收斂到預設解決方案,排斥機制溫和地推動區塊朝向不同結果。

機制即時運作,新增最小計算開銷—對實務部署至關重要。與需要重新採樣或軌跡引導的方法不同,脈絡排斥即使在犧牲推論速度的蒸餾模型和「Turbo」變體上也能運作。這非常重要,因為快速推論現在是商業影像生成的必需品。

這對真實系統的意義

先前的多樣性增強方法在生產環境常失敗。有些需要架構改變(與現有模型不相容)。有些施加沉重的計算成本(10-50%推論時間開銷)。有些明確新增雜訊或偽影,降低視覺品質來增加變化。

脈絡排斥解決這些限制。它是外掛,適用於任何擴散Transformer架構。它新增可忽略的計算成本。最關鍵的是—它不需要犧牲視覺保真度或語義對齐。影像保持高品質且忠於提示。

對於創意專業人士,這意味著能從單個提示生成真正不同的設計方向,無需手動重新提示或等待多個推論執行。對於構建這些產品的AI公司,這意味著更好的用戶體驗,沒有部署困擾。

技術機制

該方法識別Transformer中應用文字條件的區塊,然後應用排斥損失,對不同去噪步驟的相似啟動值施加懲罰。這推動模型朝向不同解決方案軌跡。

關鍵洞察是在注意力通道空間(Transformer計算的中間特徵)運作,而非像素或潛在空間。像素空間排斥很慢且降低品質(你在對抗模型的學到偏好)。潛在空間排斥需要早期承諾解決方案方向。注意力空間排斥是完美中點:它影響高層語義決策,無需限制低層細節。

排斥是溫和的—作者使用軟懲罰,非硬約束。這讓模型自然調整,而非被強制進入尷尬、視覺不同但不連貫的變化。結果感覺像模型做出思慮周密的不同選擇,而非被人為推動。

實驗驗證

測試顯示脈絡排斥成功增加多樣性指標,同時保持或改善品質分數。用戶研究(永遠是真實測試)確認生成的變化顯現更視覺不同和創意差異,不只技術上多樣。

方法在不同模型規模和架構上運作,暗示原則一般化。即使在蒸餾模型(為速度壓縮)上,多樣性也大幅改善—關鍵實務發現,因為生產系統偏好快速推論。

特別令人印象深刻的是在「具挑戰性」提示上的表現—那些自然推動模型朝向模式崩潰的提示(常見審美方向、流行風格)。在這些提示上,脈絡排斥見到最大收益,防止齊一化而無損提示遵循。

對未來生成模型的啟示

這項工作暗示更廣泛的原則:生成模型的多樣性不需要根本性演算法改變。它需要尊重生成過程並在正確抽象層級介入。像素級控制太粗。語義級干預太鈍。中級表示控制是完美中點。

作者方法暗示未來在生成控制其他方面的工作。類似的注意力空間技術能改善多角色場景的連貫性嗎?強化長序列的風格一致性嗎?原則—在中級表示干預—可能廣泛應用。

也有模型設計的教訓。如果簡單的注意力空間排斥顯著改善多樣性,或許自然鼓勵多元注意力模式的架構選擇能改善生成品質上游。這可能推動未來Transformer設計朝向內在阻止模式崩潰的機制。

侷限與開放問題

方法需要調整排斥強度超參數—太弱多樣性收益消失,太強影像變得視覺不同但失去連貫性。論文展現這個權衡,但生產系統需要每個用例的仔細校準。

也有一般化問題:脈絡排斥對分佈外提示有幫助嗎?描述模型鮮少見過概念的提示?早期結果暗示是,但這值得深入調查。

產業影響

AnthropicOpenAIStability AI這樣的公司在積極追求影像品質和多樣性改善。脈絡排斥自然融入這個軌跡。它不是範式轉變,但它是務實的進步,適用於現有部署。

該技術對開源模型特別有價值,效率在其中非常重要。如果脈絡排斥能作為Stable Diffusion等現有模型之上的外掛實作,研究社群獲得改善的即時工具。

未來展望

論文代表對常見問題的成熟方法:生產模型運作良好但缺乏風格。與其重新設計整個生成流程,作者找到一個外科手術式介入,改善結果。這種系統級思維—找到在現有限制內運作的槓桿點—日漸定義實務AI進展。

對於未來研究,自然問題是:我們能自動做這個嗎(學習排斥強度而非手動調整)?我們能將相似原則應用到其他生成瓶頸嗎?注意力空間干預能解鎖其他改善嗎?

對於使用文字轉圖像模型的從業者,含義很清楚:生成多樣性是可修復的,修復正在到來。預期未來模型發布強調不僅品質和速度,還有創意靈活性—探索提示的真正不同詮釋的能力。脈絡排斥展示一個有希望的前進路徑。

要瞭解詳情,探索arXiv上的完整論文、追蹤SIGGRAPH 2026技術論文,並關注擴散模型多樣性最新研究。與生成模型中的模式崩潰的連接深厚,為未來創新提供豐富領土。