近期,基于文本的圖像生成模型已能根據自然語言描述自動創建高分辨率、高質量的圖像。然而,當輸入"創意"這類抽象文本時,即便是Stable Diffusion這樣的典型模型,其生成真正具有創造力圖像的能力仍顯不足。
韓國科學技術院(KAIST)的研究人員開發了一項新技術,無需額外訓練即可提升Stable Diffusion等文本生成圖像模型的創造力,使AI能夠設計出突破常規的創意椅子造型。
KAIST金在哲人工智能研究生院的崔宰碩教授團隊與NAVER AI實驗室合作,開發了這項無需額外訓練即可增強AI生成模型創造力的技術。該研究已發布于arXiv預印本服務器論文鏈接,代碼開源在GitHub。
崔教授團隊通過放大文本生成圖像模型內部特征圖的技術來增強創意生成能力,同時發現模型淺層模塊對創意生成起關鍵作用。他們證實:將特征圖轉換至頻域后,若放大高頻區域數值會導致噪點或色彩碎片化。
因此,研究團隊證明放大淺層模塊的低頻區域能有效提升創意生成效果。
研究團隊將原創性和實用性定義為創造力的兩大核心要素,提出了一種能自動選擇生成模型各模塊最佳放大值的算法。通過該算法,適當放大預訓練Stable Diffusion模型的內部特征圖,無需額外分類數據或訓練即可增強創意生成能力。
研究團隊通過多維度指標定量證明,其算法生成的圖像比現有模型更具新穎性,同時未顯著犧牲實用性。特別是在SDXL-Turbo模型(為提升Stable Diffusion XL生成速度開發的版本)中,該技術有效緩解了模式崩潰問題,顯著提升了圖像多樣性。用戶研究表明,相比現有方法,人類評估者也認為其新穎性與實用性的平衡度有顯著改善。
論文共同第一作者、KAIST博士生韓知妍和權多熙表示:"這是首個無需重新訓練或微調即可增強生成模型創意能力的方法。我們證明通過特征圖操控,能激發已訓練AI生成模型中潛在的創造力。"
她們補充道:"這項研究使得僅用文本就能從現有訓練模型中輕松生成創意圖像。預計將為創意產品設計等領域帶來新靈感,推動AI模型在創意生態中的實用化應用。"
該研究由KAIST金在哲人工智能研究生院的博士生韓知妍和權多熙共同完成,已于6月16日在計算機視覺與模式識別國際會議(CVPR)上發表。
精選文章: