這篇文章可以讓大家更好的了解AI繪畫如何發展到今天的,作為一個科普文,里面不涉及任何高深的技術點。
AI生成繪畫本來是一個特別小眾的領域,但是在今年越來越多圈子外的人都已經開始了解和使用它。那么今天我想帶大家一起回顧一下AI繪畫是如何開始的,又是怎么在今年突然出圈?
我們幾乎每個人都會說話,但是只有極少數的一部分人會畫畫,我們管這一小部分會畫畫的人叫畫師。畫畫在大家眼里是一件需要天賦和長期艱苦訓練的事情,很多人從小就接受美術訓練,花了長達7~8年的時間可能才可以達到一個及格的水平。
用midjouney生成的蒸汽朋克貓咪
緣起:2015年 用文字畫畫
這件事的源頭得從7年前,2015年開始說起,那一年出了一項人工智能的重大進展——智能圖像識別。機器學習可以標記圖像中的對象,然后他們還學會了將這些標簽放入自然語言描述中去。
這件事讓一組研究員產生了好奇。如果把這個過程翻轉過來會怎么樣?
我們可以把圖像轉換成文字,那么我們是否同樣可以把文字轉換成圖像?
這是一項異常艱巨的工作,它跟你從搜索引擎上用文字搜索圖像完全不一樣。他們希望用文字去生成那些這個世界上沒有的圖像。
于是他們向計算機模型詢問了一些他們從未見過的東西。舉個例子,你見過的所有的校車都是黃色的,那么如果你寫紅色或者綠色的校車,它真的會嘗試生成綠色么?它真的做到了。
這是一個32X32像素的小圖片,糊的你幾乎分辨不出來這是什么東西,但是這是一切的開始。這些研究人員在2016年的論文顯示了未來的無限可能。
而現在未來已來。
2021年 Dalle 與 開源社區的程序員們
openAI與它并不open的Dalle
讓我們把時間倒回去一年,回到2021年一月。一家叫openAI的人工智能公司宣布了dalle,他們聲稱可以從任何文字中創建圖像。他們今年4月公布了dalle2,生成的圖像更加的逼真和精確了。而且還可以對這些圖像進行無縫編輯。
但是openai一直都沒有公開dalle的算法和模型。直到現在,哪怕dalle2都開始商用了,它的限制仍然很多。
AI開源社區
所以在過去的一年里,一個由獨立開發人員組成的開源社區,根據現有的所有已知的技術模型,做了各種各樣的開源文本圖像生成器。
在這個時期我把它稱之為colab時期,這些免費開源的生成器都需要你在google colab上才可以使用,需要一定程度的代碼知識,而且生成的圖像還非常的抽象,像素也比較低。我周圍也有幾個朋友在21年開始玩AI繪畫,但是都局限在非常非常小的圈子。
2021年11月的時候一款叫dream by wombo的APP出現了,它把AI的生成器封裝到了APP里,這個舉動讓所有人都可以零學習成本的使用它。所以它從2021年底一直從國外火到了國內。
但是因為模型算法的局限性,它生成的圖像質量還是比較低的,但是已經引起了大家的好奇心。
2022年:AI繪畫程序爆炸式增長
在2022年的2月,由somnai等幾個開源社區的工程師做了一款叫disco diffusion的AI圖像生成器。從這款圖像生成器開始,AI繪畫得到了質的飛躍。而且它建立了完善的幫助文檔和社群,disco diffusion本身也擁有非常完善強大的功能。
同樣是賽博朋克城市的提示詞,DD與dream的對比
3月國內開始出現disco diffusion的教程,隨著這些教程的不斷完善完善。越來越多的人開始使用disco diffusion創作作品,但是DD有一個致命的缺點就是它生成的畫面都十分的抽象,這些畫面用來生成大場景和抽象畫還不錯,但是幾乎無法生成具象的人或者物。
3月?midjouney
這個時候一款叫midjouney的AI繪畫生成工具出現了。
3月14日,mid開始內測,這是一款由disco diffusion的核心開放人員參與開發的AI生成器,mid與dd不同,它是一款搭載在discord上的聊天機器人程序,不需要之前繁瑣的操作,也沒有DD十分復雜的參數調節,你只需要向mid輸入文字就可以生成圖像。而且mid的模型更加的精準,dd只能生成抽象的風景,但是mid在人像上也能表現的比較好。
而且midjouney最大的優勢其實并不是它的生成效果多么優秀,而是在于它是一個社區形式的產品。跟DD每個人都是獨立創作不同,在mid上所有人的作品都是公開的,你用的提示詞和相關的作品都是對社區里所有人可見的,你再也不需要問其他人這幅畫用了什么提示詞?這個特性讓社區每天都不斷的涌現越來越多優秀的作品和創意,每個人都可以盡情的學習他人的作品。
我把它稱之為養蠱式創作。
4月?Dalle2
4月10日,dalle2開始內測,dalle2可以生成非常精確復合邏輯的圖像。它還可以根據提示詞來重新修改編輯你的圖片。
dalle2的跟之前的AI生成器都不同,無論是DD還是mid,我們都是可以看出是AI生成的,dalle2的生成圖你已經無法跟人類的作品做區分了。
這是我用dalle2創作的畫,是由左邊的提示詞直接生成的。如果我不做說明,這幅畫跟正常的人類作品幾乎沒有區別。
它還可以直接生成非常有質感的3D圖像,這是我用dalle2直接生成的3D金屬質感的十二生肖圖標。
它還可自動補充無限拓展圖像,所以特別適合用來生成無限流動畫。類似這種。
看到這里大家可能覺得dalle2已經很完美了,但是其實直到今天,dalle2的相關技術都是對公眾封閉的,而且dalle2的使用也需要申請,而且通過率很低。dalle2的研發人員覺得他們做了一款很可能用來作惡的工具,所以它設置了非常多的限制,死亡,色情,人臉,暴力,公眾的人物等等都是禁止在dalle2上使用的。
跟openai這個名字不同,dalle2一點都不open。
dalle2的擔憂是多余的么?不是的,這個工具確實非常可怕,不法分子可以利用它來輕松生成各種各樣的假圖片。但是歷史的車輪會因為dalle2的這些限制停下來么?
7月?Stable diffusion
7月29日 一款叫 SD的AI生成器開始內測,它可以生成媲美dalle2的精確度的圖像。共分 4 波邀請了 15000 名用戶參與了內測。只用了十天它的活躍數據已經到了每天一千七百萬張。
SD的背后是一家英國的人工智能方案提供商,它的slogan就是“ai by the people,for the people”。跟dalle2的封閉不一樣,這家公司十分推崇開源。
所以在8月22號,他們內測剛開始二十多天,SD正式宣布開源,這意味著所有人都通過它開源的技術,在本地使用SD生成自己想要的圖像。SD開源屬性讓它在短短的一個月跟各種各樣的工具結合。甚至mid也使用了開源的sd模型,并且得到了巨大的反響,這個功能只內測了24小時,但是是目前mid社區里呼聲最大的。24小時里mid結合SD生成了大量的作品。
國外藝術家用SD生成的畫作,藝術效果上已經超越了dalle
除此之外它還被做成了figma和ps的插件,在figma的插件里你只需要簡單的畫出草圖,就能根據文字生成非常完整的設計稿。在ps里面你可以無縫拼接補完圖像。可以說現在的SD把前面所有的AI生成工具的功能全部結合到了一起,然后還把它開源了。
AI繪畫發展時間線
現在,我們來回顧一下這一切,2015年的時候,一群好奇的工程師,把圖像識別生成文字這個過程翻轉過來了,他們生成了最開始的32像素的小圖片,在經過了漫長的六年的緩慢發展后,2021年openai和一群開源工程師分別用他們自己的方式完善算法和模型。到了今年2022年,這個技術突然就爆發了,對于國內的大部分接觸AI繪畫人來說只有短短的四個月,這四個月里發生了mid內測,mid公測,dalle2內測,dalle2商用,sd內測,sd開源等等,還有無數的AI繪畫小工具。
哪怕是像和菜頭這樣完全繪畫圈外的人也在不斷的討論和使用AI繪畫的功能。
很多創意相關的人已經開始用AI輔助了,我的一個朋友說,他的老板讓他不要對外說他們的工作中加入了AI輔助。
“不要跟別人說我們的工作中使用了AI輔助。”
現在已經有大量的創意人和公司在使用AI繪畫輔助,但是他們又不希望有太多的人知道。還有大量的創意與藝術行業的從業者內心十分抵觸這項技術,覺得它根本就不應該出現。在8月15號就發生過一件非常有趣的事件,SD的推特賬號突然掛了,因為被大量藝術家舉報,SD的創始人在社群里表達了他對這件事的看法,他說:他們在嫉妒AI畫的比他們好。不過這件事最后被證實為烏龍,因為這個賬號其實只是個粉絲賬號,并不是官方賬號。
歷史的車輪呼嘯而過,是選擇跳上這輛車,還是停留在原地,都是個人的選擇。但是無論你是否參與,它都不會因為你的看法而停下來。
內容經授權轉載自公眾號“非科班設計”
精選文章:
非特殊說明,本文版權歸原作者所有,轉載請注明出處:大作網