關于 AI 繪畫,過去已經談過一次。
相關觀點至今沒變,屬于生產工具升級,生產關系暫時不變。這里頭有外行看熱鬧,內行看門道,新手兩邊看的情況。當然,還有無數好事者的吶喊助威,各懷心思。Ai 繪畫目前更像一個人工智能玩具、素材制作、靈感參考、繪畫新工具的存在。我們要敬畏它,學習它,運用它,但不要過分焦慮。
這里頭有兩個重要問題有待解決,其一是版權。如果 AI 生成圖像跟成名藝術家過于相像,容易形成抄襲一類維權糾紛。這里頭容易埋坑,就是一但立法跟上,可能會對過去應用進行責任追討,律師事務所自然喜聞樂見,摩拳擦掌。其二是如果不用以圖生圖方式,其實主流的兩大 AI 工具 MidJourney 與 Stable Diffusion 都有較明顯的風格化問題,容易一眼看穿出身,形成我們設計圈常說的素材感很強,模板感很強的感受。比如我看目前朋友圈的大量分享確實一眼就知道 AI 出品,有時候兩眼。
看多了,新鮮感就會消退,而且就實際商業應用而言,受不受歡迎不好說。免費做應該還行,甲方如果付費了應該并不希望你用 AI 弄一套東西給他。
但 AI 進步實在太快,以上說法也許很快不能作數,因此文章有效期 7 天。今天的話題并非要進一步評價 AI 繪畫,而是跟大家講述它的發展史。從歷史角度,還原一下妖怪的誕生。
AI繪畫教程:
故事,要從 70 年代說起。
這段歷史,幾乎每個人都會從一位英國藝術家說起,此人名為科恩(Harold Cohen)。
生于 1928 年的科恩在 2016 年去世,一生致力于研究如何采用計算機程序創作藝術。
科恩早年就學藝術,隨后再學編程,文理兼修,打通任督二脈,也就是藝術與科技的屏障。
因此,1972 年在他手上誕生了“亞倫”(AARON)程序。
這個程序被視為 AI 繪畫始祖,個人認為相對牽強。
當然我所謂的牽強要看怎么定義“AI 繪畫”,就目前 AI 繪畫的形態來看,“亞倫”更像打印機。
因為“亞倫”創作的真的是畫,畫在紙上那種(或者畫布)。由于“亞倫”至今不開源,而且科恩已經去世,其作畫原理細節目前是個迷。
但按理解,就是通過編寫好的程序指導機械化操作,跟如今工廠的機械臂差不多。
Mac 電腦首次集成可以處理圖像及文字的軟件,繪畫由此真正進入可視化的電腦時代。世界上第一款圖文設計軟件也由蘋果公司開發,隨著 Mac 電腦一起發布,名為“MacPAInt”,(“麥克油漆”)。當年的產品發布會上喬布斯還為大家現場展示過這款軟件繪制的浮世繪圖像,創作者是美國女平面設計師蘇珊·卡雷(Susan Kare)
這其實也可屬于 AI 繪畫歷史的一部分,就是生產工具的升級。當時而言,對繪畫界的震懾威力也不小,大家也很恐慌,很焦慮。傳統畫家都說糟糕了,老子要失業。再然后,默默學習,默默適應,默默發展,默默變成自然。
歷史就是這么有趣。
Mac 之后,科技分別在計算機+互聯網領域奔跑。那時候,我們對科技進步感知其實還不夠明顯。
但從喬布斯 2007 年推出 iPhone 手機后大家就明顯感覺科技發展“提速”了,此后驚喜不斷,高潮迭起,一環扣一環,大家應接不暇。其中,就有不少人在默默耕耘人工智能。
于是乎,重要的拐點發生在 2012 年。
這一年谷歌兩位 AI 大神帶領團隊做了個試驗,耗資 100 萬美元,1000 臺電腦,16000 個 CPU,用時 3 天,基于 Youtube 平臺 1000 萬個貓臉圖片,用深度學習模型程序生成了一個模糊的貓臉。兩位大神分別是華裔人工智能科學家吳恩達跟美國計算機科學家杰夫·迪恩(Jeff Dean)。試驗中生成的貓臉像被揍過一樣,如果不說明,一眼還不容易看出來,但它的誕生注定要寫進歷史。
因為這其實才是 AI 繪畫真正意義上的起點。
這里要用通俗的概念科普下,什么是“深度學習模型”。簡單說來就是需要向這個“模型”大量“投喂”外部標注好的訓練數據,然后讓它根據輸入的預期效果進行反復調整與匹配進行輸出。這樣說吧,蒸汽機剛發明的時候,按燃料熱值產出效率才 3%,“深度學習模型”的產生效率可能只有它的百萬分之一,所以超貴。
但不管如何,貓臉的誕生讓大家備受鼓勵,各路人工智能領域大神開始一路狂飆,悶聲干大事。很快時間就去到 2014 年,加拿大蒙特利爾大學有個爺們提出了“生成對抗網絡”算法進行 AI 繪畫,簡稱“GAN”。
GAN 的原理是它擁有兩個深度神經網絡模型,一個叫生成器(Generator)一個叫判別器(Discriminator)。
為了方便理解,可以做個比喻,生成器就像乙方,負責做圖,判別器就像甲方,負責說不行。每次乙方做完一張圖出來甲方就說不行,要改,乙方改完出來甲方還說不行,繼續改。如此循環上萬次(很短時間內發生),直到雙方筋疲力盡,甲方決定妥協,乙方也準備不要尾款算了,然后就輸出一個最終結果。坦白說,GAN 的輸出效果已經讓人驚艷,一度成為 AI 繪畫的主流方向。但缺點是非常費硬件(顯卡),出圖過程經常直接黑屏,而且它對局部圖像的理解能力差,很難局部修改,圖片分辨率也較低。
到了 2015 年,谷歌推出過一個叫“深夢”(Deep Dream)的圖像生成工具,這些畫作全部都像有一堆疙瘩,生成痕跡明顯。但也打出 AI 繪畫旗號,而且還專門辦了個展,其實比較出戲,這里不多聊。
同在這一年,一種重要的人工智能技術也誕生,就是“智能圖像識別”。
意思是計算機可以運用語言去描述一張圖片,就像父母拿著卡片問 2 歲寶寶這啥,寶寶會答:大象。
這個技術當然更先進些,比如你給一張高啟強的圖片它識別,它會給出一系列標簽,比如:男性、黃種人、中年、老大之類。
這跟 AI 繪畫有什么關系呢?
就是有研究人員開始根據技術反過來想,如果給它文字標簽描述,是否也可以生成圖片呢?結果模型真的能根據文字生成一堆小圖片,如此一來,這個邏輯成為 AI 繪畫的新研究方向。
2015 年之后其實還有很多這方面不同的嘗試與研究,但普遍屬于上述技術的不同優化。
真正讓 AI 迎來質的飛躍是在 2021 年,網紅人工智能公司 OpenAI 推出了 AI 繪畫產品 DALL· E。
這個版本的出圖水平還很一般,但已經完全是根據文字提示來進行作畫了。
2022 年,DALL·E-2 版本推出,水平大幅提升,AI 繪畫就是這個階段開始獲得廣泛關注的。而且更關鍵的是 OpenAI 公司開源了 DALL· E 的深度學習模型 CLIP(Contrastive Language-Image Pre-TrAIning)。
CLIP 模型訓練 AI 同時做兩件事情,其一是理解自然語言,其二是視覺分析,然后通過不停訓練來優化兩者對應程度,比如將馬桶跟馬桶圖像完全對應上,如果馬桶對了茅坑就得再來,最后形成“咒語繪畫”這樣的局面。
問題來了,過去的 AI 繪畫模型其實也有干這件事情,為什么 CLIP 如此優秀?明顯,就是 CLIP 做訓練的量遠遠超過過去任何模型,據說大致是 40 億個以上的“文本-圖像”數據,而且跟過去其它模型不同的是這些數據是免費的,并非人力成本天價的標注圖像,因為雞賊的 CLIP 采用的居然是廣泛散布在互聯網上的各種圖片,這些互聯網圖片一般都帶有各種文本描述,比如標題、注釋,甚至標簽等等,這些天然資源就是最佳的訓練樣本,果然是思路一變,市場一片,隨后就很快出現不少超級厲害的應用工具。
比如 2022 年 2 月,SomnAI 等幾個開源社區做了一款 AI 繪圖生成器——Disco diffusion,2022 年 3 月份,由 Disco diffusion 的核心人員參與建設的 AI 生成器 Midjouney 也正式發布,Disco diffusion 跟 Midjouney 問世后都在不停進步。
2022 年 8 月時候,美國游戲設計師杰森(Jason Allen) 就憑借一幅 AI 繪畫作品《太空歌劇院》(Théatre D'opéra Spatial),斬獲美國科羅拉多州博覽會美術競賽一等獎。
當杰森公布這是一張由 Midjouney 創作的 AI 繪畫作品時,引發了大部分參賽者的憤怒,也引發新一輪針對人工智能技術的討論。再隨后就到了 2023 年,相關發生的事情大家歷歷在目,此處不必重復。
AI 從繪畫進一步拓展到不同領域可以說是必然發生的了。
但關于展望,我感覺應該盡量積極點,就是 AI 技術將被多國聯合馴化,結合到經濟發展中產業化,創造出更多崗位,如同 15 年前不敢想象人居然可以全職就對著手機說話,并且優秀的還賺不少錢。
直播與短視頻產業帶動了很多故事策劃、文案創作、視頻拍攝、特效制作、服裝道具、音視頻硬件、場地租賃等等商業需求,也盤活了過去很多傳統行業。
這些事情是抖音 1.0 無法想象的,他們也許最初只想做一款成功的娛樂應用,而 AI 最初也只是想盡量干出人類能干的事情,更關鍵的是,AI 只能知道過去人類想過什么,永遠不知道人類接下來會想什么。
歡迎關注作者的微信公眾號「設計史太濃」:
復制本文鏈接 文章為作者獨立觀點不代表優設網立場,未經允許不得轉載。
發評論!每天贏獎品
點擊 登錄 后,在評論區留言,系統會隨機派送獎品
2012年成立至今,是國內備受歡迎的設計師平臺,提供獎品贊助 聯系我們
標志設計標準教程
已累計誕生 729 位幸運星
發表評論 為下方 2 條評論點贊,解鎖好運彩蛋
↓ 下方為您推薦了一些精彩有趣的文章熱評 ↓