回望 AI 大爆炸的前夜,他們是這樣預(yù)測(cè)未來的

這篇文章發(fā)布于 2022 年 9 月,在 GPT-3.5 即將引起全球關(guān)注的前夜。如今 AI 的生態(tài)日新月異,兩年后的我們?cè)倩仡欉@篇文章時(shí),仍能深切感受到,最初的探索者對(duì)生成式 AI 未來發(fā)展所構(gòu)想的藍(lán)圖如此清晰而具有前瞻性。在大模型應(yīng)用日益豐富多彩的當(dāng)下,這篇文章可以是理解和探索生成式 AI 潛力的寶貴資料。

AI 最新動(dòng)態(tài):

人類擅長(zhǎng)分析事物,機(jī)器則更勝一籌。無(wú)論是欺詐或垃圾郵件檢測(cè)、預(yù)測(cè)快遞的預(yù)計(jì)到達(dá)時(shí)間,還是預(yù)測(cè)下一個(gè)要向您展示的 TikTok 視頻,機(jī)器都能從數(shù)據(jù)中找出模式,以滿足多種用途的需要。它們?cè)谶@些任務(wù)中變得越來越聰明。這就是所謂的 "分析型人工智能 "或傳統(tǒng)人工智能。

然而人類不僅僅擅長(zhǎng)分析事物——我們也擅長(zhǎng)創(chuàng)造。我們編寫詩(shī)歌,設(shè)計(jì)產(chǎn)品,制作游戲,編寫代碼。直到不久前,機(jī)器還無(wú)法在創(chuàng)造性工作上與人類競(jìng)爭(zhēng)——它們只能從事分析和重復(fù)性的認(rèn)知?jiǎng)趧?dòng)。但現(xiàn)在,機(jī)器開始擅長(zhǎng)于創(chuàng)造有意義且美觀的事物。這個(gè)新的類別被稱為“生成性人工智能”,這意味著機(jī)器是在創(chuàng)造新事物,而不是分析已經(jīng)存在的事物。

生成式人工智能不僅速度更快、成本更低,而且在某些情況下比人類手工創(chuàng)作的效果更好。從社交媒體到游戲、從廣告到建筑、從編碼到平面設(shè)計(jì)、從產(chǎn)品設(shè)計(jì)到法律、從市場(chǎng)營(yíng)銷到銷售,每一個(gè)需要人類創(chuàng)造原創(chuàng)作品的行業(yè)都將面臨革新。某些功能可能會(huì)被生成式人工智能完全取代,而另一些功能則更有可能在人類與機(jī)器之間緊密的創(chuàng)意迭代周期中茁壯成長(zhǎng)--但生成式人工智能應(yīng)該能為廣泛的終端市場(chǎng)帶來更好、更快、更便宜的創(chuàng)作。理想的情況是,生成式人工智能會(huì)將創(chuàng)造和知識(shí)性工作的邊際成本降至幾乎為零,從而產(chǎn)生巨大的勞動(dòng)生產(chǎn)力和經(jīng)濟(jì)價(jià)值,并相應(yīng)提升市場(chǎng)價(jià)值。

生成性人工智能(Generative AI)所關(guān)注的領(lǐng)域——知識(shí)工作和創(chuàng)造性工作——包括了數(shù)十億的工作者。生成性AI可以使這些工作者的效率和/或創(chuàng)造力至少提高10%:他們不僅工作速度更快、更高效,而且比以前更有能力。因此,生成性AI具有創(chuàng)造數(shù)萬(wàn)億美元經(jīng)濟(jì)價(jià)值的潛力。

一、變革為什么現(xiàn)在發(fā)生?

與更廣泛意義的人工智能類似,我們非常想知道生成式 AI 的轉(zhuǎn)折點(diǎn)為何是此刻?可能是因?yàn)楦玫哪P汀⒏嗟臄?shù)據(jù)、更強(qiáng)的算力。這一領(lǐng)域的變化之快超出了我們的想象,但我們還是應(yīng)該大致回顧一下最近的歷史,以了解當(dāng)前的背景。

第一波浪潮:小模型稱霸的階段(2015 年之前)

5 年前,小型模型被認(rèn)為是理解語(yǔ)言的 "最先進(jìn)技術(shù)"。這些小型模型在分析任務(wù)方面表現(xiàn)出色,被部署用于從交貨算時(shí)間預(yù)測(cè)到欺詐分類等工作。然而,對(duì)于通用生成任務(wù)來說,它們的表現(xiàn)力還不夠。生成人類水平的文字或代碼仍然是一個(gè)夢(mèng)想。

第二波浪潮:規(guī)?;?jìng)賽階段(2015-今天)

谷歌研究院的一篇具有里程碑意義的論文(Attention is All You Need)描述了一種用于自然語(yǔ)言理解的新型神經(jīng)網(wǎng)絡(luò)架構(gòu),這種架構(gòu)被稱為 Transformers,這種架構(gòu)能夠生成更高質(zhì)量的語(yǔ)言模型,同時(shí)具有更強(qiáng)的并行處理能力,并且顯著減少了訓(xùn)練時(shí)間。這些模型屬于少樣本學(xué)習(xí)者,可以較為容易地針對(duì)特定領(lǐng)域進(jìn)行定制。

回望 AI 大爆炸的前夜,他們是這樣預(yù)測(cè)未來的

隨著人工智能模型逐漸變大,它們已開始超越人類的性能基準(zhǔn)了。資料來源 ? 經(jīng)濟(jì)學(xué)人報(bào)業(yè)有限公司,倫敦,2022 年 6 月 11 日

果然,隨著模型越來越大,它們開始達(dá)到人類水平,然后抵達(dá)近乎超人一般的水平。從 2015 年到 2020 年,用于訓(xùn)練這些模型的計(jì)算量增加了 6 個(gè)數(shù)量級(jí),其結(jié)果超過了人類在手寫、語(yǔ)音和圖像識(shí)別、閱讀理解和語(yǔ)言理解方面的性能基準(zhǔn)。OpenAI 的 GPT-3 脫穎而出:該模型的性能比 GPT-2 有了巨大飛躍,并在 Twitter 展示了引人注目的 demo。

回望 AI 大爆炸的前夜,他們是這樣預(yù)測(cè)未來的

盡管基礎(chǔ)研究取得了很大進(jìn)展,但這些模型并未普及。它們體積龐大,難以運(yùn)行(需要 GPU 協(xié)調(diào)),不能獲得廣泛的訪問(不可用或僅為封閉測(cè)試版),而且作為云服務(wù)使用成本高昂。盡管存在這些限制,但最早的生成式人工智能應(yīng)用已經(jīng)開始進(jìn)入戰(zhàn)場(chǎng)。

第三波浪潮:更好、更快、更便宜(2022 年之后)

計(jì)算成本越來越低。擴(kuò)散模型(diffusion models)等新技術(shù)降低了訓(xùn)練和運(yùn)行推理所需的成本??茖W(xué)界繼續(xù)在此基礎(chǔ)上,開發(fā)更好的算法和更大的模型。開發(fā)人員的訪問權(quán)限從封閉測(cè)試版擴(kuò)展到開放測(cè)試版,甚至在某些情況下,直接開放了源代碼。對(duì)于一直無(wú)法訪問 LLMs 的開發(fā)人員來說,探索和應(yīng)用開發(fā)的閘門現(xiàn)在已經(jīng)打開,各種應(yīng)用開始涌現(xiàn)。

第四波浪潮:殺手級(jí)應(yīng)用出現(xiàn)(就是現(xiàn)在)

隨著平臺(tái)層的穩(wěn)固,模型不斷變得更好、更快、更便宜,并且模型訪問趨于免費(fèi)和開源,應(yīng)用層的創(chuàng)造力已經(jīng)成熟。正如移動(dòng)技術(shù)通過 GPS、攝像頭和隨身熱點(diǎn)等新功能釋放出新型應(yīng)用一樣,我們預(yù)計(jì)這些大型模型將推動(dòng)新一輪的生成式 AI 的應(yīng)用。正如十年前移動(dòng)技術(shù)的拐點(diǎn),為少數(shù)殺手級(jí)應(yīng)用開辟了市場(chǎng)一樣,我們預(yù)計(jì)生成式 AI 也將出現(xiàn)殺手級(jí)應(yīng)用。競(jìng)爭(zhēng)已經(jīng)開始。

二、市場(chǎng)格局

以下示意圖,繪制了將支持每種類別的模型和相應(yīng)的平臺(tái),以及可能在該平臺(tái)上構(gòu)建的應(yīng)用程序類型。

回望 AI 大爆炸的前夜,他們是這樣預(yù)測(cè)未來的

大模型

  1. 文本生成是最先進(jìn)的領(lǐng)域。然而,自然語(yǔ)言很難掌握,而且輸入語(yǔ)言的質(zhì)量也至關(guān)重要。如今,這些模型在一般的中/短文寫作方面表現(xiàn)尚可(但即便如此,它們也通常需要迭代)。隨著時(shí)間的推移,模型在不斷被完善,我們有望看到更高質(zhì)量的輸出效果、更長(zhǎng)篇的內(nèi)容以及更好的特定垂直領(lǐng)域的調(diào)整。
  2. 代碼生成很可能在短期內(nèi),對(duì)開發(fā)者的工作效率產(chǎn)生巨大影響,正如 GitHub CoPilot 所展示的那樣。它還將使非開發(fā)人員更容易去創(chuàng)造使用代碼。
  3. 圖片生成是最近才流行的玩法(當(dāng)時(shí)是2022年,注意),但它已經(jīng)開始病毒傳播了:在 Twitter 上分享生成的圖片比分享文字有趣得多!我們看到了具有不同美學(xué)風(fēng)格的圖像模型的出現(xiàn),以及編輯和修改生成圖像的不同技術(shù)。
  4. 語(yǔ)音合成已經(jīng)存在了一段時(shí)間(Hey Siri!),但消費(fèi)者和企業(yè)級(jí)應(yīng)用才剛剛起步。對(duì)于電影和播客等高端應(yīng)用而言,要想獲得聽起來不機(jī)械的一次性人類語(yǔ)音質(zhì)量,標(biāo)準(zhǔn)還是相當(dāng)高的。但是,就像圖像一樣,今天的模型為進(jìn)一步完善,為最終輸出實(shí)用 APP 提供了一個(gè)起點(diǎn)。
  5. 視頻和 3D 模型生成正在迅速崛起。大模型有可能進(jìn)入并開拓電影、游戲、VR、建筑和實(shí)體產(chǎn)品設(shè)計(jì)等大型創(chuàng)意市場(chǎng),大家對(duì) AI 在這一塊的潛力感到興奮。研究機(jī)構(gòu)正在發(fā)布基礎(chǔ)的 3D 與視頻生成的大模型。
  6. 其他領(lǐng)域:在許多垂直領(lǐng)域中,大家會(huì)都在進(jìn)行基礎(chǔ)模型的研發(fā),這些領(lǐng)域包括音頻和音樂、生物學(xué)和化學(xué)(有人對(duì)生成蛋白質(zhì)和分子感興趣嗎?實(shí)際上在 2024 年 AI 已經(jīng)可以進(jìn)行基因編輯的生成了)。

下圖展示了我們可能期望看到的基本模型的發(fā)展,以及相關(guān)應(yīng)用成為可能的時(shí)間表,2025 年及以后只是猜測(cè)。

回望 AI 大爆炸的前夜,他們是這樣預(yù)測(cè)未來的

下圖則是 2023 年已經(jīng)出現(xiàn)的的生成式人工智能應(yīng)用圖景

回望 AI 大爆炸的前夜,他們是這樣預(yù)測(cè)未來的

資料來源 ? 2023 Battery Ventures State of Enterprise Tech Spending Report

AI 應(yīng)用

這里列出了一些我們感到興奮的應(yīng)用程序。實(shí)際上,我們感興趣的應(yīng)用遠(yuǎn)遠(yuǎn)超出了這里所能展示的范圍,我們對(duì)各個(gè)項(xiàng)目的創(chuàng)始人和開發(fā)者們構(gòu)想出的創(chuàng)新應(yīng)用感到非常著迷。

  1. 文案寫作:隨著銷售和營(yíng)銷策略以及客戶支持對(duì)個(gè)性化網(wǎng)頁(yè)和電郵內(nèi)容需求的增長(zhǎng),語(yǔ)言模型的應(yīng)用變得尤為重要。這些內(nèi)容的短小精悍和風(fēng)格化特性,加上團(tuán)隊(duì)面臨的時(shí)間和成本壓力,將推動(dòng)對(duì)自動(dòng)化和增強(qiáng)型解決方案的需求。
  2. 特定垂直領(lǐng)域的寫作助手:當(dāng)今的大多數(shù)寫作助手都是通用型的;我們認(rèn)為,為特定終端市場(chǎng)構(gòu)建更優(yōu)秀的生成應(yīng)用存在巨大的機(jī)會(huì),從法律合同撰寫到編劇等。產(chǎn)品的差異化在于針對(duì)特定工作流程的模型微調(diào)和用戶體驗(yàn)設(shè)計(jì)。
  3. 代碼生成:當(dāng)前的應(yīng)用程序?yàn)殚_發(fā)人員提供了更強(qiáng)動(dòng)力,使他們的工作效率大大提高:GitHub Copilot 目前為安裝了它的項(xiàng)目,生成了近 40% 的代碼。但更大的機(jī)遇可能是向消費(fèi)者開放代碼能力,學(xué)習(xí)提示詞可能會(huì)成為最終的高級(jí)編程語(yǔ)言。
  4. 藝術(shù)生成:現(xiàn)在,整個(gè)藝術(shù)史和流行文化,都被作為數(shù)據(jù)喂給了這些大型模型,任何人都可以隨意探索從前需要花費(fèi)一生時(shí)間才能掌握的主題和風(fēng)格。
  5. 游戲:理想的情況是,使用自然語(yǔ)言創(chuàng)建可交互的復(fù)雜場(chǎng)景或模型,但是這可能需要一個(gè)漫長(zhǎng)的過程,但在短期內(nèi)有一些更直接、更具可操作性的選擇,例如生成紋理和背景素材。
  6. 媒體/廣告:試想一下,將設(shè)計(jì)工作自動(dòng)化,并為消費(fèi)者實(shí)時(shí)優(yōu)化廣告文案和創(chuàng)意,這個(gè)潛力有多大。多模態(tài)生成(生成包含聲音、圖像、文本的多媒體內(nèi)容)銷售信息和與之互補(bǔ)的視覺效果結(jié)合到一起,就意味著巨大的機(jī)會(huì)。
  7. 設(shè)計(jì):數(shù)字產(chǎn)品和實(shí)體產(chǎn)品的原型設(shè)計(jì),是一個(gè)勞動(dòng)密集型迭代過程。根據(jù)草圖和提示繪制高保真效果圖已經(jīng)成為現(xiàn)實(shí)。隨著三維模型的出現(xiàn),生成式設(shè)計(jì)過程將延伸至制造和生產(chǎn)——從文字到實(shí)物均是如此。你的下一個(gè) iPhone APP 或運(yùn)動(dòng)鞋可能就是由機(jī)器設(shè)計(jì)的。
  8. 社交媒體和數(shù)字社區(qū):用生成工具是否成為展示自我的新方式?隨著消費(fèi)者學(xué)會(huì)在公共場(chǎng)合進(jìn)行創(chuàng)作,像 Midjourney 這樣的新應(yīng)用正在創(chuàng)造新的社交體驗(yàn)。

回望 AI 大爆炸的前夜,他們是這樣預(yù)測(cè)未來的

三、生成式 AI 應(yīng)用剖析

生成式 AI 應(yīng)用將發(fā)展成什么樣子?以下是一些預(yù)測(cè)。

1. 智能和模型微調(diào)

生成式 AI 應(yīng)用建立在 GPT-3 或 Stable Diffusion 等大模型之上。隨著這些應(yīng)用獲得更多的用戶數(shù)據(jù),它們可以對(duì)模型進(jìn)行微調(diào),以便:

  1. 針對(duì)特定問題提高模型質(zhì)量/性能;
  2. 減少模型大小/成本:

我們可以把生成式 AI 應(yīng)用程序看作是一個(gè)用戶界面層和 “小型大腦",它位于大型通用模型 "巨型大腦 "之上。

2. 實(shí)現(xiàn)形式

如今,生成式 AI 應(yīng)用大多以插件的形式,存在于現(xiàn)有的軟件生態(tài)系統(tǒng)中。AI 在你的集成開發(fā)環(huán)境(IDE)中生成可用的代碼,圖像生成在 Figma 或 Photoshop 中應(yīng)用,甚至 Discord 機(jī)器人也成為將生成式 AI 注入數(shù)字/社交社區(qū)的工具。 此外,還有一些獨(dú)立的生成式 AI 網(wǎng)絡(luò)應(yīng)用程序,如用于文案寫作的 Jasper 和 Copy.ai、用于視頻剪輯的 Runway 和用于記筆記的 Mem。

插件可能是開啟你自己的應(yīng)用程序的契機(jī),也可能是解決用戶數(shù)據(jù)和模型質(zhì)量這個(gè)先有雞還是先有蛋的問題的精明方法(你需要通過分發(fā)來獲得足夠的使用率和數(shù)據(jù),以改進(jìn)你的模型;你也需要好的模型來吸引用戶)。我們已經(jīng)看到,這種分發(fā)策略在其他市場(chǎng)類別,如消費(fèi)/社交領(lǐng)域,已經(jīng)取得了成功。

3. 互動(dòng)范式

如今,大多數(shù)生成式 AI 演示都是“一次性”的:你提供一個(gè)輸入命令,機(jī)器立刻生成一個(gè)輸出結(jié)果,你可以選擇保留這個(gè)輸出或者丟棄它再嘗試一次。越來越多的模型正在使用這種迭代模式,你可以利用輸出結(jié)果來修改、完善、提升和產(chǎn)生變化。

如今,生成式 AI 輸出結(jié)果被用作原型或初稿。這些 APP 善于提出多種不同的想法,推動(dòng)創(chuàng)意進(jìn)程(如給 logo 或建筑設(shè)計(jì)提供不同選項(xiàng)),也善于輸出初稿,而這些初稿需要用戶精雕細(xì)琢才能達(dá)到最終狀態(tài)(如博客文章和自動(dòng)生成的代碼)。隨著模型變得越來越智能,依賴于用戶數(shù)據(jù)的部分或許會(huì)減少,我們應(yīng)該期待這些草稿變得越來越好,直到它們好到可以當(dāng)最終的成品來使用。

4. 持續(xù)提升的行業(yè)領(lǐng)導(dǎo)力

最優(yōu)秀的生成式 AI 公司,通過在用戶參與/數(shù)據(jù)與模型性能之間不斷執(zhí)行的飛輪機(jī)制,創(chuàng)造持久的競(jìng)爭(zhēng)優(yōu)勢(shì)。要取得勝利,團(tuán)隊(duì)必須通過以下步驟來啟動(dòng)這一飛輪:

讓用戶全情投入地參與和使用 → 將更多的用戶數(shù)據(jù)和反饋轉(zhuǎn)化為更好的模型性能(改進(jìn)提示、模型微調(diào)、用戶選擇作為標(biāo)記的訓(xùn)練數(shù)據(jù))→ 利用優(yōu)秀的模型性能來推動(dòng)更多的用戶增長(zhǎng),提升用戶參與。

這些公司很可能會(huì)專注于特定的問題領(lǐng)域(例如編程、設(shè)計(jì)和游戲),而不是試圖滿足所有人的需求。他們?cè)诔跗诳赡軙?huì)深度集成到應(yīng)用中,以利用杠桿和分發(fā)優(yōu)勢(shì)來快速迭代,隨后嘗試用 AI 本地工作流程取代現(xiàn)有的應(yīng)用程序。構(gòu)建這些應(yīng)用并正確積累用戶和數(shù)據(jù)需要時(shí)間,但我們相信最好的應(yīng)用將會(huì)是持久的,并有可能發(fā)展成為龐大的平臺(tái)。

四、障礙和風(fēng)險(xiǎn)

盡管生成式人工智能潛力巨大,但在商業(yè)模式和技術(shù)方面仍有許多問題需要解決。版權(quán)、信任與安全以及成本等重要問題還遠(yuǎn)未解決。

五、冷靜審視

生成式人工智能仍處于起步階段。平臺(tái)層剛剛起步,應(yīng)用領(lǐng)域才剛剛開始拓展。要明確一點(diǎn),我們不需要大型語(yǔ)言模型去寫一部像托爾斯泰的小說那樣的作品,那不是充分利用生成式 AI 的方式。當(dāng)前這些模型已經(jīng)足夠好,可以用來撰寫博客文章的初稿,生成 LOGO 和產(chǎn)品界面的原型。在不遠(yuǎn)的將來,進(jìn)入 AI 大模型的發(fā)展中期,將會(huì)有大量有價(jià)值的創(chuàng)造出現(xiàn)。

當(dāng)前生成式 AI 應(yīng)用還處于初期階段,有點(diǎn)像 iPhone 剛推出時(shí)的手機(jī)應(yīng)用場(chǎng)景——有些花哨且內(nèi)容不足,競(jìng)爭(zhēng)差異和商業(yè)模式尚不明確。然而,這些應(yīng)用中的一部分,替我們管窺了未來的發(fā)展趨勢(shì)。一旦見識(shí)到 AI 生成復(fù)雜的功能代碼,和絕妙的圖景,很難不想象未來 AI 在我們的工作和創(chuàng)造中成為基本角色。如果我們敢于想象幾十年后的未來,可以輕松想到生成式 AI 深刻地融入到我們的工作、創(chuàng)造和娛樂方式中:自動(dòng)編寫的備忘錄;可以 3D 打印你能想象到的任何東西;從文本到皮克斯電影;類似 Roblox 的游戲體驗(yàn),能夠迅速生成我們夢(mèng)想中的豐富世界。雖然這些體驗(yàn)今天看起來像科幻,但進(jìn)步的速度極快,最初性能有限的大語(yǔ)言模型在幾年內(nèi)發(fā)展到足以自動(dòng)生成代碼,如果我們繼續(xù)保持這種進(jìn)化速度,并遵循“大模型摩爾定律”,那么這些遙遠(yuǎn)的場(chǎng)景,就會(huì)成為可能。

歡迎關(guān)注作者的微信公眾號(hào):潮矽

回望 AI 大爆炸的前夜,他們是這樣預(yù)測(cè)未來的

文章來源:https://www.sequoiacap.com/
作者:SONYA HUANG、PAT GRADY 和 GPT-3
編譯:陳困困

收藏 9
點(diǎn)贊 22

復(fù)制本文鏈接 文章為作者獨(dú)立觀點(diǎn)不代表優(yōu)設(shè)網(wǎng)立場(chǎng),未經(jīng)允許不得轉(zhuǎn)載。