国产精伦一区二区三区,久久激情综合,亚洲免费av网址

AI 到底有多強(qiáng)？萬字干貨盤點(diǎn)最新大模型應(yīng)用和動態(tài)！

前言

距離上次寫大模型應(yīng)用的文章已經(jīng)過去了大半年：?

想深度掌握AI？先搞懂語言大模型：技術(shù)原理

作為一個曾經(jīng)的 VUI 領(lǐng)域從業(yè)者，LLM 出現(xiàn)后非常想要弄清大模型對 VUI 領(lǐng)域的影響，于是有了此文。

這期間 AI 如火如荼，雖然我個人感知大模型應(yīng)用生態(tài)并沒有太多變化，但還是想記錄下近期在大模型應(yīng)用現(xiàn)象上的觀察和淺顯見解。

這篇文章會從 GPTs、大模型中間層（Dify、Coze)、大火的虛擬社交（Character.AI 等）聊到 AI Agent、大模型的多模態(tài)能力、產(chǎn)品推薦，涵蓋了 23 年下半年至今大模型應(yīng)用領(lǐng)域的最新進(jìn)展。

一、Chatbot 是自然衍生的產(chǎn)品形態(tài)

1. GPTs

2023 年 11 月的 OpenAI 開發(fā)者大會上，OpenAI 推出了 GPTs，其本質(zhì)是鼓勵用戶對 ChatGPT 進(jìn)行 Prompt、數(shù)據(jù)深度定制并分享給社區(qū)中的其他用戶使用（有些 Notion 社區(qū)創(chuàng)作者分享、售賣模板的意思），也減輕其他用戶定制成本。此外，GPTs 配置過程十分簡單，用戶無需擁有代碼能力，只需要定義好需求場景、定義好 Prompt 就可以完成初步定制。而想要 GPTs 更好用，則可以上傳一些知識庫數(shù)據(jù)，調(diào)用其他產(chǎn)品的 API。總體來說開發(fā)成本遠(yuǎn)低于 APP 和網(wǎng)頁。

分享一個詳細(xì)的 GPTs 配置教程：GPTs 從入門、進(jìn)階、實(shí)踐到防護(hù)的萬字教程

當(dāng)視頻在手機(jī)上無法加載，可前往PC查看。

開放以來，GPTs 的創(chuàng)建和使用一直受到 GPT Plus 賬戶限制，近期開放的 GPT Store 和市場上的排行網(wǎng)站沒有太大區(qū)別。

AI 到底有多強(qiáng)？萬字干貨盤點(diǎn)最新大模型應(yīng)用和動態(tài)！

①GPTs 類型

結(jié)合了 GPTs 收錄網(wǎng)站的信息，目前的 GPTs 大概有如下幾類。在這些方面，某些 GPTs 確實(shí)被定制成了好用的小工具。

AI 到底有多強(qiáng)？萬字干貨盤點(diǎn)最新大模型應(yīng)用和動態(tài)！

不過，下面才是我想表達(dá)的核心觀點(diǎn)：

②面臨的挑戰(zhàn)

沒有創(chuàng)造新的場景，多是在做原有場景的改造

上述網(wǎng)站收錄了 8 萬多個 GPTs，很多需求小眾、場景低頻的，用戶使用可能只是一時圖個新鮮，缺乏持續(xù)使用動力。而真正有需求的場景（如數(shù)據(jù)分析、語言學(xué)習(xí)、圖像生成、PDF 閱讀等）則同質(zhì)化嚴(yán)重（大家很容易想到一塊去）、競爭激烈。

此外，大多數(shù) GPTs 解決的訴求離大眾消費(fèi)場景較遠(yuǎn)、天花板低，難以形成規(guī)模效應(yīng)。

AI 到底有多強(qiáng)？萬字干貨盤點(diǎn)最新大模型應(yīng)用和動態(tài)！

③GPTs 的產(chǎn)品形態(tài)并不占據(jù)絕對優(yōu)勢

GPTs 解決的問題和市面上已經(jīng)在做的各類應(yīng)用中 AI 助理形態(tài)有一定重合，而 GPTs 給用戶的心理預(yù)期則更像是 ChatGPT 中即用即走的「小程序」。若面向大眾消費(fèi)端，創(chuàng)作者需要將能力進(jìn)一層封裝，產(chǎn)品形態(tài)上無法和 App Store 中已經(jīng)積累了更多用戶的應(yīng)用、更易觸達(dá)用戶的應(yīng)用去競爭。

打個比方，同樣是周報(bào)生成器，用戶是更愿意使用釘釘、飛書中集成的虛擬助手還是去 GPTs Store 中找到 GPTs 進(jìn)行使用呢？而應(yīng)用集成 GPTs 能力只是時間問題。

AI 到底有多強(qiáng)？萬字干貨盤點(diǎn)最新大模型應(yīng)用和動態(tài)！

圖片引用自 Appso

④很多創(chuàng)作者是去薅流量的

很難想象有多少會持續(xù)優(yōu)化知識庫提供優(yōu)質(zhì)服務(wù)。

⑤GPTs 被復(fù)制抄襲的門檻太低

不知道這個問題官方何時會出來解決。

⑥OpenAI 不是唯一一家開放 API 的大模型廠商

除非擁有垂直領(lǐng)域的專業(yè)知識庫和獨(dú)家數(shù)據(jù)，否則 Bot 的制作并沒有門檻。真要說體驗(yàn)上會有多大差異，普通大眾感知不會特別強(qiáng)烈，也就是說大部分用戶不會追求產(chǎn)品一定要模型達(dá)到 GPT-4 的能力。這就延伸出下面要說的中間層了。

2. 大模型中間層

目前國內(nèi)比較明星的產(chǎn)品有兩個：Dify 于 23 年 5 月推出，字節(jié) 12 月上線了類似的產(chǎn)品 Coze。這類產(chǎn)品能夠接入多個大模型能力，并通過可視化編排，基于任何 LLM 部署自己版本的 Assistants API 和 GPT。這些產(chǎn)品提供的定制能力是遠(yuǎn)遠(yuǎn)強(qiáng)于 ChatGPT 的 GPTs 的，目前還有可免費(fèi)白嫖的 GPT-4 推薦使用。

AI 到底有多強(qiáng)？萬字干貨盤點(diǎn)最新大模型應(yīng)用和動態(tài)！

①中間層產(chǎn)品價值

降低集成難度。

中間層提供了簡單的 API 接口，開發(fā)者可以通過這些接口輕松地將大模型能力集成到自己的產(chǎn)品中，不需要自己訓(xùn)練搭建大模型，也不需要處理與大模型交互的復(fù)雜度。

AI 到底有多強(qiáng)？萬字干貨盤點(diǎn)最新大模型應(yīng)用和動態(tài)！

Coze 還支持發(fā)布到多個平臺作為 Bot 能力使用，這在開發(fā)者看來是非常有吸引力的一項(xiàng)功能

接入多個大模型，隔離大模型更新風(fēng)險。

中間層可以對下游客戶屏蔽大模型版本更新帶來的影響，確保產(chǎn)品穩(wěn)定性。

AI 到底有多強(qiáng)？萬字干貨盤點(diǎn)最新大模型應(yīng)用和動態(tài)！

提供更多輔助功能。

中間層還可以提供日志、監(jiān)控、數(shù)據(jù)標(biāo)注等輔助功能，為開發(fā)者提供更多價值。

AI 到底有多強(qiáng)？萬字干貨盤點(diǎn)最新大模型應(yīng)用和動態(tài)！

②Coze

在 Coze 中可以看到公開的 Bots 及 Bots 的詳細(xì)設(shè)置：

AI 到底有多強(qiáng)？萬字干貨盤點(diǎn)最新大模型應(yīng)用和動態(tài)！

圖為一個僅靠 Prompt 和 Plugins 定制的推薦 B 站視頻的 Bot

③定制案例：AI 趨勢總結(jié) Bot

參考 Bilibili Assistant，我想嘗試定制一個能為我總結(jié) AI 領(lǐng)域最新趨勢的 Bot。構(gòu)建前可以先閱讀 Coze 產(chǎn)品文檔，比如官方給出了 Prompt 的寫法建議：

AI 到底有多強(qiáng)？萬字干貨盤點(diǎn)最新大模型應(yīng)用和動態(tài)！

首先，填寫創(chuàng)建 Bot 的簡單信息，頭像可以使用 Coze 內(nèi)置的 AI 能力生成：

AI 到底有多強(qiáng)？萬字干貨盤點(diǎn)最新大模型應(yīng)用和動態(tài)！

Coze 中有許多已經(jīng)內(nèi)置好的 Plugins，我在此選擇 Google 和 X 兩個 Plugins：

AI 到底有多強(qiáng)？萬字干貨盤點(diǎn)最新大模型應(yīng)用和動態(tài)！

按照官方建議撰寫 Prompt，并且在右側(cè)對話框進(jìn)行測試，我的 Prompt 經(jīng)過了大概 4-5 版的迭代：

AI 到底有多強(qiáng)？萬字干貨盤點(diǎn)最新大模型應(yīng)用和動態(tài)！

迭代記錄：

AI 到底有多強(qiáng)？萬字干貨盤點(diǎn)最新大模型應(yīng)用和動態(tài)！

設(shè)置開場白、定時任務(wù)的功能：

AI 到底有多強(qiáng)？萬字干貨盤點(diǎn)最新大模型應(yīng)用和動態(tài)！

④測試效果

經(jīng)過我的測試，用 Coze 簡單定制的 Bot 回復(fù)效果已經(jīng)比 Perplexity 的效果好，特別是在調(diào)用 Google 搜索的結(jié)果上給了我很大的驚喜：

測試一：詢問 24 年的 AI 產(chǎn)品更新

AI 到底有多強(qiáng)？萬字干貨盤點(diǎn)最新大模型應(yīng)用和動態(tài)！

測試二：詢問 MJV6 版本更新的具體內(nèi)容

AI 到底有多強(qiáng)？萬字干貨盤點(diǎn)最新大模型應(yīng)用和動態(tài)！

測試三：檢索 X 推文

在 X 內(nèi)容的總結(jié)上，回復(fù)時好時壞，只能達(dá)到 5 成可用狀態(tài)。出現(xiàn)了一些啼笑皆非的狀況，比如分不清 Adobe AI 和人工智能 AI，同樣的問題過幾天問返回的結(jié)果也一模一樣等。我猜測這些問題是由于 Coze 中沒法接入我的 X API Key 導(dǎo)致的，Prompt 的方式也讓我無法更準(zhǔn)確的定義接口調(diào)用方式。

AI 到底有多強(qiáng)？萬字干貨盤點(diǎn)最新大模型應(yīng)用和動態(tài)！

定制這個 Bot 的初衷是當(dāng)作 X 趨勢生成器使用的，結(jié)果無心插柳柳成蔭，做成了可以白嫖無限 GPT-4 額度的且比 Perplexity 更好用的 AI 搜索引擎，我已經(jīng)在頻繁使用了。

總的來說，Coze 的能力很復(fù)雜也很強(qiáng)大，但在深度定制 Bot 的能力上缺乏詳細(xì)的指引，字節(jié)官方的文檔雖然詳細(xì)但對于多任務(wù)處理、Prompt 調(diào)試等沒有給出更多建議，Plugin 部分的文檔非技術(shù)人員看著還挺頭暈的。幫助用戶定制真正好用 Bot，大模型和中間層都還有挺長的路要走。

3. Character.AI 為首的虛擬社交

Chatbot 聊天機(jī)器人的賽道卷了多年，這一次在 LLM 的加持下再次爆發(fā)，Character.AI 為代表的虛擬陪伴 Chatbot 產(chǎn)品成為了熱門賽道之一。許多團(tuán)隊(duì)在 GPT 出現(xiàn)之前就已經(jīng)在籌備相關(guān)模型和產(chǎn)品了：Character.AI、Replika、國內(nèi)團(tuán)隊(duì) Minimax 的 Talkie、星野，都是頭部選手，目前眾多大廠也已經(jīng)下場推出競爭產(chǎn)品。

AI 到底有多強(qiáng)？萬字干貨盤點(diǎn)最新大模型應(yīng)用和動態(tài)！

該方向本質(zhì)上也是「GPTs」，但是在立繪、對話沉浸感上都經(jīng)過更多打磨。

AI 到底有多強(qiáng)？萬字干貨盤點(diǎn)最新大模型應(yīng)用和動態(tài)！

①用戶訴求

觀察頭部產(chǎn)品，大部分用戶的訴求圍繞在下圖這幾個方向。

AI 到底有多強(qiáng)？萬字干貨盤點(diǎn)最新大模型應(yīng)用和動態(tài)！

但當(dāng)我翻看了小紅書、貼吧，又蹲了幾個國內(nèi)內(nèi)測產(chǎn)品的群后，基本上用戶主動曬的內(nèi)容都和荷爾蒙訴求有關(guān)。

AI 到底有多強(qiáng)？萬字干貨盤點(diǎn)最新大模型應(yīng)用和動態(tài)！

內(nèi)容來自 36kr，可輔助參考

②數(shù)據(jù)

目前虛擬陪伴產(chǎn)品的活躍和留存都很驚艷，但付費(fèi)能力大多處于有待挖掘的狀態(tài)。結(jié)合各方公布的數(shù)據(jù)，基本上目前粗略估計(jì)的情況是：頭部產(chǎn)品日活在 100 萬+，C.AI 做到了 500 萬+；次留基本可以做到 50% 以上，7 留在 30% 上下，是非常可觀的。

AI 到底有多強(qiáng)？萬字干貨盤點(diǎn)最新大模型應(yīng)用和動態(tài)！

圖片出自白鯨出海，點(diǎn)點(diǎn)數(shù)據(jù)

但目前在商業(yè)化方面，Chatbot 類產(chǎn)品沒有做得特別好。星野、Talkie 模仿了乙女游戲的抽卡付費(fèi)，但其付費(fèi)數(shù)據(jù)的不理想可能是內(nèi)容過薄導(dǎo)致的。和 Dating 產(chǎn)品相比，Chatbot 產(chǎn)品剛需付費(fèi)的場景少了很多，更多深度玩法還有待探索。

③產(chǎn)品形態(tài)

Replika 做重虛擬角色定制過程，強(qiáng)調(diào)角色唯一性。

AI 到底有多強(qiáng)？萬字干貨盤點(diǎn)最新大模型應(yīng)用和動態(tài)！

Replika 的定制過程

而 Cai、Talike、星野、筑夢島等一眾產(chǎn)品則是提供眾多 Bot 供用戶選擇，并支持 UGC 創(chuàng)建 Bot 并分發(fā)。

AI 到底有多強(qiáng)？萬字干貨盤點(diǎn)最新大模型應(yīng)用和動態(tài)！

Aura 進(jìn)入后雖然只有單個角色，但支持開啟多個劇本的角色扮演，并且劇本由 AI 生成（降低了重復(fù)性）可以體驗(yàn)和較長文本的對話。唯一遺憾的是劇本中的人設(shè)、名稱上都沒有做到統(tǒng)一，讓用戶產(chǎn)生割裂感，在整體體驗(yàn)上不如乙女游戲中的劇情解鎖豐富。

AI 到底有多強(qiáng)？萬字干貨盤點(diǎn)最新大模型應(yīng)用和動態(tài)！

Aura 的角色扮演

④多模態(tài)開始卷起來了

長期來看，模型能力是 Chatbot 類產(chǎn)品的核心，但圖片、語音等多模態(tài)內(nèi)容的豐富可以在一定程度上彌補(bǔ)模型能力的不足。

形象

產(chǎn)品表現(xiàn)層上，除了 Replika 使用了 3D 捏人，其他產(chǎn)品還處在快速大批量 AI 圖片生產(chǎn)的階段。（不過就過去一年元宇宙的觀察，注重 3D 不一定是一個好方向，迭代速度慢、開發(fā)成本高，用戶手捏的效率不必切換一個 Bot 低，另外國外的 3D 人物畫風(fēng)總讓我覺得怪怪的）畢竟是競爭激烈的 2C 賽道，用戶非常「看臉」。

值得一提的是，愛塔的部分 Bot 率先使用了動圖，讓用戶在刷 feeds 時的場景沉浸感更強(qiáng)。在 Pika、SVD 產(chǎn)品控制能力加強(qiáng)的趨勢下，未來 Chatbot 立繪的動態(tài)化應(yīng)該很快會被廣泛采用。

當(dāng)視頻在手機(jī)上無法加載，可前往PC查看。

語音

從表格中可以看到，最新推出的產(chǎn)品基本都配備了 TTS 能力，從數(shù)據(jù)和體驗(yàn)上看，語音能力能強(qiáng)化有助于用戶留存。愛塔、星野在列表停留在某個人物時就會播放開場白，完全不需要看詳細(xì)的人設(shè)就可以對人物有一定帶入，美中不足的是對話時無法自動播放語音，否則體驗(yàn)還會更上一層樓。

當(dāng)視頻在手機(jī)上無法加載，可前往PC查看。

以下純屬個人淺薄觀點(diǎn)記錄，不一定嚴(yán)謹(jǐn)準(zhǔn)確，歡迎后臺留言拍磚交流。

⑤長期使用趨勢

在保證模型記憶力的情況下，我認(rèn)為情感陪伴類用戶會在長期的篩選中選擇 1-3 個心儀的 Agent 進(jìn)行長期高頻的溝通對話，同時會存在階段性的替換需求（新鮮感過去了換個更好的聊）。但目前這類產(chǎn)品擦的傾向?qū)嵲谔撸磥韲鴥?nèi)監(jiān)管的力度帶來的影響不可知。

⑥方向分析和預(yù)測

市場情況

總的來說，因?yàn)閲鴥?nèi)監(jiān)管（對 NSFW 內(nèi)容的限制）、國內(nèi)外 2C 用戶付費(fèi)能力的差異（與其他互聯(lián)網(wǎng)產(chǎn)品不同的是，大模型是有成本的，且短期內(nèi)不會迅速降下來），大部分從業(yè)者應(yīng)該都不太看好該方向在國內(nèi)的發(fā)展。

AI 到底有多強(qiáng)？萬字干貨盤點(diǎn)最新大模型應(yīng)用和動態(tài)！

海外 App Store 中這樣的虛擬 18+ 產(chǎn)品已經(jīng)一大把了，而國內(nèi)畢竟擁有巨大的人口基數(shù)，且國內(nèi)市場乙女向有《戀與制作人》《光與夜之戀》《橙光》等成功案例，加上情感陪伴底層訴求，Chatbot 的國內(nèi)市場還是存在的。

此外，C.AI 形態(tài)的產(chǎn)品崛起讓一部分用戶涌向成本更低的 AI 虛擬人，極有可能會搶走一部分 IM、Dating APP 的活躍和時長（至于搶走多少可能還要看該賽道產(chǎn)品的未來發(fā)展）但倘若 IM、Dating 產(chǎn)品做這件事，又像是搬起石頭砸了自己的腳，降低了平臺上真實(shí)用戶的連接機(jī)會，也會對已有的產(chǎn)品調(diào)性社區(qū)文化產(chǎn)生反噬，這里我持長期觀望狀態(tài)。

不過也許未來有天當(dāng) AI 內(nèi)容不再稀缺，用戶反而想要回歸和真人的社交關(guān)系也并非不可能。

產(chǎn)品規(guī)模

單純從國內(nèi)市場而言，我認(rèn)為這部分產(chǎn)品吃的是小眾垂直強(qiáng)訴求的用戶市場，用戶量天花板不會特別高（具公開資料顯示，Soul、探探巔峰期日活均在大百萬級別、戀與日活 18 年 200 萬，獨(dú)立 Chatbot 產(chǎn)品應(yīng)該不會超過這個上限了），因此其不會是大公司眼里 Top 級別的好生意。

為什么我們會看到大廠全都往這個方向擠？

我猜想還是看中了 CharacterAI 為首的產(chǎn)品擁有可觀的留存與時長。今天的 2C 互聯(lián)網(wǎng)早已變成注意力的生意，除了抖音以外的頭部產(chǎn)品無不面臨數(shù)據(jù)下跌帶來的焦慮感，而 Chatbot 可能就是一劑短期止痛藥。另外一個原因就是競爭對手都在做，無論如何都要入局做主動性防御。不過大公司基本都看重已有用戶盤，因此比起做獨(dú)立 APP，內(nèi)嵌在已有產(chǎn)品中是更合適的形態(tài)。不過說不好未來會不會面臨和 OS 系統(tǒng)廠商爭搶市場的局面（這些年 OS 廠商在語音助手上的功夫也不是白下的，以及 OS 發(fā)布會也需要新的 AI 故事），因此如果真的想做這個方向的產(chǎn)品，更早出發(fā)較好。

4. 大廠在 Chatbot 方向上的優(yōu)勢是?

資源整合，輔助已有需求場景

前面提到過，對于已經(jīng)擁有一定用戶量級的產(chǎn)品來說，可以將 Chatbot 能力融合到具體場景，用戶的使用會比較順滑自然。像釘釘這類辦公產(chǎn)品接入虛擬助手對話能力、GPTs 去為打工人提效是很有必要的。對于抖音這樣的平臺，Bot 定制能力適合開放給中小商家、視頻直播達(dá)人等。比如培訓(xùn)機(jī)構(gòu)、商家可以在 Coze 平臺上定制虛擬客服，通過上傳知識庫讓模型了解自家產(chǎn)品概況，在短視頻、直播評論區(qū)、群聊場景輔助創(chuàng)作者進(jìn)行問答、評論區(qū)互動、私域引流等，提升用戶下單轉(zhuǎn)換，能進(jìn)一步增強(qiáng)抖音電商和群聊的能力。

之前也 YY 過，頭部 KOL 適合用自己的 IP 做 ChatbotIP 定制，比如用戶可以對李佳琦的 Bot 咨詢護(hù)膚技巧、購買建議。至于陪伴類虛擬社交方向，估計(jì)乙女游戲已經(jīng)看到了陪伴類虛擬社交產(chǎn)品的興起，作為防御應(yīng)該會在游戲中加入對話能力，進(jìn)一步保證留存和用戶時長。

更天然的交互場景還有待挖掘

在 PC 端，Raycast、Arc 均提供了快速向 ChatGPT 提問的能力。

AI 到底有多強(qiáng)？萬字干貨盤點(diǎn)最新大模型應(yīng)用和動態(tài)！

同樣的，在移動端如果能做到用戶在不用點(diǎn)擊加載應(yīng)用就快速喚起大模型進(jìn)行對話會更好，當(dāng)然這個方向我目前想到的解法都更適合 OS 廠商去做。

拿 iOS 現(xiàn)有的交互簡單發(fā)散幾個可能的方案：

方案一激進(jìn)派：用戶可以將桌面某一屏設(shè)置成智能助理，并可以直接對話。鎖屏頁面解鎖，智能助理已經(jīng)將新信息歸納總結(jié)，也可以進(jìn)入和智能助理對話的桌面查看并快捷處理信息。

AI 到底有多強(qiáng)？萬字干貨盤點(diǎn)最新大模型應(yīng)用和動態(tài)！

方案二保守派：桌面下滑搜索改成和智能助理對話的功能，需要了解什么直接詢問智能助理即可。相比于方案一沒有那么激進(jìn)，更適合智能助理能力有突破但還沒那么接近 AGI 時的方案。

AI 到底有多強(qiáng)？萬字干貨盤點(diǎn)最新大模型應(yīng)用和動態(tài)！

如果有 OS 廠商看中了 idea 記得給我打錢 hhh

當(dāng)然，這些都是理想情況的 YY 罷了，想要調(diào)動自身生態(tài)外的應(yīng)用回傳數(shù)據(jù)，實(shí)現(xiàn)難度可想而知。另外，如果過于強(qiáng)調(diào)效率，移動設(shè)備繁榮的應(yīng)用生態(tài)失去了用戶時長、廣告收益，帶來的種種的問題對 OS 廠商來說也是非常難解的。

AI 到底有多強(qiáng)？萬字干貨盤點(diǎn)最新大模型應(yīng)用和動態(tài)！

這也是我沒那么看好近期發(fā)布的集成了 LLM 的智能硬件 Rabbittech 的原因，此類產(chǎn)品大概率噱頭大于實(shí)際效果

二、AI Agent 應(yīng)用仍處探索階段

1. AI Agent 定義

準(zhǔn)確的來說，AIAgent 指的是一種智能代理系統(tǒng)，它接近人類的大腦，可形成記憶、達(dá)成行動規(guī)劃、自動交互、主動預(yù)測。

目前 AI Agent 的概念在市場上并沒有達(dá)成共識，存在被廣泛濫用的現(xiàn)象（很多 Chatbot 應(yīng)用給 Bot 冠以「智能體」的名稱，準(zhǔn)確地說也是對 Agent 的誤用）

①AI Agent 應(yīng)用的特點(diǎn)

個性化：隨著用戶的使用越來越了解用戶習(xí)慣和想法，從而作出喜好預(yù)測。

AI 到底有多強(qiáng)？萬字干貨盤點(diǎn)最新大模型應(yīng)用和動態(tài)！

可自主完成任務(wù)：

AI 到底有多強(qiáng)？萬字干貨盤點(diǎn)最新大模型應(yīng)用和動態(tài)！

AutoGPT：用戶輸入一個目標(biāo)后，可自主執(zhí)行任務(wù)、遞歸地開發(fā)和調(diào)試代碼

多 Agent 協(xié)作：

AI 到底有多強(qiáng)？萬字干貨盤點(diǎn)最新大模型應(yīng)用和動態(tài)！

Fixie AI 在收到用戶請求后啟動多個負(fù)責(zé)不同模塊的 Agent 進(jìn)行數(shù)據(jù)查詢和傳遞，最終生成郵件內(nèi)容給客戶回復(fù)

當(dāng)視頻在手機(jī)上無法加載，可前往PC查看。

博主 @林亦 LYi 的《AI 炒股？我開了一家員工全是 AI 的公司，自動幫我炒股》就在某種程度上實(shí)現(xiàn)了多 Agent 協(xié)作的能力

目前，AI Agent 應(yīng)用大多集中在 2B 場景，面向個人消費(fèi)者的產(chǎn)品少之又少。一方面是高度智能化的 Agent 能力需要打磨，概念落地還有較長一段距離；一方面是 AI 和娛樂消費(fèi)訴求的結(jié)合還幾乎沒有，其主要帶來的是生產(chǎn)方式變革和效率變革。個人消費(fèi)者方向，目前只看到「私人助理」場景。

2. 驚艷的 Dot APP

Dot 是目前看到的最接近理想 AI Agent 形態(tài)的 C 端私人助理。手機(jī)廠商、智能音箱炒了那么多年私人助手的概念，終于有像樣的產(chǎn)品出現(xiàn)。在公開的案例中，Dot 支持用戶發(fā)送文本和圖像、音頻信息并理解內(nèi)容，它能夠?yàn)橛脩糁贫ㄓ?jì)劃、進(jìn)行文件管理、推薦咖啡店，幫助用戶訪問互聯(lián)網(wǎng)中的最新工具和服務(wù)，Dot 希望成為用戶個體意識的延伸。其設(shè)計(jì)師是前 Apple 設(shè)計(jì)師 Jason Yuan。

雖然 Dot 看起來和 ChatGPT 一樣也是將不同任務(wù)的對話進(jìn)行分類，但在信息展示和動畫設(shè)計(jì)上，Dot 的確更加亮眼。目前該產(chǎn)品需要排隊(duì)較久的 waitlist，官方也較少更新動態(tài)。

當(dāng)視頻在手機(jī)上無法加載，可前往PC查看。

三、大模型能力逐步向多模態(tài)擴(kuò)展

23 年下半年，GPT、Gemini Pro 在發(fā)力多模態(tài)識別、多模態(tài)輸出上發(fā)力，不管是移動版 ChatGPT 的語音功能、Dall·E3 的使用體驗(yàn)還是 Gemini Pro 的宣傳片都相當(dāng)亮眼。此外語義理解能力極大增強(qiáng)未來會逐步影響到應(yīng)用層，相信未來只要通過 Prompt 控制生成的視頻、音樂效果都會逐步得到改善。

1. Dall·E3

此前模型的訓(xùn)練數(shù)據(jù)通常是由人類描寫的圖像文本和圖像訓(xùn)練而成，而人類描寫的文本內(nèi)容傾向于簡單描述，容易忽略圖像背景中的大量細(xì)節(jié)：

AI 到底有多強(qiáng)？萬字干貨盤點(diǎn)最新大模型應(yīng)用和動態(tài)！

于是 OpenAI 建立了一個圖像標(biāo)題生成器，通過建立擁有詳盡圖像文本描述的數(shù)據(jù)集進(jìn)行模型訓(xùn)練來強(qiáng)化模型對圖像的理解能力，下圖中可以看出，訓(xùn)練的數(shù)據(jù)包含了從互聯(lián)網(wǎng)上抓取的選定圖像標(biāo)題、SSC（合成的簡短標(biāo)題）、DSC（合成的長標(biāo)題），長標(biāo)題中不僅描述了圖像的主題，還描述了它的周圍環(huán)境，背景，圖像中的文字，風(fēng)格，顏色等。而這樣的數(shù)據(jù)將大量用于 Dall·E3 的圖像生成模型訓(xùn)練。

AI 到底有多強(qiáng)？萬字干貨盤點(diǎn)最新大模型應(yīng)用和動態(tài)！

相信大家或多或少看過 Dall·E3 的使用案例，其在圖片生成時對語義和上下文理解達(dá)到了令人吃驚的程度。在這里分享好友瑤醬使用 Dall·E3、MJV5.2、SD 對《小鴨子》童話故事進(jìn)行的測試，可以看出相同提示詞的情況下，Dall·E3 到底有多強(qiáng)：

當(dāng)視頻在手機(jī)上無法加載，可前往PC查看。

2. GPT-5

據(jù) Sam Altman 透露，GPT-5 將在推理能力、可靠性等方面遠(yuǎn)超 GPT-4，X 上部分用戶透露的圖片可以看出 GPT-5 將在多模態(tài)方面會增加視頻、3D、GF capabilities 的支持 1。

AI 到底有多強(qiáng)？萬字干貨盤點(diǎn)最新大模型應(yīng)用和動態(tài)！

3. Gemini AI

Google 前段時間公布了 Gemini AI 模型，雖然官方承認(rèn)宣傳片存在后期剪輯，視頻中的效果還是著實(shí)驚艷到了大家。從 Google 披露的視頻情況看，模型從對話到圖像、視頻理解、生成能力都有非常全面的提升，能夠像人一樣猜出地步藏著紙團(tuán)的杯子是哪一個，和人類進(jìn)行簡單的游戲模擬，還能根據(jù)看到的兩團(tuán)毛線團(tuán)生成針織品成品圖。

當(dāng)視頻在手機(jī)上無法加載，可前往PC查看。

甚至，可以根據(jù)視頻內(nèi)容寫出代碼：

當(dāng)視頻在手機(jī)上無法加載，可前往PC查看。

目前，Google 披露 Gemini 將提供三種版本，Ultra、Pro 和 Nano，分別適應(yīng)復(fù)雜任務(wù)、廣泛場景和不同設(shè)備。

Ultra 版本是功能最強(qiáng)大的模型，能夠在各種復(fù)雜任務(wù)中提供最先進(jìn)的性能，包括推理和多模態(tài)任務(wù)（應(yīng)該就是上述視頻中展示的版本）；Pro 版本在成本和延遲方面進(jìn)行了性能優(yōu)化，提供了廣泛的任務(wù)上的顯著性能；Nano 版本是最高效的模型，設(shè)計(jì)用于在設(shè)備上運(yùn)行。訓(xùn)練了兩個版本的 Nano，分別具有 1.8B（Nano-1）和 3.25B（Nano-2）參數(shù)，針對低內(nèi)存和高內(nèi)存設(shè)備。通過從更大的 Gemini 模型中蒸餾來訓(xùn)練，并且是 4 位量化以便于部署。

目前 Pro 版本開放了 API 供開發(fā)者集成。

四、大模型應(yīng)用推薦

目前市場上的大模型產(chǎn)品比較普遍的形態(tài)是插件和網(wǎng)頁，這里選取這段時間我個人在使用同時在市場表現(xiàn)比較出眾的幾款產(chǎn)品分享。

1. 沉浸式翻譯

該產(chǎn)品主打在所有網(wǎng)頁雙語翻譯、PDF 文檔對照閱讀。因此前我用 OpenAITranslate 和瀏覽器自帶的翻譯能力比較多，沉浸式翻譯作為一個備選工具在使用。不過最近新發(fā)現(xiàn)的一個能力非常打動我，可以一鍵開啟網(wǎng)頁中 YouTube 視頻的雙語字幕，因?yàn)?YouTube 自帶的字幕翻譯能力點(diǎn)擊路徑實(shí)在是太長了（得先開啟字幕 -> 再在設(shè)置中找到字幕翻譯 -> 滾動到最下方選擇中文），這個功能會是今后我在 YouTube 視頻觀看場景的剛需（如果能接入 X 的視頻就更好了）。

AI 到底有多強(qiáng)？萬字干貨盤點(diǎn)最新大模型應(yīng)用和動態(tài)！

2. Kimi

KimiAI 是由月之暗面科技有限公司開發(fā)的一款產(chǎn)品，其最大的特點(diǎn)在于超長文本（支持最多 20 萬字的輸入和輸出）的處理和基于文件、鏈接內(nèi)容對話的能力。用戶可以上傳 TXT、PDF、Word 文檔、PPT 幻燈片、Excel 電子表格等格式的文件，KimiAI 能夠閱讀并理解相關(guān)內(nèi)容，為用戶提供基于文件內(nèi)容的回復(fù)。該團(tuán)隊(duì)從超長文本處理的角度，精準(zhǔn)切入其他大模型產(chǎn)品都不具備的特征和使用場景。目前我最主要的使用場景是閱讀 AI 論文，偶爾會拿來提取信息量比較大的播客信息（不過這個場景被下方的通義聽悟給替代了）：

AI 到底有多強(qiáng)？萬字干貨盤點(diǎn)最新大模型應(yīng)用和動態(tài)！

3. Monica

該工具集成了非常多的功能，包括聊天對話、PDF 翻譯問答、YouTube 摘要、文生圖等能力。很像是 ChatGPT、沉浸式翻譯、Kimi 等多個產(chǎn)品能力集成到一起的工具箱。

AI 到底有多強(qiáng)？萬字干貨盤點(diǎn)最新大模型應(yīng)用和動態(tài)！

甚至還集成了一些辦公場景的實(shí)用工具：

AI 到底有多強(qiáng)？萬字干貨盤點(diǎn)最新大模型應(yīng)用和動態(tài)！

值得一提的是，備忘功能（Memo）支持記錄用戶看過（總結(jié)過）的文章、視頻，支持剪藏圖片，作為個人知識庫進(jìn)行沉淀，這部分的內(nèi)容也可以在聊天模塊進(jìn)行進(jìn)行提問。

當(dāng)視頻在手機(jī)上無法加載，可前往PC查看。

因功能全面，瀏覽器插件的形態(tài)使用方便，Monica 受到很多用戶喜歡，Chrome 插件商店數(shù)據(jù)顯示該插件一共有 100 萬安裝量。但由于我是在不太喜歡瀏覽器側(cè)邊常駐懸浮窗，在試用后就沒再繼續(xù)使用 Monica 了。

4. 通義聽悟

在對比了多個播客轉(zhuǎn)文字的產(chǎn)品（飛書妙計(jì)、BiliGPT、memoAI）后，阿里出品的通義聽悟無疑是體驗(yàn)最好的一個。其首頁就突出了轉(zhuǎn)錄播客的功能，注冊贈送 10 小時免費(fèi)轉(zhuǎn)錄。

AI 到底有多強(qiáng)？萬字干貨盤點(diǎn)最新大模型應(yīng)用和動態(tài)！

支持播客鏈接直接轉(zhuǎn)錄，準(zhǔn)確率非常高。

AI 到底有多強(qiáng)？萬字干貨盤點(diǎn)最新大模型應(yīng)用和動態(tài)！

此外，還能夠在轉(zhuǎn)錄后自動生成問答回顧（很剛需，其實(shí)都免去了打開 Kimi 總結(jié)提問的那一步了）。選中文本，音頻內(nèi)容會自動定位到對應(yīng)位置，基本上滿足了我對播客內(nèi)容轉(zhuǎn)文字的所有訴求。

AI 到底有多強(qiáng)？萬字干貨盤點(diǎn)最新大模型應(yīng)用和動態(tài)！

5. 心光

這是一款心情筆記 APP，是目前大模型應(yīng)用中能夠較精準(zhǔn)面向 2C 需求的產(chǎn)品。在已有筆記產(chǎn)品基礎(chǔ)之上，心光最大的特色在于記錄筆記之余提供了一系列 AI 能力。比如會通過 AI 為用戶的心情筆記進(jìn)行主題聚類。

AI 到底有多強(qiáng)？萬字干貨盤點(diǎn)最新大模型應(yīng)用和動態(tài)！

首次使用心光時，用戶會自定義心光中一個非常重要的水晶球 AI 的角色（伴侶、朋友等）。在記錄日記的同時用戶可以通過個性化的水晶球 AI 抽取塔羅牌、求夸夸，獲得 AI 的反饋，不過實(shí)際體驗(yàn)感覺部分回復(fù)還有些機(jī)械和模版化。

AI 到底有多強(qiáng)？萬字干貨盤點(diǎn)最新大模型應(yīng)用和動態(tài)！

另外，每周來信是個我非常喜歡的功能，在持續(xù)的記錄后，能有一個異步的總結(jié)反饋?zhàn)層脩舾杏X非常驚喜，也能激勵用戶持續(xù)使用下去。

AI 到底有多強(qiáng)？萬字干貨盤點(diǎn)最新大模型應(yīng)用和動態(tài)！

心光搭載了部分本地化 AI 模型，為打消用戶對隱私問題的疑慮，采取了數(shù)據(jù)上傳 iCloud 的方式進(jìn)行信息存儲。目前該產(chǎn)品在僅有兩人全職的情況下發(fā)布，功能完成度非常高，但 APP 在表現(xiàn)層 UI 層級上處理的沒有那么好，加上功能較多，有時會找不到功能、看起來裝飾性的圖標(biāo)其實(shí)是可點(diǎn)擊的按鈕等等，使用時會一點(diǎn)點(diǎn)心理負(fù)擔(dān)。