萬字干貨!Sora 如何如何轉化為實際生產力?

2 月 16 日凌晨(北京時間)正月初七,在沒有任何消息和預兆下,Open AI 突然發布了首個文生視頻大模型——Sora,借此Sora正式對外曝光,AI視頻領域也迎來了前所未有的關注度,并且在極短時間內震驚業界,并持續破圈。

如今雖然距離 Sora 發布已有 1 個月的時間,但各方對 Sora 大模型的討論仍在持續,主流業界也對 Sora 基本達成了共識。Sora 到底為什么能夠震驚業界?是真的遙遙領先,還是在過度神話?以及我們如何將 Sora 落地應用于實際項目?本篇文章將帶你一一了解!

引言

Sora 的技術文檔里面有這么一段話:“我們的結果表明,擴展視頻生成模型是朝著構建通用物理世界模擬器邁進的有希望的模型。它的終極目標并不是“文生視頻”的工具,而是一個通用的“物理世界模擬器”,從中不難看出,他們真正想做的是給真實世界建模,而 Sora 只是驗證了這條道路是否可行的方式。但我們暫且將 Sora 的宏偉藍圖擱置一旁,先聚焦于 Sora 作為工具本身所展現出的能力優勢,以及如何將其有效地融入我們的工作流程中,轉化為實際生產力。

我們整篇文章將會分為三大章節講解:

第一章節:Sora 的技術能力分析,橫向對比各家競品優缺點

第二章節:結合過往 AI 項目推演 Sora 如何轉化落地到實際工作中

第三章節:對 Sora 未來的展望、以及我們能夠做哪些行動和儲備哪些知識

第一章節:Sora 的研究分析

這一章分為三個部分——Sora的優勢、它目前還存在的缺陷和不足、以及它和目前市場上熱門的幾個AI視頻平臺的橫向對比及測評,如果你已經對Sora的能力優勢有所了解,那么可以直接從第二章節開始閱讀。

1. Sora 的優勢

我們提煉出了 Sora 明顯區別于其他競品的三大特點,接下來由淺入深的一一來看。

特點 1:Sora 支持生成長達 60 秒的超長視頻,具備高質量和豐富的視頻格式。

下面這個案例視頻,相信大家已經被刷屏看過很多次了,這是一個很有代表性的例子,展示了 Sora 有能力生成 60 秒鐘且高清晰度的視頻,并且還能夠呈現一段完整的內容情節。除此之外 Sora 還支持輸出任意尺寸的視頻,還能根據視頻尺寸,調整出適合的畫面構圖。

當視頻在手機上無法加載,可前往PC查看。

視頻來源:Sora 官網

特點 2:Sora 具有超強的語義理解能力。

Sora 能在理解指令后生成一個連貫的三維空間,讓我們通過視頻案例了解下,下面的 3 個視頻文本指令詞,除了一個文本指令不同外,其余指令全部一致;通過這種控制變量的實驗可以看出,Sora 對文本指令有著比較透徹和精準的理解能力,不會混淆文本中細微的差別。

視頻來源:Sora 官方技術報告

特點 3:具備世界模型的特征。

Sora 不僅僅是一個文生視頻模型,AI 視頻只是它的起點,Sora 的目標是成為一個世界通用大模型——能夠通過自主學習世界的規律和常識,模擬并且高保真的還原物理環境中可能發生的事件,我們也用幾個視頻案例直觀看下。

左側汽車在顛簸的山路上行駛的視頻,可以看到汽車的影子和尾氣會始終隨著汽車主體的運動而運動,完美匹配了“山路顛簸”的實際效果,這一點證明 Sora 理解了物理運動的規律。右側一只海盜船在“咖啡海洋”里航行的視頻,兩個船只隨著液體的波動而擺動,完美地呈現了流體物理學原理。

視頻來源:Sora 官網

當然 Sora 能做的還不止于此,接下來,我們來看看它還能幫助我們做些什么?

功能 1:Sora 可以沿時間軸向前或者向后擴展視頻。

下面的 3 個視頻都是從生成的視頻片段開始向前擴展的。因此,3 個視頻的開頭都與其他視頻不同,但所有 3 個視頻都指向相同的結局。

視頻來源:Sora 官方技術報告

功能 2:Sora 可以將多段視頻融合成一個新的視頻。

比如下面的視頻案例,如果我們上傳一段海濱古城的大遠景視頻和一段圣誕氛圍的特寫視頻,那么 Sora 可以自動將這兩段毫無關聯的視頻無縫得融合在一起。

視頻來源:Sora 官方技術報告

功能 3:Sora 還有能將靜態圖片變成視頻。

按照官方展示的,只要在系統里上傳一張靜態圖片和一段文本指令,Sora 就可以把圖片和這段指令很好地演繹出來。

視頻來源:Sora 官方技術報告

功能 4:Sora 還能將一個視頻生成為一個新的視頻。

將一段原始視頻上傳后,再輸入一段希望如何修改的文本指令,Sora 就可以精準得將視頻里的環境進行轉變,且同時保持主體汽車的運動軌跡不變。

視頻來源:Sora 官方技術報告

以上這些都是關于 Sora 的優勢能力,想必大家已經有所了解。接下來,我們也來看看 Sora 目前還存在哪些不足?

2. Sora 目前還存在哪些不足?

不足 1:復雜的物理原理。

盡管 Sora 現在已經展現出可以理解現實物理世界規律的學習能力,但是目前還無法理解比較復雜的物理原理。比如下面人在朝跑步機相反的方向跑步的視頻,說明 Sora 沒能理解跑步機的運動原理。

不足 2:復雜的交互關系。

面對非常復雜的交互關系,Sora 有時會無法理解。比如視頻中老奶奶在吹蠟燭,但蠟燭卻并沒有熄滅,這體現出當主體角色和多個對象要發生交互關系時,Sora 會容易生成錯誤。

不足 3:混淆空間細節。

這里我們可以明顯看出,幾只小狗跑著跑著,從空氣中憑空生出一只新的小狗。

不足 4:難以精確描述隨時間推移發生的事件。

關于這一點官方沒有給出對應的案例視頻,大家之后可以多關注下后續的 demo。

視頻來源:Sora 官網

接下來,我們將 Sora 和目前市面上熱門的幾個 AI 視頻模型,做一下生成效果的橫向對比,大家就能從最直觀的角度,感覺到 Sora 在 AI 視頻領域上領先的程度了。

3. AI 視頻模型競品分析對比

我們搜集到了網絡上針對這幾家的視頻效果實測,這里的方法是將 Sora 視頻的文本指令輸入到競品平臺中,用同一組關鍵詞做生成效果對比,從而可以對比出幾家競品 AI 視頻的能力特點。

第一組對比案例,可以看出 Runway 根據這段提示詞生成的畫面風格并不時髦,反而比較復古;Pika 生成的視頻畫風捕捉是準確的,但沒能體現出提示詞中的五官信息,呈現出的是背影,以及人物動作幅度非常小,幾乎感覺不出來。而且最直觀的感受是 Runway、Pika 生成的視頻都更像是一張 “動圖”,而 Sora 則更像是一個 “視頻短片” 。

視頻來源:抖音@AIGPT5

除此之外,我們也根據之前的 AI 視頻模型使用心得做了一個更詳細的橫向對比分析圖表,我們對比的競品有 Runway、Pika、SD 旗下的 AI 視頻模型 Stable Video Diffusion。

從功能全面度上看,Sora 和 Stable Video Diffusion 略勝一籌,除了可生成視頻以外還可以生成圖片等內容,而 Runway 和 Pika 只能生成視頻。

萬字干貨!Sora 如何如何轉化為實際生產力?

在模型特點上,Runway 生成視頻的動態幅度還是比較大的,但是對文本指令理解不夠精準,導致特定動作表現不夠精準或者表現不出來,細節質感有待提升;Pika 動態細膩度較好,但是動態幅度小;Stable Video Diffusion 是 4 個競品中穩定性最差的,不支持鏡頭機位變化,所以畫面會顯得比較死板;而 Sora 不管是從畫面連貫性、動態幅度、畫面豐富度以及多角度鏡頭變化上都是有很大優勢的。

在畫質效果上,Runway 畫質最佳,會員版可以生成 4K 畫質,其次是 Pika、Sora 可滿足大部分畫質要求。

在視頻時長維度,Sora 也一騎絕塵,它可以生成最長 60 秒的視頻,而其余的幾個競品基本都在幾秒或者不超過 20 秒的區間里。

綜合來看,如果 Sora 在公測后的表現和目前展示的視頻案例效果一致的話,毫無疑問它將會是最強大的 AI 視頻模型,不過我們也認為 Runway、Pika 這兩個模型可以用于 AI 視頻的一些輔助工作。

以上就是第一章節關于 Sora 調研分析的三大特點、優勢能力以及目前不足的介紹,總體來說 Sora 這些特點和優勢都能很好的賦能我們的實際工作。

第二章節:實際工作的應用

我們團隊經過去年一整年的深入技術鉆研,積累了數以百計的 AI 實戰項目經驗,這些實踐不僅為公司顯著降低了時間及人力成本,還極大地拓展了設計師的創意表現力,有效地提升了工作效率。然而在 AI 視頻應用方面,我們的探索尚屬初步階段,還有很多空間等待我們去發掘和突破。因此我們還對其做了進一步的討論和推演,深入剖析如何在實際工作中靈活運用 Sora,希望能在 AI 視頻領域實現更大的突破與創新。

我們將工作中的應用場景劃分為兩個主要方向:商業視頻項目和原創 IP 視頻。

1. 首先是商業視頻項目

我們把商業的工作流程分成了三個階段,分別是提案階段、策劃階段、執行階段。

萬字干貨!Sora 如何如何轉化為實際生產力?

階段一:提案階段

我們認為 Sora 能直接起到作用就是快速對齊,激發創意靈感。對應這個階段的受眾人群就是和客戶溝通的銷售或策劃老師。我們在執行商業需求時面臨最大的挑戰就是和客戶對齊效果,一旦效果對不齊,后續整個項目就會偏離方向。比如當客戶說他想要“高端大氣”的設計效果,但對于“高端大氣”的定義每個人都不同,所以僅憑字面理解難以把握客戶的真實需求,也就難以呈現出客戶心目中的理想效果。而一旦引入 Sora,它能夠協助我們快速輸出多個創意提案,用具體提案 demo 快速和客戶對齊預期,確保提案更貼近客戶的需求。

作用 1:快速對齊預期。Sora 能夠快速且低成本的產出視頻 demo,這個我想大家都已經有所了解,所以 Sora 能幫助我們在視覺風格、鏡頭語言、節奏調性、場景布局等方面,去和客戶做對齊預期,還能根據客戶的反饋迅速做出調整。

視頻來源:Sora 官網

作用 2:高效的靈感激發。我們能夠快速激發創意,無需再耗費大量時間在各渠道搜尋參考。只要有了 Sora,無論是何種風格或細節片段,我們都能輕松實現。

我們來看一個案例,這是小紅書網友@sqlksq 通過 Runway 生成視頻后,后期剪輯合成制作的奧迪汽車廣告 demo,可以看到整個視頻的質感調性、鏡頭運用、節奏把控等方面效果都不錯。類似這種 demo 通過 AI 實現起來非常快速,能夠替代傳統提案環節的文字描述方式給客戶展示,以便更好地對齊預期效果。盡管這只視頻是 Runway 生成的,但我們預測一旦 Sora 開放,其制作水平必將達到與之相當的高度,甚至有望超越。這樣的流程不僅提升了效率,還為我們與客戶之間的溝通提供了更為直觀、高效的工具。

當視頻在手機上無法加載,可前往PC查看。

視頻來源:小紅書@sqlksq

我們再來看一個官方視頻案例,一部電影預告片,可以看出這個片子并非遵循傳統的敘事邏輯,卻巧妙地展現出了大牌奢侈品廣告的格調,設想一下,如果現在有客戶希望拍攝一部太空科幻類題材的奢侈品廣告片,那么我們不僅能借助 Sora 生成樣片,也能在分鏡畫面,剪切節奏上得到一些靈感啟發,能助力我們打造出更具創意和吸引力的廣告作品。

視頻來源:Sora 官網

階段二:策劃階段

萬字干貨!Sora 如何如何轉化為實際生產力?

Sora 能實現更低成本、更便捷的視頻方案。這個階段的受眾是編導老師和策劃老師,策劃階段的核心在于如何有效地將創意提案落地實施,這其中可能涉及了拍攝對象的選擇、高難度拍攝技術的運用、以及解決資金問題等多個關鍵環節。通過 Sora 的助力就能夠大大節省在拍攝環節的資金投入,有效地縮短拍攝周期,降低時間成本,從而推動整個視頻項目的順利進行。下面我們依次看下。

作用 1:搞定拍攝對象。在策劃階段,我們首要解決的就是確定拍攝對象。我們知道 Sora 有強大的語義理解能力,它能夠保持主體在空間的一致性,為我們應對各種拍攝需求提供了有力支持。

視頻來源:Sora 官網

作用 2:搞定高難度拍攝。因為 Sora 具有長鏡頭的穩定性以及多角度的運鏡能力,所以能夠替代那些條件限制或設備不足的高難度拍攝工作,比如航拍,微距拍攝等等。

左側視頻來源:Sora 官網 右側視頻來源:Twitter@billpeeb

作用 3:補全素材。前面提到 Sora 強大的視頻前后延伸功能,這一點可以在補全素材方面發揮巨大作用。能夠幫助我們把拍壞,沒拍夠的視頻素材,做向前向后的延長,進一步完善素材,達到變廢為寶的效果。

視頻來源:Sora 官網

作用 4:后期創意實現。Sora 可以將兩個視頻自然無縫得合成過渡成一個視頻,那么通過 Sora 的合成能力來輔助我們的創意工作,不僅提升了創意的呈現效果,還能大幅降低拍攝和后期環節的制作成本。

階段三:執行階段

萬字干貨!Sora 如何如何轉化為實際生產力?

Sora 可以提供高質量的視頻素材,輔助項目執行階段工作提效,這個階段的受眾是剪輯老師們。執行環節面臨最大的挑戰點是缺少或者完全沒有視頻素材,如同“巧婦難以為無米之炊”。然而通過 Sora,我們可以輕松輸出精準且海量的高質量素材庫,這不僅極大地節省了剪輯師在篩選和尋找合適素材上所耗費的時間,也能提供高質量的視頻素材,為我們的視頻制作提供了更廣闊的創作空間。這個階段分成了三個點,我們來依次看下。

作用 1:精準&高質量素材庫。Sora 具備文生視頻、圖生視頻,視頻生視頻以及視頻延長這些特性,都能夠精準的生成視頻素材。現在 AI 視頻實踐應用的主流方式就是圖生視頻,其次是視頻生視頻,這兩種生成方式的穩定性較好,可以為項目提供大量的素材補充。同時,Sora 還能生成高質量的視頻素材,通過豐富的鏡頭語言和統一的故事主角,大大提高了素材的質量和實用性。

作用 2:素材可用性提升。Sora 最多能生成 60s 的視頻,生成時長的延長為我們提供了更多的切片可能性,我們可以從中挑選出最佳素材,大大提升了素材的可用性。

作用 3:多尺寸素材。在 1920 像素下的可以生成任意比例內容,無論橫屏還是豎屏都能完美適配,方便在實際工作中應對各種視頻需求。

萬字干貨!Sora 如何如何轉化為實際生產力?

2. 原創 IP 視頻項目

剛才講的都是在商業項目工作流程 Sora 的應用,那么回到我們團隊的原創 IP 視頻項目上,來看下 Sora 在我們現有的 AI 工作流程中能有什么新的加成?以及我們還會再分享一個全新的工作流程的案例,供大家參考和學習。

1. 目前使用 AI 的工作流程

先看一個我們團隊既往視頻項目的部分片段,一個新款手機發布的預熱視頻,要求制作一個時長 2 分鐘的視頻,但由于是新機尚未發布,為了保密工作不能提前曝光太多信息,能提供的手機素材只有 40 秒,同時視頻畫面要求融入較多的東方美學意境,這意味著我們需要很多高質量的素材來豐富內容,我們當時的解決方案是先使用 Midjourney 生成合適的素材圖片,放到視頻里,再配合內容做一些動態文字,讓內容盡量“生動”起來,盡管如此,最終的視頻效果看起來還是較為呆板,沒能達到我們理想的效果。但如果使用 Sora,我們就能把生成的靜態圖片轉化為帶有中國風的動態視頻了,也更能體現客戶想要的東方美學的意境,也能大大提升整個視頻的質感。

下面這個是我們團隊一個原創公益項目——《開學季》AI視頻的部分片段,所有AI人物都取材于真實人物和真實故事,由于有特殊群體的學生不方便露面,所以我們最終用AI形象來代替真實人物出鏡,首先用Midjourney生成角色人物的數字形象,再用D-ID生成了模擬說話的視頻,但視頻還存在一些待優化的方面,比如人物的動作幅度比較小,只有頭部微動,背景圖片幾乎沒有動態等。如果使用Sora就能直接生成動作自然流暢的人物形象,以及有動態效果的背景視頻。再配合對口型的AI工具,就能得到一段細膩豐富,又有肢體語言和動態背景的視頻作品了。

2. 全新工作流程

說完目前的工作怎么做提升,我們再介紹一個使用 AI 的工作流的案例,我們覺得對于做原創 IP 視頻也是有一定的啟發性,這是 B 站網友@數字生命卡茲克制作的《流浪地球 3》的 AI 預告片,是一支完全用 AI 制作完成的視頻短片,以及圍繞 AI 視頻制定的工作流程,整體效果既兼顧了視頻質感實現創意起飛,又通過 AI 工具實現了整體提效。

使用的工具是 Midjourney 和 Runway,短片還被郭帆導演(流浪地球導演)點贊了。我們來看一下博主自己分享的經驗,他說按照以前做片子的制作流程,從建模到渲染,再到剪輯,需要一個月的時間。但現在這只視頻短片他只花了下班后的 5 個晚上,就全部制作完成了。共生成了將近 700 張圖片,并用這些圖片生成了 185 個鏡頭,最終使用了 60 個鏡頭剪輯。

當視頻在手機上無法加載,可前往PC查看。

視頻資料來源:B 站@數字生命卡茲克

他的流程很簡單只有 2 步,第 1 步用 Midjourney 生成分鏡圖,他通過固定風格詞的方式來保持視覺風格的統一。第 2 步就是用 Runway Gen2 圖片生視頻的能力,生成了 185 個 4 秒視頻,但其中 4 秒全部能用的視頻只占一兩個,大部分都是只能用其中的 1 到 2 秒,但對于做短片剪輯也夠了,整個工作流程高效且低成本,那么我們之后碰到類似情況,就可以通過這種 AI 生視頻的方式來解決問題,這樣既保持了視頻質量,又能夠大大提升我們的工作效率。

那么以上,就是我們總結的第二章節,Sora 在工作流程中的應用,當然 Sora 的應用場景遠不止我們以上舉例的這些,希望能對大家有所幫助和啟發,相信大家也能結合自己的實際工作實踐出 Sora 更多應用的可能性……

第三章節:展望、儲備和行動

那么最后我們也對 Sora 的未來做了一些展望與期待,以及面對 Sora 我們當下可以做哪些,為公測做好充分的準備,才能更從容迎接它的到來。我們相信通過我們的努力和儲備,一定能夠從容應對各種挑戰和變化。

1. 未來展望

時間:Sora 有望半年內正式發布。

關于正式發布時間目前大概有兩種預測

  1. 預測一,參考 ChatGPT 和 Midjourney 半年一次的迭代速度,如果測試 Sora 需要差不多的時長,我們推測 Sora 有望在 8 月份正式發布;
  2. 預測二,有言論考慮到今年是美國大選的一年(2024 年 11 月 5 日),由于 Sora 天然帶來的深偽隱患,所以 OpenAI 應該會慎重考慮,推遲 Sora 的正式發布時間。

萬字干貨!Sora 如何如何轉化為實際生產力?

進化:Sora 很快就會有質的飛躍。前面第一章節有提到,對于 Sora 目前的一些短板和不足,官方都是直言不諱地披露出來,意味著 OpenAI 清楚地知道問題所在和改進方向,參考 GPT 和 Midjourney 對于邏輯問題的處理和手指細節的優化都是一個大版本就基本解決了,相信 Sora 在不久的將來,就會有可預見的質的飛躍。

阻力:使用 Sora 會有一定的門檻。鑒于 ChatGPT 在國內使用受限的情況,估計 Sora 也會面臨同樣的窘境,需要準備合規的賬號;參考 Midjourney、ChatGPT 等效果強大的 AI 模型都是付費模式,預測 Sora 后面也是需要付費使用的。

2. 提前儲備

我們在大量研究 Sora 官方案例和對應的文本指令后,又結合我們自身使用 AI 生成視頻的相關經驗,我們認為大家可以儲備一些視頻拍攝術語、畫面與鏡頭感、分鏡以及提示詞技巧等相關的專業能力,能幫助我們更快、更直接地得到想要的視頻效果。那么我們具體看下需要儲備的 5 個方面內容。

儲備 1:學習拍攝相關的專業術語。我們常聽見這樣的記憶口訣——遠全中近特,推拉搖移跟。前者說的是景別,后者說的是運鏡。還有不同的拍攝角度,貼地角度能體現神秘感,仰拍鏡頭能彰顯主體的力量,對應的俯拍鏡頭就可以削弱被拍攝者的力量,而鳥瞰鏡頭一般帶來一種審判感。熟知這些專業術語,有助于我們后面在使用Sora時,能更快、更直接地得到自己想要的視頻效果。

萬字干貨!Sora 如何如何轉化為實際生產力?

還有我們經常聽到的升格鏡頭,通過幀率上的升格,可以拉長戲劇時間,增加細節顆粒度。以及前段時間爆火的電視劇《繁花》,就運用了大量的前景鏡頭,來平衡畫面重心,突出遠近對比,拉伸縱向空間,來加強畫面質感,提升了整體畫面的氛圍感。

當視頻在手機上無法加載,可前往PC查看。

儲備 2:提升自己的畫面想象力。簡單說就是提前設想出具體畫面。我們只有先想象出來自己想要什么內容,才能用分鏡語言描述給 Sora。如何提高畫面想象力,歸納為一句話就是:多看,多積累。比如去看豆瓣的榜單、IMDB 的榜單等,但不能盲目無目標地看,帶有目的去看,在閱片無數后你就會有不一樣的收獲。

萬字干貨!Sora 如何如何轉化為實際生產力?

舉個案例,像狗神里面最后一幕——在生命的最后一刻,男主角道格完成了自我救贖。他像嬰兒學步一樣,踉踉蹌蹌地走向晨光中的教堂,然后平靜地倒在了十字架的陰影上。他照顧過的狗,一圈一圈圍攏過來,像他的信徒,也像護送他升入天堂的"天使"。像這樣的情緒升華,如果你沒看過原片就沒有對應的畫面感,想象不出來。

當視頻在手機上無法加載,可前往PC查看。

儲備 3:學習視頻分鏡能力。換言之就是培養用文字語言描述畫面的能力。去年文生圖類 AI 工具大爆發的時候,如果大家體驗過應該會有這種感受——當玩具用全是驚喜,當工具用全是驚嚇。當玩具用時,因為沒有目標,所以輸出的內容完全是超出你預期的;而當你有一個工作任務,想要讓AI生成特定的視覺效果時,發現它沒那么好用了。所以當你能夠準確的描述出你想要的畫面內容,生成的結果就離你的預期更近了一步。如上的情況類比到文生視頻這個領域,如果你掌握了視頻分鏡能力,用文字精準描述出心中所想的畫面,也就距離生成你想要的視頻內容更近了一步。讓我們看下面的具體例子,大家就會有更直觀的感受,描述1的分鏡非常概括,生成的結果如何,我們不可知。描述2的分鏡更準確,所以得到的結果也就更符合預期,這種畫面描述的能力就是我們說的分鏡能力。

萬字干貨!Sora 如何如何轉化為實際生產力?

除此之外,持續閱讀也是提升分鏡能力的有效手段。各位可以感受一下金庸《書劍恩仇錄》里的一段精彩的文字描寫,無論是細膩的場景描繪,還是人物動作的生動刻畫,都顯得極為生動。僅憑這段文字,相信大家的腦海中已經有一幅幅生動的畫面感了。

萬字干貨!Sora 如何如何轉化為實際生產力?

儲備 4:歸納提示詞公式。文本提示詞就是現階段 AIGC 工具的一個基本用法,那么總結歸納提示詞的使用規律,就成了我們更好使用 AIGC 工具的一個必經之路。

通過查看官方的視頻提示詞,我們逆向反推出來的 Sora 提示詞公式大致是——Prompt=場景描述+角色描述+風格描述+技術細節,當然現階段Sora尚未正式發布,提示詞公式的有效性還有待驗證,但是整個思路是沒有問題的。接下來我們以官方的視頻提示詞為例,做一下歸納分析大家就能有直觀地了解。

萬字干貨!Sora 如何如何轉化為實際生產力?

儲備 5:提高提示詞描述的準確性。眾所周知無論是 ChatGPT 還是 Midjourney,抑或是將來正式發布的 Sora,它們在訓練時接觸的英文學習資料是最多的,所以和它們交流互動,英語描述也是最準確的。我們做個假設——假如前面的4種能力我們都具備了,但在最后和Sora互動的過程中,因為英文提示詞的描述不是很準確得不到想要的畫面,是不是還挺糟心的?

當然我們可以借助各種翻譯工具,把提示詞翻譯成英文,但有些時候還是不盡理想,因為 AIGC 的提示詞有自己特定的格式,這和我們日常接觸的英文格式是有差異的,所以我們認為好的日常英文翻譯對于 Sora 而言,不見得是最好的提示詞。

下圖是用"大漠孤煙直,長河落日圓" 詩句,通過百度翻譯、谷歌翻譯和 ChatGPT 給出的 Midjourney 提示詞生成的結果,可以看到圖 1 沒有畫出“煙直”,圖 2 像世界末日,圖 3 整體更符合詩句描繪的畫面。大家如果感興趣可以用 ChatGPT 試著寫寫提示詞,感受一下和翻譯軟件兩者之間的個中差異。當然這里并不是說 ChatGPT 一定就是最好的,這里只是給大家拋磚引玉,讓大家感受下在不同平臺的翻譯結果可能帶來的一些效果偏差。具體用哪個翻譯工具,大家可以按照自己實際的使用感受來做判斷。

萬字干貨!Sora 如何如何轉化為實際生產力?

相信通過我們的努力和儲備,一定能夠從容應對各種挑戰和變化迎接 Sora。那么聊完關于 Sora 的展望和儲備工作,現在我們除了繼續等待 Sora 正式發布外,此時此刻我們還能做哪些事情?

3. 近期 TO DO

動作 1:嘗試獲得自主提示詞的視頻效果。目前我們所能參考的除了官方公布的視頻 demo 外,就是 OpenAI CEO 和員工在推特上回復網友提示詞的視頻 demo,如果想測試自主撰寫的提示詞的視頻生成效果,大家可以在 Twitter 上@山姆·奧特曼和 OpenAI 的員工,有可能會被回復。

動作 2:第一時間申請測試名額。現階段 Sora 處在紅隊對抗測試的階段,如下是紅隊測試的申請網址,感興趣的同學可以關注一下。

紅隊測試申請網址:https://openai.com/form/red-teaming-network

動作 3:做好現階段的學習儲備。我們可以先借助 Runway 生成視頻進行實踐練習;同時繼續鉆研提示詞技巧,無論 Runway 還是 Sora,精準的提示詞都是我們得到預期效果的關鍵環節,我們現在就可以儲備一些相關技巧;此外還有腳本撰寫、視頻編輯等很多相關領域等待我們去探索學習;最后就是盡快行動起來,不是有句話這么說嘛—— “種一棵樹最好的時間是十年前,其次是現在!”

備注:第三章內容除了團隊成員間的討論、整理撰寫外,我們也吸收了很多優秀同行的觀點和案例,正是因為有他們珠玉在前,才使得這一章讀起來充實、生動、飽滿。我們把鏈接也附在了最后,供大家詳細了解和進一步學習。

好了,以上就是我們本篇文章關于的 Sora 從理論分析,到如何將 AI 技術轉化為實際生產力,以及為了迎接 Sora 我們可以做哪些知識儲備的具體內容。

寫在最后

我們當下不用過度神話 Sora,因為 Sora 仍有很多的技術問題、產品、商業問題亟待解決;但同時我們也不要低估 AI 的進步速度,AI 正在以超出我們理解的速度不斷迭代進化。

Sora 模型對外發布后,重新定義了 AI 文生視頻在現階段的技術極限,顛覆了生成式 AI 在視頻領域的全球市場格局,其影響力已經滲透到設計、影視、廣告等多個領域,它成為推動行業進步的重要力量,為整個行業帶來了技術革新和效率提升。它改變了傳統的視頻制作流程,使得復雜的視頻處理任務變得自動化和高效化。Sora 還推動了行業內的交流與合作,加速了 AI 技術在各個領域的融合與發展,為整個行業帶來了更多的創新機會和發展空間。

對于個人設計師而言,Sora 模型的發布意味著我們擁有了一個強大的創作工具。可以大大幫助我們提高工作效率和工作質量,為我們提供了更廣闊的創作空間,我們可以充分利用 Sora 模型的功能和優勢,激發創新思維,提升技能水平,拓寬設計領域,從而不斷提升自身的設計能力,為自己的職業發展打開更多的可能性。

相關資料參考:

  1. Sora 官網:https://openai.com/sora
  2. Sora 官方技術報告: https://openai.com/research/video-generation-models-as-world-simulators
  3. 《Sora 來之前我們應該干什么?》:https://mp.weixin.qq.com/s/ORfPbDT_2mRHZ7X_6P2gyw
  4. 《Sora 上線 72 小時,誰在興奮?誰在顫抖?》 https://www.dedao.cn/share/course/article?id=Ozpeyw8lG6QaXkng5EJRd1ZoA75NLB&trace=eyJzX3BpZCI6IjEwODExMSIsInNfcHR5cGUiOiI2NSIsInNfdWlkIjo0MTQ5MDN9

如轉載請與公眾號聯系獲取內容授權,轉載時請連同下方內容一起轉發

歡迎關注官方微博公眾號:「MDC 設計中心」,長按二維碼 輕松關注

萬字干貨!Sora 如何如何轉化為實際生產力?

收藏 51
點贊 52

復制本文鏈接 文章為作者獨立觀點不代表優設網立場,未經允許不得轉載。