背景介紹
隨著虎牙平臺(tái)的直播內(nèi)容日益豐富,越來(lái)越多的用戶會(huì)對(duì)直播中的精彩鏡頭更加關(guān)注,那么如何讓用戶快速甚至實(shí)時(shí)地回顧到直播中的精彩鏡頭成了值得關(guān)注的問(wèn)題。直接的人工剪輯需要耗費(fèi)大量人力,我們希望通過(guò)設(shè)計(jì)算法來(lái)自動(dòng)剪輯,將好看的精彩鏡頭實(shí)時(shí)呈現(xiàn)給觀眾,同時(shí)精彩鏡頭作為直播過(guò)程中沉淀下來(lái)的優(yōu)質(zhì)內(nèi)容,也能夠在后續(xù)不同的產(chǎn)品形態(tài)上發(fā)揮作用。
什么是AI實(shí)時(shí)剪輯
所謂AI實(shí)時(shí)剪輯,主要是通過(guò)AI識(shí)別技術(shù)實(shí)時(shí)分析直播視頻流內(nèi)容,自動(dòng)捕捉直播過(guò)程中的精彩高能看點(diǎn),通過(guò)一定的剪輯規(guī)則,實(shí)時(shí)剪輯出精彩視頻片段入庫(kù),通過(guò)建立直播到視頻的自動(dòng)化生產(chǎn)能力,達(dá)到實(shí)時(shí)沉淀直播平臺(tái)高價(jià)值內(nèi)容的目的。直播過(guò)程雖然可以產(chǎn)生大量的錄像內(nèi)容,但由于直播時(shí)間長(zhǎng),導(dǎo)致直播錄像中冗余內(nèi)容較多,精彩看點(diǎn)分布比較稀疏,不足以吸引眼球,相較于短視頻存在較大劣勢(shì),無(wú)法直接產(chǎn)生沉淀或分發(fā)價(jià)值。AI實(shí)時(shí)剪輯相當(dāng)于把直播過(guò)程中的精彩內(nèi)容實(shí)時(shí)沉淀為看點(diǎn)稠密的短視頻內(nèi)容,提升存量?jī)?nèi)容的價(jià)值。
圖1 直播內(nèi)容實(shí)時(shí)沉淀
有哪些應(yīng)用場(chǎng)景
剪輯片段作為平臺(tái)沉淀下來(lái)的優(yōu)質(zhì)內(nèi)容,可以直接分發(fā)推薦或者二次加工,以不同的產(chǎn)品形態(tài),助力內(nèi)容生產(chǎn)。
1)直播間推薦。實(shí)時(shí)看點(diǎn)內(nèi)容,可滿足用戶實(shí)時(shí)回顧精彩看點(diǎn)的需求,提升用戶的觀看體驗(yàn)。如圖2所示,在王者榮耀主播直播間,實(shí)時(shí)推薦主播在直播過(guò)程中展示的精彩操作或游戲內(nèi)容片段,用戶可以選擇性地在直播間切換直播和精彩點(diǎn)播內(nèi)容,加強(qiáng)了用戶在直播間的內(nèi)容互動(dòng)。這些精彩看點(diǎn)的實(shí)時(shí)呈現(xiàn),從平臺(tái)內(nèi)容生態(tài)來(lái)說(shuō),在某種程度上是對(duì)直播內(nèi)容的補(bǔ)充,同時(shí)精彩看點(diǎn)產(chǎn)量也是對(duì)主播輸出的一種隱式激勵(lì),激勵(lì)主播持續(xù)產(chǎn)出高質(zhì)量的直播內(nèi)容,形成良性循環(huán)。
圖2 直播間實(shí)時(shí)推薦
2)二次加工內(nèi)容生產(chǎn)。一方面,AI剪輯內(nèi)容作為短視頻生產(chǎn)的優(yōu)質(zhì)素材渠道,可通過(guò)二次加工做站內(nèi)投放,助力視頻內(nèi)容生產(chǎn)。比如“王者TOP10”,視頻后臺(tái)自動(dòng)將王者榮耀熱門直播間中發(fā)生的Top高能片段(加轉(zhuǎn)場(chǎng)動(dòng)畫)整合成視頻集錦。另一方面,直播到視頻的自動(dòng)化生產(chǎn)能力,可極大提升運(yùn)營(yíng)類素材內(nèi)容的獲取效率和實(shí)時(shí)性。素材生產(chǎn)的流水線作業(yè)不僅提供了更加豐富的素材來(lái)源,也極大地減少了人力物力的投入,達(dá)到為平臺(tái)降本增效的目的。
AI剪輯技術(shù)實(shí)踐
主要的實(shí)踐難點(diǎn)和挑戰(zhàn)來(lái)自兩個(gè)方面,1)如何搭建直播到視頻的自動(dòng)化生產(chǎn)流程,2)如何實(shí)現(xiàn)精彩識(shí)別和剪輯算法。
直播到視頻自動(dòng)化生產(chǎn)流程
首先需要建立一套完備的直播到視頻的實(shí)時(shí)生產(chǎn)通道,保證多品類剪輯在工程上的可擴(kuò)展性。如圖3所示,涉及到三個(gè)環(huán)節(jié)。1)音視頻環(huán)節(jié)拉取CDN錄制流并完成解碼;2)AI算法,對(duì)視頻流進(jìn)行精彩識(shí)別分析和剪輯信息結(jié)構(gòu)化生成;3)視頻后臺(tái)入庫(kù),基于剪輯結(jié)構(gòu)化信息,調(diào)用CDN裁剪接口,生成精彩視頻片段并存入至視頻庫(kù)。視頻后臺(tái)和音視頻均拉取CDN錄制流,保證了時(shí)間戳與視頻內(nèi)容的統(tǒng)一對(duì)齊。AI算法將剪輯與識(shí)別分離,識(shí)別能力統(tǒng)一分發(fā)調(diào)度,做無(wú)狀態(tài)任務(wù)處理,保證識(shí)別結(jié)果簡(jiǎn)單通用。剪輯邏輯統(tǒng)一后置,按品類生成精彩片段和標(biāo)簽,統(tǒng)一協(xié)議輸出至視頻后臺(tái)。生產(chǎn)流程可快速支持新品類上線,在協(xié)議完備的前提下,音視頻和視頻后臺(tái)的上下游接口無(wú)需做任何變動(dòng)。
圖3 直播到視頻自動(dòng)化生產(chǎn)流程
多品類精彩識(shí)別與剪輯算法
由于直播內(nèi)容的差異性,精彩識(shí)別算法是分品類進(jìn)行的,我們將重點(diǎn)介紹王者榮耀、斯諾克賽事和足球賽事。
游戲品類:王者榮耀
預(yù)定義精彩片段類型20多種,主要為王者游戲中的高能事件(比如三連決勝/高能團(tuán)戰(zhàn)/殘血反殺等)。對(duì)于游戲直播而言,精彩片段是相對(duì)于玩家視角來(lái)講的,只有玩家視角的內(nèi)容才能體現(xiàn)在直播視頻流中,因此,核心的挑戰(zhàn)點(diǎn)是要獲得玩家視角下的精彩片段。
識(shí)別階段,識(shí)別框架融合了包括特征匹配、圖像分類、目標(biāo)檢測(cè)、OCR在內(nèi)的多種視覺(jué)技術(shù)(圖4),識(shí)別出包括玩家英雄、擊殺雙方英雄、英雄陣營(yíng)、英雄位置、播報(bào)文本等在內(nèi)的多種對(duì)局基礎(chǔ)信息。核心點(diǎn)在于:1)預(yù)處理模塊,布局分析獲取游戲區(qū)域,確保游戲畫面的一致性,排除直播模板情況下非游戲區(qū)域的噪聲干擾。2)技能區(qū)域分支,通過(guò)技能圖標(biāo)特征確定玩家英雄,過(guò)濾所有非玩家視角的事件。3)播報(bào)區(qū)域分支,通過(guò)攻防雙方的英雄頭像特征獲得英雄類型和所屬陣營(yíng),播報(bào)文本由OCR識(shí)別。4)血條檢測(cè)分支,通過(guò)血條的位置和顏色可以確定英雄位置和陣營(yíng),左右顏色統(tǒng)計(jì)確定大致血量(滿血還是殘血),為場(chǎng)上局勢(shì)提供更豐富的語(yǔ)義。
圖4 王者基礎(chǔ)識(shí)別項(xiàng)生產(chǎn)
剪輯階段如圖5所示,通過(guò)識(shí)別項(xiàng)的邏輯組合推導(dǎo)出精彩事件,同時(shí)獲取事件相關(guān)聯(lián)的英雄、局勢(shì)、事件起止時(shí)間點(diǎn)等信息,比如“高能團(tuán)戰(zhàn)”事件,業(yè)務(wù)定義是“畫面至少出現(xiàn)3V3,且5s內(nèi)主播擊殺”,算法則需要綜合以下信息進(jìn)行邏輯推導(dǎo):a)畫面中敵我英雄人數(shù)信息;b)擊殺事件信息;c)擊殺方是否為主播玩家英雄。新生產(chǎn)的事件會(huì)送至各自隊(duì)列緩存,緩存區(qū)上可利用時(shí)序上的上下文信息確定片段起止時(shí)間點(diǎn),以及進(jìn)行英雄等附屬標(biāo)簽的糾錯(cuò),提升精彩事件內(nèi)容的精度。
圖5 識(shí)別項(xiàng)生成精彩片段
體育品類:斯諾克賽事
對(duì)于斯諾克賽事,我們預(yù)定義了6 種精彩事件類別,主要為斯諾克賽事中發(fā)生的不同擊球和進(jìn)球方式,具體包括白球進(jìn)袋、扎桿、翻袋、解球、長(zhǎng)臺(tái)進(jìn)球以及其他進(jìn)球,這些均為斯諾克賽事專用術(shù)語(yǔ),這里不再一一解釋。核心目標(biāo)是對(duì)這些特定類型的擊球或進(jìn)球片段在直播視頻流中進(jìn)行定位和標(biāo)簽識(shí)別,首先想到的是嘗試通過(guò)視頻分類模型來(lái)進(jìn)行建模,做逐個(gè)視頻片段的7分類任務(wù)(6種事件+其他類別)。但從結(jié)果上來(lái)看,在保證一定精度的前提下,直接視頻分類的結(jié)果對(duì)各類精彩事件的召回非常低,原因在于斯諾克球在直播畫面上的占比非常小,直接使用視頻分類模型很難捕捉到不同擊球或進(jìn)球方式的視覺(jué)特征差異。
圖6 斯諾克賽事及轉(zhuǎn)場(chǎng)動(dòng)畫示例
為了提升對(duì)精彩事件的召回,我們觀察了各類斯諾克賽事視頻,發(fā)現(xiàn)精彩事件通常會(huì)伴隨著如圖6所示的轉(zhuǎn)場(chǎng)動(dòng)畫,也就是導(dǎo)播會(huì)對(duì)斯諾克賽事中的關(guān)鍵事件做一個(gè)視頻回放,統(tǒng)計(jì)發(fā)現(xiàn)這種回放片段可以定位出絕大部分精彩事件。轉(zhuǎn)場(chǎng)動(dòng)畫過(guò)后的視頻回放過(guò)程中導(dǎo)播會(huì)拉近鏡頭與球臺(tái)的距離,讓整個(gè)回放畫面更加聚焦在選手的擊球方式和球的運(yùn)行軌跡上。基于這種先驗(yàn)信息,我們?cè)O(shè)計(jì)了如圖7所示的兩階段的算法來(lái)提升對(duì)精彩事件的召回。第一階段,通過(guò)特征模型建立動(dòng)畫庫(kù),通過(guò)匹配視頻片段特征來(lái)粗定位精彩事件的位置,通常由于單一賽事的動(dòng)畫一致性較好,動(dòng)畫匹配的精度較高,這一階段相當(dāng)于通過(guò)高精度的匹配方案過(guò)濾了絕大部分的非精彩事件片段;第二階段基于動(dòng)畫定位結(jié)果獲取回放視頻片段的起止時(shí)間點(diǎn),利用回放視頻片段數(shù)據(jù)訓(xùn)練視頻分類模型,為回放片段打上不同類別的細(xì)分標(biāo)簽。第一階段的匹配過(guò)程過(guò)濾了大部分噪聲,相當(dāng)于簡(jiǎn)化了第二階段對(duì)細(xì)分類別的識(shí)別難度。
圖7 兩階段精彩識(shí)別算法
通過(guò)上述兩階段識(shí)別算法可以獲得回放片段的事件類別,但是如果要輸出一個(gè)完整的視頻內(nèi)容片段,需要找到真實(shí)內(nèi)容的起止時(shí)間點(diǎn)。我們?cè)O(shè)計(jì)了一套如圖8所示的流程,通過(guò)引入鏡頭切分模塊來(lái)保證視頻內(nèi)容的完整性,圖示中藍(lán)圈和紅圈分別代表回放內(nèi)容的起始點(diǎn)和結(jié)束點(diǎn),藍(lán)色三角形為鏡頭切分點(diǎn)。剪輯模塊實(shí)時(shí)獲取動(dòng)畫打點(diǎn)模塊、細(xì)分標(biāo)簽?zāi)K和鏡頭切分模塊的結(jié)果,來(lái)確定目標(biāo)片段的起止點(diǎn)。具體來(lái)說(shuō),將回放內(nèi)容的結(jié)束點(diǎn)作為目標(biāo)片段的結(jié)束點(diǎn),結(jié)合預(yù)定義的各類型片段的期望時(shí)長(zhǎng),按期望時(shí)長(zhǎng)往前回溯粗定位一個(gè)起始點(diǎn),比如回溯20s,然后再?gòu)?0s的位置再往前找到最近的一個(gè)鏡頭切分點(diǎn),將這個(gè)鏡頭切分點(diǎn)作為事件內(nèi)容的起始點(diǎn),在一定程度上保證了精彩片段內(nèi)容在鏡頭維度的完整性。
圖8 斯諾克精彩識(shí)別與剪輯
體育品類:足球賽事
對(duì)于足球賽事,我們預(yù)定義了如圖9所示的17種精彩事件類型。主要識(shí)別難點(diǎn)包括:1)細(xì)粒度的問(wèn)題:黃牌紅牌,關(guān)鍵信息視覺(jué)區(qū)域小,顏色也容易跟球場(chǎng)上其他物體撞色;依靠檢測(cè)費(fèi)時(shí)費(fèi)力費(fèi)標(biāo)注,也很難收集到非常多的樣本;2)視覺(jué)區(qū)分度的問(wèn)題:部分事件有較為復(fù)雜的判斷邏輯,甚至球迷僅憑畫面信息也很難分辨,需要借助更多模態(tài)的能力來(lái)識(shí)別;3)視角差異:實(shí)際賽事直播中會(huì)放置多個(gè)相機(jī),導(dǎo)播會(huì)根據(jù)賽事情況進(jìn)行切換,因此直播畫面包括了不同視角的畫面,算法需要能做到對(duì)不同視角均有較好的識(shí)別能力。
圖9 足球賽事精彩事件17種類型
為了降低打點(diǎn)算法的識(shí)別難度,整個(gè)算法過(guò)程分成兩個(gè)階段:特征模型和打點(diǎn)模型(圖10)。第一個(gè)階段的目標(biāo)是提取更好的多模態(tài)特征,第二個(gè)階段是依賴于提取到的特征,進(jìn)行打點(diǎn)模型的學(xué)習(xí)。特征模型階段,使用足球賽事數(shù)據(jù)對(duì)特征模型分別進(jìn)行精調(diào),使提取出的特征更加適應(yīng)到足球的場(chǎng)景。特征模型的選取上,充分利用差異化的預(yù)訓(xùn)練和架構(gòu)的原則,提取盡可能豐富的多模態(tài)特征。打點(diǎn)模型階段,采用三層Transformer編碼器對(duì)輸入的多模態(tài)特征進(jìn)行時(shí)序建模,做18類的分類預(yù)測(cè)(17種事件+一種背景)。
圖10 兩階段事件打點(diǎn)框架
除了基本的事件打點(diǎn)模型之外,兩方面的輔助技術(shù)可進(jìn)一步提升事件的準(zhǔn)召。1)模板匹配。對(duì)于一些特殊的事件,直播畫面中會(huì)在固定位置出現(xiàn)固定模式的展示信息。例如,黃/紅牌會(huì)出現(xiàn)“Yellow Card”/ “Dismissal”,換人會(huì)出現(xiàn)特定的logo。對(duì)于前者,采用OCR技術(shù)識(shí)別特定字符,并通過(guò)模糊匹配減緩錯(cuò)符漏符的負(fù)面影響。對(duì)于后者,采用模板匹配技術(shù),模板與特定位置的圖像塊進(jìn)行互相關(guān)系數(shù)計(jì)算來(lái)確定是否匹配成功。2)語(yǔ)音識(shí)別(ASR)。利用足球賽事直播過(guò)程中伴隨的主播解說(shuō)語(yǔ)音,通過(guò)ASR技術(shù),將語(yǔ)音信號(hào)轉(zhuǎn)化為文本,通過(guò)設(shè)置事件關(guān)鍵詞列表來(lái)進(jìn)行匹配,得到基于ASR技術(shù)的事件打點(diǎn)結(jié)果。例如,對(duì)于“解圍”事件,采用關(guān)鍵詞“解圍”、“成功破壞”、“防守成功”等關(guān)鍵詞來(lái)進(jìn)行匹配。圖11展示了上述打點(diǎn)模型和輔助技術(shù)的融合,針對(duì)不同事件,使用不同的融合方案。拿到精彩事件的打點(diǎn)結(jié)果之后,為保證剪輯片段的完整性,同樣采用類似斯諾克賽事的剪輯方案,結(jié)合鏡頭切分和各類型片段的期望時(shí)長(zhǎng)來(lái)確定最終剪輯片段起止時(shí)間點(diǎn),這里不再贅述。
圖11 輔助技術(shù)融合
總結(jié)展望
基于虎牙在實(shí)時(shí)內(nèi)容創(chuàng)作技術(shù)領(lǐng)域的持續(xù)創(chuàng)新,AI剪輯實(shí)現(xiàn)了直播內(nèi)容的二次創(chuàng)作,已累計(jì)沉淀了數(shù)百萬(wàn)的原始視頻素材。未來(lái)考慮從兩個(gè)方面去拓寬AI剪輯的業(yè)務(wù)影響,一方面,我們可以將成熟的AI剪輯能力開放給主播,將原本PGC工具以某種低成本的方式延伸至UGC,提升平臺(tái)主播的創(chuàng)作效率和積極性,加強(qiáng)平臺(tái)內(nèi)容的豐富度。另一方面,我們希望補(bǔ)齊短視頻自動(dòng)化加工能力,包括自動(dòng)生成標(biāo)題和自動(dòng)配樂(lè)等,通過(guò)自動(dòng)化剪輯和加工能力整合形成AIGC短視頻內(nèi)容生產(chǎn)閉環(huán),在未來(lái)的內(nèi)容生產(chǎn)上發(fā)揮更大的價(jià)值。
發(fā)評(píng)論!每天贏獎(jiǎng)品
點(diǎn)擊 登錄 后,在評(píng)論區(qū)留言,系統(tǒng)會(huì)隨機(jī)派送獎(jiǎng)品
2012年成立至今,是國(guó)內(nèi)備受歡迎的設(shè)計(jì)師平臺(tái),提供獎(jiǎng)品贊助 聯(lián)系我們
標(biāo)志設(shè)計(jì)標(biāo)準(zhǔn)教程
已累計(jì)誕生 730 位幸運(yùn)星