自COVID-19爆發(fā)以來,雖然打破了人們工作、生活的節(jié)奏,但也在一定程度上催化了音視頻技術(shù)的加速發(fā)展。這種加速發(fā)展不止是技術(shù)的縱向迭代,也是向不同場景發(fā)起了一次橫向觸達(dá)。當(dāng)許多在物理層面受到限制的活動(dòng),如:社交、購物、娛樂、工作等,我們都可以通過線上的方式來進(jìn)行,甚至越來越依賴這種方式。當(dāng)然在這背后少不了技術(shù)者們的支持。對(duì)此,我們做了一個(gè)回顧,無論是國內(nèi)還是國外,看看技術(shù)人們?cè)谝粢曨l技術(shù)這個(gè)垂直賽道上更看好哪些具體技術(shù)的發(fā)展吧。另外,在這些內(nèi)容的基礎(chǔ)上,我們延伸到了本次 8月5日開始的LiveVideoStackCon 2022 音視頻技術(shù)大會(huì) 上海站,一起看看有哪些大佬和內(nèi)容會(huì)出現(xiàn)吧。
下文匯集了海內(nèi)外的技術(shù)人們從音視頻技術(shù)的不同方向出發(fā),來聊一聊他們看好哪些技術(shù)的前景。
流媒體技術(shù)
“我們之前說過,未來也將重申:視頻正在顛覆商業(yè)。醫(yī)療領(lǐng)域正在依賴于連接視頻的醫(yī)療設(shè)備、遠(yuǎn)程手術(shù)能力和配備了AI監(jiān)控的智能醫(yī)院。無論是在家還是在醫(yī)院,對(duì)醫(yī)療護(hù)理而言,流媒體技術(shù)都已變得至關(guān)重要。
在消費(fèi)領(lǐng)域,隨著實(shí)體店的關(guān)門,數(shù)字購物平臺(tái)正在蓬勃發(fā)展。那些繼續(xù)吸引顧客的實(shí)體店使用虛擬試衣間等店內(nèi)娛樂消費(fèi)技術(shù)來吸引顧客。
然后是像谷歌這樣的科技巨頭,它們已經(jīng)將視頻融入商業(yè)戰(zhàn)略的方方面面:從服務(wù)(Youtube和Google Meet)到流媒體產(chǎn)品(Chromebook、Pixel和Nest等)。即使是Facebook(現(xiàn)已更名為Meta)也已將全部戰(zhàn)略轉(zhuǎn)移到了AR和VR這樣的視頻技術(shù)上。
同時(shí),流媒體技術(shù)為用戶提供廣泛的可訪問性,將更多權(quán)力賦予給創(chuàng)作者。區(qū)塊鏈、加密、Web3等正在驅(qū)動(dòng)去中心化。接著,避開大公司的新型盈利模式將會(huì)發(fā)展起來。”
——摘自《2022 海外流媒體十大技術(shù)趨勢》
“技術(shù)+行業(yè)場景”這個(gè)方面也是我們一直所關(guān)注的。因此,我們?cè)贚iveVideoStackCon 2022 上海站特別推出了「音視頻+」專題, 從不同行業(yè)場景出發(fā),看看音視頻技術(shù)的滲透力有多強(qiáng)。
了解更多該專題詳情請(qǐng)掃碼
AI與視頻編解碼
“LiveVideoStack: 您認(rèn)為基于AI的編解碼器將很快超越傳統(tǒng)編碼器嗎?還是兩種編碼器將共存很長時(shí)間?
Leonardo Chiariglione:傳統(tǒng)的數(shù)據(jù)處理技術(shù)仍然會(huì)大顯身手,但在很多領(lǐng)域,它已經(jīng)走到了發(fā)展的盡頭。而人工智能,才剛剛開始。
幾天前,我發(fā)表了一篇文章(參見https://blog.chiariglione.org/the-governance-of-the-mpai-ecosystem/)。文中,我寫道:“如果一臺(tái)AI機(jī)器通過仔細(xì)訓(xùn)練后,可以發(fā)現(xiàn)某些特定的編碼模式比其他模式更通用,那么它將很可能會(huì)比人類按照概率論機(jī)制所推導(dǎo)的編碼模式取得更好的壓縮率。” AI可以像人類那樣根據(jù)經(jīng)驗(yàn)解釋新事物,因此機(jī)器積累經(jīng)驗(yàn)的能力必然會(huì)隨著處理和存儲(chǔ)能力的增加而增加。然而,不要指望AI視頻編碼將在短期內(nèi)超越傳統(tǒng)視頻編碼。技術(shù)雖然發(fā)展很快,但是對(duì)過去技術(shù)的投資如此巨大,新技術(shù)的部署必然需要長久的時(shí)間。
激動(dòng)人心的未來就在眼前。”
——摘自《對(duì)話MPEG創(chuàng)始人Leonardo Chiariglione: MPEG精神將在MPAI中延續(xù)》
“LiveVideoStack: 對(duì)于音視頻技術(shù)的未來發(fā)展,還可能會(huì)有哪些令人期待的創(chuàng)新?在AI與視頻編碼技術(shù)結(jié)合上,未來有可能會(huì)出現(xiàn)哪些突破?
張昊:我非常期待基于AI的圖像視頻編碼技術(shù)的創(chuàng)新。目前基于傳統(tǒng)視頻編碼框架提升壓縮率已經(jīng)越來越困難,我們期待一個(gè)新的框架。目前AI視頻編碼還達(dá)不到最新傳統(tǒng)編碼標(biāo)準(zhǔn)(比如VVC)的水平,但是這個(gè)方向最近不斷有新的研究成果發(fā)布出來,相信性能提升會(huì)加快。要是未來AI編碼成為業(yè)界廣泛采用的方案,那編碼器的優(yōu)化可能會(huì)需要與以往不同的技術(shù)。當(dāng)然,在完全的AI編碼成為現(xiàn)實(shí)之前,可能會(huì)有一個(gè)中間狀態(tài),比如結(jié)合傳統(tǒng)架構(gòu)和AI模塊的編碼技術(shù)和標(biāo)準(zhǔn)。這要求編碼工程師既要懂傳統(tǒng)編碼,也要了解AI的相關(guān)知識(shí)。
目前端對(duì)端的AI+視頻編碼,雖然成果不斷涌現(xiàn),但是短期內(nèi)可能還很難大幅度超過VVC的性能。但基于傳統(tǒng)編碼框架,加入一些編碼效率更高的AI模塊(比如濾波、預(yù)測),是有可能在短期內(nèi)提升壓縮率的。因此我看好基于傳統(tǒng)編碼框架+AI這條思路的技術(shù)進(jìn)展。”
——摘自《中南大學(xué)張昊:我非常期待基于AI的圖像視頻編碼技術(shù)的創(chuàng)新》
無論是AI視頻編碼,還是AI+傳統(tǒng)視頻編碼框架,其本質(zhì)上還是希望在高效編碼的同時(shí)獲得高清的圖像視頻。在本次上海站大會(huì)的「視頻編解碼性能優(yōu)化與實(shí)現(xiàn)」專題,將會(huì)從不同的編碼方式入手,如:面向機(jī)器智能的數(shù)據(jù)編碼、基于視頻的高維視覺數(shù)據(jù)高效編碼等,來解決不同視頻應(yīng)用場景所出現(xiàn)的問題。
了解更多該專題詳情請(qǐng)掃碼或長按二維碼
音頻
“LiveVideoStack: 對(duì)于未來想從事音頻工作的同學(xué),您有哪些建議和意見?
王晶:相比計(jì)算機(jī)視覺、通信網(wǎng)絡(luò)、人工智能等概念較大的發(fā)展方向,目前專門從事音頻信號(hào)處理或者音頻相關(guān)技術(shù)的研究人員并不太多,但實(shí)際的工作崗位需求還是挺大的,尤其是高水平研究人員相對(duì)欠缺。事實(shí)上,從事音頻工作的人員由于對(duì)信號(hào)處理和計(jì)算機(jī)編程能力都需要兼顧,也很容易過渡到其他技術(shù)崗位。音頻領(lǐng)域(廣義上包括語音和音頻處理)當(dāng)前和計(jì)算機(jī)技術(shù)、通信網(wǎng)絡(luò)、人工智能、虛擬現(xiàn)實(shí)甚至生物醫(yī)學(xué)等結(jié)合都非常緊密,相比傳統(tǒng)單純從信號(hào)處理或計(jì)算機(jī)編程的角度來看,很多實(shí)際應(yīng)用問題的解決更傾向于需要交叉學(xué)科基礎(chǔ)。
對(duì)于未來想從事音頻工作的同學(xué)們,尤其是想在理論結(jié)合實(shí)踐上有技術(shù)突破,建議首先學(xué)習(xí)數(shù)字信號(hào)處理、信息論、計(jì)算機(jī)編程、通信網(wǎng)絡(luò)、人工智能等基礎(chǔ)知識(shí),然后深入掌握音頻信號(hào)處理的各類常用算法和典型應(yīng)用場景,研究課題或者工作內(nèi)容的選擇可以針對(duì)實(shí)際應(yīng)用場景的需求開展具體研究。目前網(wǎng)絡(luò)上開源代碼和學(xué)習(xí)材料非常多,尤其是基于AI的聲音處理技術(shù),建議同學(xué)們?cè)谙到y(tǒng)學(xué)習(xí)基礎(chǔ)知識(shí)的同時(shí)多加編程實(shí)踐練習(xí),以便更好地理解算法思路,至少應(yīng)當(dāng)獨(dú)立完成一到兩個(gè)案例的實(shí)現(xiàn)。進(jìn)入研究生學(xué)習(xí)階段的同學(xué)則需多關(guān)注領(lǐng)域內(nèi)的頂級(jí)會(huì)議和刊物,參加一些學(xué)術(shù)或者行業(yè)會(huì)議與同行進(jìn)行交流,善于發(fā)現(xiàn)研究中的問題,并利用所學(xué)知識(shí)進(jìn)行分析和解決。”
——摘自《對(duì)話王晶:音頻人才亟待培養(yǎng),高水平研究人員尤其欠缺》
在擁有理論基礎(chǔ)的前提下,實(shí)踐就顯得尤為重要。尤其是在面臨不同場景時(shí),同一種音頻技術(shù)又將會(huì)起到不同的作用。在本次上海站大會(huì)「聲臨其境—音頻沉浸體驗(yàn)」專題,將涵蓋三種場景:影視、遠(yuǎn)程會(huì)議和3D在線互動(dòng)場景。而在不同場景下又會(huì)用到哪些技術(shù)呢?等你來一同探索吧~
了解更多該專題詳情請(qǐng)掃碼
傳輸網(wǎng)絡(luò)
“RTC技術(shù)領(lǐng)域有其自身的特點(diǎn),關(guān)注用戶側(cè)感受和訴求是從事這方面技術(shù)人員很容易忽視的。例如:流媒體在用戶側(cè)的感受并不敏感,技術(shù)上HEVC/AV1比AVC提高多少倍壓縮效率,用戶側(cè)感受到的可能是手機(jī)燙不燙手,耗不耗電。宣傳固然重要,但技術(shù)不應(yīng)該忽略用戶感受去談先進(jìn)性。
技術(shù)迭代不是一個(gè)數(shù)字比武過程,不是誰的數(shù)字指標(biāo)高就會(huì)成為主流技術(shù)的,技術(shù)迭代過程是一個(gè)趨同效應(yīng),能契合某一類大規(guī)模應(yīng)用場景往往會(huì)成為主流或者標(biāo)準(zhǔn),作為從業(yè)人員不應(yīng)該死盯技術(shù)指標(biāo)上,用更高的技術(shù)指標(biāo)去打敗行業(yè)先行者是非常困難的,所以在固有領(lǐng)域里面盲目的技術(shù)精進(jìn)也是一種故步自封,后來者應(yīng)該盡力找到技術(shù)更廣闊的應(yīng)用場景形成新趨勢。
后疫情時(shí)代RTC成為內(nèi)卷嚴(yán)重的領(lǐng)域,一方面終端能力沒有升級(jí),另一方面疫情期間帶來的應(yīng)用場景流量出現(xiàn)了消退的跡象,巨頭橫行,而新場景還沒有出現(xiàn)。但高分辨率、實(shí)時(shí)虛擬現(xiàn)實(shí)等高碼率應(yīng)用剛剛萌芽,超大碼率會(huì)讓UDP協(xié)議給kernel帶來的負(fù)擔(dān)越來越大,高帶寬與低延遲、大并發(fā)的矛盾將會(huì)在新的場景更加尖銳,新一代的RTC架構(gòu)有可能會(huì)出現(xiàn)TCP/UDP孿生模式。”
——摘自《歷經(jīng)5代跨越25年的RTC架構(gòu)演化史》
“LiveVideoStack:QUIC/HTTP3越來越流行, 甚至有人提出讓W(xué)ebRTC通過QUIC來傳輸,您如何看待RTP基于QUIC傳輸?RTP OVER QUIC 是一個(gè)好主意嗎?
Ron Frederick:QUIC是一個(gè)非常有趣的協(xié)議,同TCP相比,它有很多優(yōu)勢,尤其是傳輸實(shí)時(shí)數(shù)據(jù)的時(shí)候(QUIC可以使數(shù)據(jù)包按照任何順序得到處理)。雖然HTTP/2增加了在單個(gè)TCP連接上多路復(fù)用多個(gè)流的能力,但TCP迫使數(shù)據(jù)始終要按順序處理,這意味著一個(gè)多路復(fù)用流上的數(shù)據(jù)包丟失將阻止其他所有流中的數(shù)據(jù)處理。QUIC有解決這個(gè)問題的潛力,甚至可能會(huì)演變?yōu)橹С植煌鞯牟煌貍鞑呗裕@對(duì)于音視頻內(nèi)容來說是非常有利的(因?yàn)樵诔霈F(xiàn)一定延遲后,到達(dá)的數(shù)據(jù)包將不再有用)。我非常期待看到這項(xiàng)工作的發(fā)展!”
——摘自《對(duì)話RTP作者Ron Frederick: 我非常期待QUIC的發(fā)展》
在傳輸網(wǎng)絡(luò)的世界中,追求極低的延時(shí)成為技術(shù)者們的頭等大事。尤其是在大通量媒體傳輸、實(shí)時(shí)會(huì)話業(yè)務(wù)、萬人場景等,對(duì)此,在本次「多媒體傳輸網(wǎng)絡(luò)優(yōu)化」專題中都會(huì)討論到。
了解更多該專題詳情請(qǐng)掃碼
視頻內(nèi)容生產(chǎn)
“AI在視頻領(lǐng)域的技術(shù)發(fā)展,為視頻內(nèi)容的重建提供了新的技術(shù)手段。基于AI的超分辨率技術(shù)可以實(shí)現(xiàn)標(biāo)清到高清(SD轉(zhuǎn)HD)、或者高清到4K甚至8K的分辨率的提升,可以彌補(bǔ)大量的圖像細(xì)節(jié);通過基于AI的逆色調(diào)映射(Inverse Tone Mapping)技術(shù)和色彩增強(qiáng)技術(shù),可以實(shí)現(xiàn)對(duì)比度、色彩飽和度等多個(gè)層面的提升。這些提升的細(xì)節(jié),需要用HDR視頻的高動(dòng)態(tài)范圍和寬色域來進(jìn)行表達(dá)。NTIRE 2021首次舉辦了HDR視頻圖像生成技術(shù)的大賽。
我們根據(jù)典型的應(yīng)用場景,可以將智能視頻重制劃分為智能畫質(zhì)提升和智能老片修復(fù)兩個(gè)分類。其中智能老片修復(fù)可以極大地提升傳統(tǒng)的人工修復(fù)效率,而超分和HDR則進(jìn)一步提升彌補(bǔ)細(xì)節(jié),調(diào)節(jié)亮度和飽和度,盡量提升到接近真4K的水平。”
——摘自《HDR技術(shù)趨勢淺析》
更高清的視頻內(nèi)容生產(chǎn)端是為我們所關(guān)注的,其消費(fèi)端也是我們關(guān)心的方面。在本次「視頻內(nèi)容生產(chǎn)與消費(fèi)體驗(yàn)創(chuàng)新」專題中,根據(jù)不同的消費(fèi)場景,如:直播賽事、APP、視頻節(jié)目等,在對(duì)應(yīng)的生產(chǎn)環(huán)節(jié)中又會(huì)遇到哪些問題呢?
了解更多該專題詳情請(qǐng)掃碼
大會(huì)日程
以上提到的相關(guān)音視頻技術(shù)專題盡在本次LiveVideoStackCon 2022 音視頻技術(shù)大會(huì)上海站,于8月5-6日召開。屆時(shí),還會(huì)有更多議題為大家展現(xiàn)。還有更多話題等你來解鎖,詳情見大會(huì)專題頁了解:https://sh2022.livevideostack.cn/topics
發(fā)評(píng)論!每天贏獎(jiǎng)品
點(diǎn)擊 登錄 后,在評(píng)論區(qū)留言,系統(tǒng)會(huì)隨機(jī)派送獎(jiǎng)品
2012年成立至今,是國內(nèi)備受歡迎的設(shè)計(jì)師平臺(tái),提供獎(jiǎng)品贊助 聯(lián)系我們
標(biāo)志設(shè)計(jì)標(biāo)準(zhǔn)教程
已累計(jì)誕生 729 位幸運(yùn)星