阿里通義千問迎來了一次重磅升級,其1000萬字的長文檔處理功能現已向所有人免費開放,這一舉措使得通義千問在全球范圍內成為文檔處理容量首屈一指的AI應用。從即日起,無論是金融、法律、科研、醫療還是教育領域的專業人士,都可以通過通義千問的網站和APP,輕松研讀各類報告、分析財報、解讀科研論文、研判案情、理解醫療報告、掌握法律條文,以及分析考試成績和總結深度文章。
在金融領域,專業人士只需上傳公司財報,通義千問便能自動提取和總結公司各業務的營收情況和利潤增長等核心信息,幫助他們快速了解公司的整體業績表現。而上傳公司不同時期的財報后,通義千問還能生成公司在這一階段內的業務變化、業績趨勢,并進行深入的財報分析。
在法律領域,通義千問同樣展現出強大的能力。對于律師和法官而言,閱讀和分析大量的法律文檔是一項繁瑣且耗時的工作。然而,通義千問能夠迅速閱讀并分析這些法律文件,幫助用戶迅速掌握法律條文的要點。輸入特定案件信息后,通義千問還能給出相應的判罰建議,極大地提高了工作效率。
目前,通義千問在文檔處理容量和能力方面已全面超越ChatGPT等全球市場上的其他AI應用,展現出了其在智能科技領域的卓越實力。
微軟推出了一項名為Mora的視頻生成項目,該項目利用先進的Agents技術來嘗試復原Sora的視頻生成能力。目前,Mora已經能夠基本還原Sora的所有功能,并可以生成分辨率為1024*576的12秒視頻。
這些復原的能力包括:將文本直接轉換為視頻、根據特定的文本條件將圖片轉換成視頻、擴展已有的視頻內容、實現視頻到視頻的編輯、串聯多個視頻片段,以及模擬數字世界等。
項目簡介:原文鏈接
Mora項目基于一種新型的多AI智能體框架,融合了多個尖端的視覺AI智能體,旨在復刻Sora所展示的強大的通用視頻生成能力。Mora能夠靈活運用這些視覺智能體,在各種任務中成功地模仿了Sora的視頻生成技巧。
通過廣泛的實驗驗證,我們發現Mora在這些任務上的表現已經與Sora相當接近。從整體性能上評估,Mora與Sora之間仍然存在一些差距。但是,我們仍對Mora項目寄予厚望,希望它能夠引領未來視頻生成技術的發展方向,并通過多AI智能體的協同工作實現更多的突破。
上個月 Stable Diffusion 的最新版本:Stable Diffusion 3 發布了,帶來了文字渲染能力、多主題提示能力和圖像質量的進一步提升。但是近日,Stable Diffusion 的核心研究團隊宣布集體離職,盡管具體離職原因尚未公開,但據《福布斯》報道,Stable AI 公司可能因為財務困境而面臨挑戰。Stability AI 的未來發展和 Stable Diffusion 項目的前途,成為了業界關注的焦點。
- Stable Diffusion的核心研究團隊成員,包括研究團隊領導Robin Rombach、共同一作Andreas Blattmann和另一位作者Dominik Lorenz,已經集體辭職。
- Stability AI是Stable Diffusion項目的主要資助者,提供了必要的計算資源。該項目最初由慕尼黑大學和AI創業公司Runway共同完成。
- Stable Diffusion是一個文本到圖像生成模型,因其免費開源而迅速走紅,推動Stability AI在2022年的A輪融資中籌集到1.01億美元,估值達到10億美元。
- 由于Stable Diffusion的開放性,Stability AI的商業模式并不明確,導致公司難以穩定盈利。據報道,公司每月的運營成本高達800萬美元。
- 去年年底,有關Stability AI可能因財務壓力尋求出售的消息傳出。CEO Emad Mostaque曾警告員工行業競爭激烈,并暗示他們可能在2023年面臨困境。
如果真如上述所說,我們心心念念的 Stable Diffusion 3 是否還能保持開源呢?新聞源:點這里
小伙伴們,聽說過Magnific AI這款神器嗎?感覺比較適合平時喜歡P圖的朋友,或者攝影師,當然了需要大量后期修圖的設計師也可以試試。
最厲害的是,它能夠將圖像分辨率提升至最高1億像素,支持最高放大16倍,達到10000×10000的分辨率。該工具不僅能夠放大圖像,還能根據用戶的提示和參數添加或重構細節,使圖像變得更加高清和細膩。
Magnific AI還提供了像素級AI重繪功能,通過魔法般的重繪圖像細節和像素塊,保證清晰度。
Magnific AI具有靈活的設置調整功能,支持輸入提示詞、提供Creativity、HDR、均衡等調整選項,以及針對人像、插畫、游戲資產、自然風光、攝影、3D渲染等多種優化場景。
最近,Magnific AI的照片風格化功能上線了,可以將你的任意照片轉換成你想要的任意風格,喜歡攝影的朋友,推薦一定要試一試。Magnific AI 官網
3月17日,特斯拉首席執行官(CEO)馬斯克的AI創企xAI正式發布3140億參數的混合專家模型Grok-1。xAI官方網站稱,其遵照Apache 2.0協議開放模型權重和架構。
我給大家整理一下重點:
- 開源聲明:xAI宣布其大模型Grok-1開源,并遵循Apache 2.0協議,模型權重和架構已在GitHub上公開。 - 模型規模:Grok-1是一個擁有3140億參數的混合專家模型,成為目前參數量最大的開源大語言模型,超過了OpenAI GPT-3.5的1750億參數。 - Grok-1的特點:Grok-1被描述為一個能夠回答任何問題的AI,具有機智和叛逆的特點。它將用于自然語言處理任務,包括問答、信息檢索、創意寫作和編碼輔助。 - 性能評估:Grok-1在HumanEval編碼任務和MMLU中顯示出強勁的性能,超過了包括ChatGPT-3.5和Inflection-1在內的所有其它模型。 - 社區反響:開源后,Grok-1在GitHub上迅速獲得了9600星標,顯示出社區的高度關注和支持。
另外,我個人覺得馬斯克這項壯舉對行業的影響也是巨大的,以下是一些個人見解:
1. 技術創新的加速:Grok-1的開源可能會加速AI技術的創新。由于模型權重和架構的開放,研究人員和開發者可以自由地訪問、修改和擴展這個模型,從而推動新的研究和應用的開發。 2. 知識共享與協作:開源模型鼓勵全球范圍內的開發者和研究者共同參與到模型的改進和優化中來,促進知識共享和技術交流,有助于提升整個行業的技術水平。 3. 商業競爭格局變化:Grok-1的開源可能會改變現有的商業競爭格局,尤其是對OpenAI等其他AI研究機構和企業構成挑戰。這可能會促使其他公司也采取更加開放的策略,以保持競爭力。 4. 安全性和倫理問題:開源AI模型也引發了關于安全性和倫理的討論。一方面,開源可以增加技術的透明度,有助于發現和解決潛在的安全問題;另一方面,也可能增加模型被濫用的風險。 5. 教育和培訓機會:Grok-1的開源為教育和培訓提供了新的資源。學生和自學者可以直接訪問和學習最先進的AI模型,這對于培養下一代AI人才具有重要意義。 6. 應用開發的多樣性:開源模型使得個人和小型企業也能夠利用先進的AI技術,這可能會導致更多創新的應用和服務的出現,增加市場的多樣性。 7. 對開源與閉源的辯論:Grok-1的開源可能會加劇關于開源與閉源哪種模式更有利于AI發展的辯論。這將影響未來AI研究和商業化的路徑選擇。
大家對此有些什么看法,也可以評論區討論哦~ 更多詳細內容,可以看看 xAI官網!
英偉達(NVIDIA)在2024年GTC大會上宣布的下一代人工智能超級計算機以及發布的最強AI加速卡——Blackwell GB200。
這款加速卡采用了新一代AI圖形處理器架構Blackwell,由兩個B200 Blackwell GPU和一個基于Arm的Grace CPU組成。黃仁勛在GTC大會上提到,盡管Hopper架構已經非常出色,但市場需要更強大的GPU。
以下是大會紀要: - 產品發布:英偉達發布了Blackwell GB200,這是一款新一代的AI加速卡,旨在大幅提升人工智能相關的計算性能。 - 性能提升:Blackwell GPU的AI性能可達20petaflops,而前代H100的性能為4petaflops。這意味著Blackwell GPU在AI性能上有顯著提升。 - 技術規格:Blackwell GPU采用臺積電的4納米工藝制造,包含2080億個晶體管,通過NVLink 5.0技術連接兩個獨立制造的裸晶(Die)。 - 性能對比:英偉達表示,GB200包含兩個B200 Blackwell GPU和一個基于Arm的Grace CPU,其推理大語言模型性能比H100提升30倍,成本和能耗降至25分之一。 - 企業應用:英偉達提供成品服務,包括GB200NVL72服務器,該服務器配備了36個CPU和72個Blackwell GPU,以及一體化水冷散熱方案,能夠提供總計720petaflops的AI訓練性能或1,440petaflops的推理性能。 - 市場合作:亞馬遜、谷歌、微軟和甲骨文等公司計劃在其云服務產品中提供NVL72機架。亞馬遜AWS已計劃采購由2萬片GB200芯片組建的服務器集群。
Devin是首個AI程序員,它能夠通過借用其創造者的賬號與客戶公司的CTO進行交流,并根據回復調整代碼方案。
事情發生在辦公軟件Slack,截圖中的akshat是AI基礎設施創業公司Modal Labs的CTO Akshat Bubna。
Devin的開發商是Cognition,而Modal Labs是它的首批客戶之一。在一次交流中,Devin詢問了關于密鑰生命周期的問題,特別是密鑰更新后傳播到正在運行的應用程序所需的時間。盡管Devin已經查閱了大量文檔,但仍然沒有找到關于密鑰傳播時間的明確信息。通過與Modal Labs的CTO交流,Devin了解到更新的密鑰不會使已經運行的容器失效,但新啟動的容器將會讀取更新后的值。
Devin能夠自主把任務拆解成一系列子步驟,并一步步執行,甚至在遇到障礙時能夠查閱文檔并修改后續計劃。
大家覺得這波修復BUG屬于什么水平,優秀的程序員也不過如此了吧?感興趣的小伙伴可以看看詳細的過程→ 原文鏈接
谷歌發布的一個名為 VLOGGER 的項目。這個項目能夠根據輸入的圖片和音頻生成對應人物講話的視頻。但是個人感覺 VLOGGER 看起來沒有阿里巴巴發布的 DreamTalk 和 EMO 自然,大家覺得呢?
VLOGGER 主要特點: 1. 3D運動的擴散模型:它可以根據一張人物圖像生成由文本和音頻驅動的說話人視頻。 2. 創新的架構:項目包含一個創新的基于擴散的架構,通過時間和空間控制來增強文本到圖像模型的能力。 3. 高質量視頻生成:能夠生成高質量、可變長度的視頻,并通過人臉和身體的高級表示進行便捷控制。 4. 廣泛的適用性:與之前的工作相比,VLOGGER不需要為每個人單獨訓練模型,不依賴人臉檢測和裁剪,能生成完整的圖像(包括臉部和身體),適用于廣泛場景,如軀干可見或身份多樣化,這對于正確合成具有溝通能力的虛擬人至關重要。
項目地址:https://enriccorona.github.io/vlogger/
Midjourney的新功能“角色參照”(Character Reference)終于正式上線了,它為用戶提供了在生成圖像時保持角色特征一致性的可能。這個功能特別適合那些需要在多個圖像中維持相同角色外觀的創作者,例如在制作漫畫、動畫或游戲角色設計時。
以下是該功能的詳細介紹和使用方法:
適用型號: - Midjourney V6 - Niji6
功能狀態: - Midjourney V6目前處于alpha測試階段,這意味著功能可能還會有調整和優化。 - V6的beta版即將推出,屆時可能會有更多的用戶可以體驗到這一功能。
使用方法: 1. 在輸入提示詞(prompt)后,通過添加--cref URL來指定一個參照圖像鏈接,以此保持生成圖像中的角色特征。 2. 如果需要混合多個圖像的角色特征,可以使用--cref URL1 URL2的格式。 3. 通過--cw [強度值]來調整參照的強度,默認值為100。強度較高時,生成的圖像會更詳細地參照臉部、發型和著裝;而強度較低(如0)時,主要參照臉部特征,適合用于變換服裝或發型的場景。
效果提示: - 使用Midjourney創作的圖像作為參照圖像通常會得到更好的效果,而使用真人照片可能會導致生成的圖像出現扭曲。 - 功能的參照精確度有限,生成的圖像會具有類似但不完全一致的角色特征。
效果對比: - 與Midjourney V6相比,Niji6在使用“角色參照”功能時可能會有更好的效果。
注意事項: - 由于功能目前處于alpha測試階段,可能會出現不穩定或效果不如預期的情況。
小伙伴們,Microsoft Copilot 的重大更新!定制 Copilot GPT 現已推出。這意味著你可以在微軟的工具里創建自己的 GPT 并共享它們~
具體方法如下:
→ 創建Copilot GPT ①訪問官網:https://copilot.microsoft.com/ ②點擊右側的“查看所有 Copilot GPT” ③然后選擇“創建新的 Copilot GPT”
→設置你的Copilot ①關注 creation chat ②設置名稱、任務等 ③流程與 ChatGPT Plus 相同,無需個人資料照片
→配置你的Copilot ①可以單擊“配置”選項卡 ②在這里你可以直接選擇名稱、描述、提示... ③你還可以添加知識文件并啟用/禁用互聯網訪問和 Dall-E 3
→發布和使用 ①在發布之前單擊“預覽”按鈕進行嘗試 ②你只能為自己或任何有鏈接的人發布你的Copilot ③它將自動添加到右側的 GPT 列表中
好消息,近日字節跳動推出了一種新型工具——分辨率適配器 ResAdapter,這個工具旨在解決在使用Stable Diffusion等文本到圖像模型生成超出訓練分辨率的圖像時出現的肢體異常和畫面崩壞問題。
ResAdapter能夠與現有的IPadapter和Controlnet模型兼容,并且可以直接生成動態分辨率的圖像,提高了圖像處理的效率。
項目簡介中提到,盡管像Stable Diffusion這樣的模型能夠創造出高質量的圖像,但在生成非訓練分辨率的圖像時存在限制。ResAdapter通過利用廣泛的分辨率先驗,即使只有0.5M的容量,也能生成高分辨率且保持原有風格的圖像。
ResAdapter在提高分辨率方面與擴散模型配合得很好,并且可以與其他模塊兼容,用于創建不同分辨率的圖像。
項目介紹地址:res-adapter.github
昨天晚上,Anthropic 正式推出了 Claude 3 系列模型,包括 Claude 3 Opus、Claude 3 Sonnet 和 Claude 3 Haiku。
這些模型在多個方面超越了GPT-4,包括推理、數學、編碼、多語言理解和視覺處理等。
以下是Claude 3系列模型與同行在多個能力評估基準上的對比:
可以看到,其中Claude 3 Opus模型性能完全碾壓GPT-4,以及Gemini 1.0 Ultra。
Claude 3 Sonnet在部分基準上,比如GSM8K、MATH等超越了GPT-4。Claude 3 Haiku可以與Gemini 1.0 Pro相抗衡。
GPT-4是否真的已經過時?Claude 3的橫空出世是否意味著我們即將進入一個全新的AI時代?
Claude 3 體驗地址:https://claude.ai/chats
近日,在布魯克林舉行的Hot Pod峰會上,Adobe發布了名為“Project Music GenAI Control”的全新AI音樂創作工具原型。該工具利用生成式人工智能技術,幫助用戶無需專業音頻制作經驗即可創作和編輯音樂。
用戶只需輸入文本描述,例如“歡快的舞蹈”或“憂傷的爵士樂”,Project Music GenAI Control就能生成對應風格的音樂。更重要的是,用戶還可以使用集成的編輯控件自定義生成的音樂,調整重復模式、速度、強度和結構。該工具可以重新混音音樂片段,并生成循環音頻,非常適合內容創作者制作背景音樂和配樂。
Adobe 表示,Project Music GenAI Control還能夠“基于參考旋律”調整生成的音頻,并且可以延長音頻片段的長度,以滿足固定動畫或播客片段等所需時長。目前,用于編輯生成音頻的實際用戶界面尚未公布。
“這些新工具最激動人心的功能之一不僅僅是生成音頻” Adobe研究院高級研究科學家Nicholas Bryan在新聞稿中表示,“它們就像Photoshop一樣,賦予創作者深度控制權,讓他們可以塑造、調整和編輯音頻,就像像素級控制圖像一樣。”
Project Music GenAI Control由Adobe與加州大學和卡內基梅隆大學計算機科學學院合作開發,目前該項目仍處于“早期實驗”階段,未來可能會被整合到Adobe旗下的現有編輯工具Audition和Premiere Pro中。目前該工具尚未向公眾開放,也未公布發布時間。