哈哈哈,這不是好起來來了嗎!!
百度公司最近推出了一款名為"文小言"的AI數字人社交APP。是基于文心大模型技術,可以通過手寫、語音和圖片等多種方式與數字人交流,享受其以語音、文字和肢體語言相結合的生動回復。最核心的是能夠與AI角色建立情感連接,享受不間斷的聊天體驗。
文小言的主要功能 1、有問必答:AI伙伴隨時在線,可以聊關于生活、感情、游戲、工作、歷史、新聞等話題。 2、海量角色:文小言提供多種角色選擇,包括傲嬌女友、溫柔空姐、健身教練、舞蹈老師等,滿足不同用戶的喜好。 3、沉浸互動:文小言支持全屏沉浸式聊天,包括語音、文字、圖片和視頻通訊。 4、實用專家:文小言提供專業行家的答疑解惑,涵蓋畫畫創作、生活妙招、旅行攻略、新聞時事、同城資訊等領域。 5、免費聊天:用戶可以不受時間限制地享受免費聊天服務。
近日有內幕爆出,蘋果公司不會在今年推出由 Apple Intelligence 驅動的全新 Siri。
蘋果會計劃在明年 1 月開啟全新 Siri 測試,并在 iOS 18.4 中推出正式版本。另外,Siri 的其他功能,例如新設計和 ChatGPT 集成,將于今年晚些時候推出。此前的報道中,Gurman 指出 Apple Intelligence 也將出現在 Vision Pro 上,但要到明年。
蘋果在 6 月舉辦的 WWDC 上推出了搭載 Apple Intelligence (Apple 智能)的全新 Siri,用戶在升級到 iOS 18 后,可以更自然地與 Siri 對話,新的 Siri 還能夠很好地理解上下文。
不過,全新 Siri 只支持 iPhone 15 Pro 及以上的設備,而即將推出的 iPhone 16 系列也將支持 Apple Intelligence。另外,Mac 和 iPad 設備需要搭載 M1 及以上的芯片才能使用 Apple Intelligence。
大家對新版的 Siri 有哪些期待呢?
近日,蘋果公司與瑞士洛桑聯邦理工學院(EPFL)聯合開源了一款名為4M-21的多模態視覺模型。該模型具有廣泛的通用性和靈活性,盡管只有30億參數,但它可以執行數十種任務,包括圖像分類、目標檢測、語義分割、實例分割、深度估計和表面法線估計等。
4M-21模型在21種不同的模態下進行訓練,能夠處理包括圖像、文本、音頻等多種模態的任務。這種多模態能力使其在跨模態檢索、可控生成和開箱即用性能方面表現出色。
4M-21還支持任意到任意模態的轉換,進一步擴展了其應用范圍。
4M-21模型的推出標志著從傳統單模態優化模型向多模態綜合處理能力的重大轉變,展示了蘋果在AI領域的強大實力和創新能力。
開源地址:https://github.com/apple/ml-4m/ 論文地址:https://arxiv.org/abs/2406.09406 在線demo:https://huggingface.co/spaces/EPFL-VILAB/4M
最近,Stability AI做出了一個重大決策,修改了其社區許可協議,允許Stable Diffusion 3 Medium(簡稱SD3-M)模型商業化使用。如果企業或個人開發者年收入不超過100萬美元(約726萬人民幣),只需向Stability AI提交申請,即可免費將SD3-M用于商業目的,如數據微調和生成式AI應用開發。
根據最新的協議,100萬美元的收入門檻是硬性條件,不論收入是否直接來自SD3-M的使用。Stability AI還承諾,將在未來幾周內發布一個更大版本的模型,并繼續與社區分享,意味著該模型將會持續開源。
SD3-M模型擁有20億參數,生成圖片時間平均為2至10秒,推理效率高,對硬件要求低,適合在多種設備上運行。相較于前幾代,它在圖片質量、文本語義、光影和色彩表現上有顯著提升,特別是在文本嵌入方面改進明顯,提高了字體識別和嵌入的準確性。
訓練過程中,SD3-M使用了包含10億張圖片的公開和合成數據集進行預訓練,另外還使用了3000萬張特定藝術風格和領域的圖片進行微調,以及300萬張偏好圖片。
開源地址:https://huggingface.co/stabilityai/stable-diffusion-3-medium 填寫申請地址:https://stability.ai/community-license
今天發現了一個聲音克隆的好東西,我剛剛挖到的Fish Speech這個工具,不僅生成速度快到飛起,而且克隆出的聲音也很真實,支持文字轉語音功能,非常的好用!
Fish Speech 是一款由fishaudio開發的全新文本轉語音(TTS)工具,具有強大的語音克隆能力。用戶只需提供一段參考語音,系統便能迅速進行語音克隆,無需繁瑣的訓練過程。
該工具支持中文、英語和日語等多種語言,并且在語音處理上的能力接近人類水平。 Fish Speech采用了先進的AI技術,包括VQ-GAN、Llama和VITS等,能夠將文本轉換成逼真的語音。它還采用了Flash-Attn算法,以提高處理大規模數據的效率和穩定性。這些技術使得Fish Speech不僅在語音合成方面表現出色,還在語音克隆方面具有顯著的優勢。
Fish Speech的語音克隆功能特別適合內容創作者使用,他們可以利用這一工具快速生成各種聲音效果,用于視頻配音、播客制作等場景。
試玩地址:https://fish.audio/zh-CN/
上半年 Sora 爆火到現在,AI 在視頻領域的發展越來越強了,近日,Runway 的 Gen-3 Alpha 文字轉視頻功能向所有人開放了。
Runway Gen-3 Alpha 的文字轉視頻功能是其核心功能之一。用戶只需輸入文字描述或關鍵詞,Gen-3 Alpha 就能夠通過其強大的深度學習算法,自動生成與之相關的視頻作品。這一功能不僅支持簡單的文本到視頻轉換,還提供了多種高級創作工具,如運動畫筆、相機控制和導演模式等,進一步提升了視頻制作的專業度和靈活性。
Runway Gen-3 Alpha 在保真度、一致性和運動表現上均實現了顯著的突破,能夠生成高保真的視頻片段,最長可達10秒。用戶可以選擇生成5秒或10秒的視頻,并且可以根據需要調整視頻的詳細程度和風格。
Runway Gen-3 Alpha 的文字轉視頻功能不僅強大且靈活,能夠滿足各種創意需求,還在技術上取得了顯著的進步,成為AI視頻生成領域的一大亮點。
但是目前想體驗還是需要開通12美元的會員~
Solos 是一家專門生產智能眼鏡的公司,近日它們推出了 Solos AirGo Vision 智能眼鏡,這是全球首款集成 GPT-4o 技術的可穿戴設備,讓你隨時隨地都能體驗到人工智能的魅力!
更多功能和特點包括: - 提供實時多語言翻譯 - 與 ChatGPT 通過自然對話交互 - 可自行選擇鏡框。包括日常眼鏡、太陽鏡和運動太陽鏡等樣式 - 通過觸摸傳感器向上或向下更改音量 - 通過虛擬按鍵一鍵連接 Solos 智能眼鏡 - 通過USB-C 連接口充電 - 具有 IP67 級防水功能,可戶外活動佩戴 - 可持續 10 小時播放音樂或 7 小時通話
官網地址:https://solosglasses.com/
近日,美國 NBC(全國廣播環球公司)宣布了其在美國通過電視網絡和 Peacock 流媒體平臺服務報道奧運會的計劃。也就是說,萬眾期待的2024年巴黎奧運會,解說員將由AI擔任。你敢信嗎?
NBC 此次宣布,Peacock 流媒體平臺將啟用基于真人體育主播的 AI 生成語音,用于播報、解說“Peacock Your Daily Olympic Recap on Peacock” 節目。NBC用AI技術模仿了傳奇解說員Al Michaels的聲音,為觀眾定制10分鐘的奧運集錦。
如果不標明“由AI生成”,估計超過90%的人都不會意識到這是AI的聲音,觀眾可以根據自己的喜好選擇運動項目、運動員和內容類型。
NBC這次舉動標志著AI生成的內容開始被主流媒體接受。經過幾個月的法律斗爭和猶豫,大型媒體公司終于加入了AI內容生成的潮流。
卷起來了,前不久阿里云推出了首個“AI程序員”。能夠一站式自主完成任務分解、代碼編寫、測試、問題修復和代碼提交等整個過程,能夠在分鐘級時間內完成應用開發。 近日,字節跳動推出了一款名為豆包 MarsCode 的智能開發工具,面向國內開發者免費開放。
核心功能: 1、提供智能代碼補全、Bug修復、單元測試生成等AI功能。 2、支持多種編程語言和主流IDE。
云端集成開發環境(Cloud IDE):豆包MarsCode包含AI原生的云端IDE,無需配置復雜環境,直接在瀏覽器中進行編程和調試。 支持語言:支持C、C++、C#、Go、JavaScript、Java、Node.js、Rust、TypeScript等多種編程語言。 開發模板:提供多種開發環境和模板,減少環境配置時間。 原生AI能力:具備代碼自動補全與生成、問題修復、代碼優化等功能。
主要特點: 1、開箱即用,簡化環境配置。 2、云端IDE,隨時隨地開發。 3、彈性云端資源,不受本地資源限制。
主要功能: - 編程助手和Cloud IDE:提供代碼編寫提議、代碼補全、Lint錯誤修復等。 - 項目問答功能:針對需求開發、Bug修復、開源項目學習等場景提供支持。
更多介紹可以訪問豆包 MarsCode官網!
昨天,在開發者們收到的警告信中,OpenAI 寫道:將采取額外措施,封禁來自不支持國家和地區的API流量。7月9日起,將終止對不支持國家的API服務,中國包括在內。
昨天看到有小伙伴還在吐槽,剛續費了 ChatGPT 會員,不要慌,現在 LibreChat 橫空出世,作為一個免費的開源 ChatGPT 克隆版,它不僅支持多種 AI 模型,還提供了靈活的自定義選項,解決了多 AI 模型整合和切換的問題。
LibreChat 代表了開源的精神和對技術的熱愛,為用戶提供了安全、靈活的聊天環境,大家不妨用著試試看!
LibreChat 官網
大家好,我想給大家介紹一個專為插畫師和藝術愛好者設計的在線AI上色工具:Petalica Paint ,推薦大家試玩~
Petalica Paint 它的一大特點是內置的AI自動上色功能,你只需上傳線稿圖,軟件就能智能識別并自動填充色彩,大大縮短了手動上色的時間,非常適合追求效率的創作者。工具提供了多樣化的上色風格選項,可以根據作品的風格和自己的喜好進行選擇。
Petalica Paint 還有線稿提取功能,無論是草圖還是照片,都能清晰地分離出線條,為上色前的準備工作做好鋪墊。在色彩調整方面,用戶享有高度自由,可以任意調節顏色、透明度和飽和度,確保每個細節都符合你的創作愿景。
該軟件與pixiv Sketch平臺實現了良好的集成,你可以在pixiv Sketch里直接無縫使用Petalica Paint的各項功能,無需切換應用。
試玩→ Petalica Paint
近日,Anthropic 公司發布了 Claude 3.5 Sonnet,作為 OpenAI 的勁敵,這款全新的人工智能模型在智能水平上超越了所有的競爭對手。在推理、知識和編碼能力方面,Claude 3.5 Sonnet 能夠迅速理解復雜指令,撰寫出高質量內容。與 Claude 3 Opus 相比,解碼速度提升兩倍,編碼評估中解決的問題比例高達64%,展現出無與倫比的獨立編寫、編輯和執行代碼能力,
Artifacts 功能更是錦上添花,允許用戶在Claude.ai上動態編輯和構建Claude生成的內容,甚至能直接展示生成的代碼為網頁,無論是HTML、JS、CSS還是SVG都能輕松實現。
Claude 3.5 Sonnet的到來,意味著代碼世界即將迎來一場革命。你,準備好迎接挑戰了嗎?
最近,Anthropic 發布了全新大模型 Claude 3.5 Sonnet,號稱是迄今為止最智能的模型。
Claude 3.5 Sonnet 是 Anthropic 即將推出的 Claude 3.5 系列的首個版本。該模型提高了整個領域的智能水平,在絕大多數基準評估中都超越了競品大模型和自家前代最強 Claude 3 Opus。而且,運行速度、成本與自家前代 Claude 3 Sonnet 相當。最重要的是可以免費使用!
以下是關于Claude 3.5 Sonnet的幾個關鍵點: 1. 模型性能:Claude 3.5 Sonnet在多個基準測試中,包括研究生水平推理(GPQA)、本科生水平知識(MMLU)和編碼能力(HumanEval),設定了新的行業標準,展現出對細微差別、幽默和復雜指令的出色理解能力,以及以自然、友好的方式生成高質量內容的能力。 2. 速度與成本:它的運行速度是其前代Claude 3 Opus的兩倍,同時保持了與Claude 3 Sonnet相似的成本效益,這意味著對于用戶來說,它能更高效地處理復雜任務,且價格合理。 3. 免費與付費訪問:Claude 3.5 Sonnet在Claude.ai網站和iOS應用上免費提供給用戶,而訂閱了Claude Pro和Team計劃的用戶可以享受更快的訪問速率。此外,它也通過Anthropic API和亞馬遜云科技Bedrock等平臺提供,定價為每百萬個輸入token 3美元,每百萬個輸出token 15美元。 4. 視覺能力:該模型在視覺識別和處理方面也表現出色,成為Anthropic至今為止最強的視覺模型,特別是在處理視覺推理任務,如解釋圖表、圖形轉錄文本等方面,這對零售、物流和金融服務等行業尤為重要。 5. Artifacts功能:Anthropic引入了一項名為Artifacts的新功能,允許用戶在與Claude交互時,于對話旁邊專用窗口中實時查看、編輯和構建由Claude生成的內容,比如代碼片段、文本文檔和網站設計,進一步促進了人工智能與人類工作的無縫集成。 6. 安全性考量:Claude 3.5 Sonnet經過嚴格的安全測試,并被分類為AI安全等級2(ASL-2),意味著它在化學、生物、放射性、核風險、網絡安全和自主能力等領域使用相對安全,不會造成災難性損害。Anthropic還與外部專家合作,不斷測試和完善模型的安全機制,以減少濫用風險。
地址:https://claude.ai/
Adobe Acrobat 迎來了重大 AI 升級,支持多文檔分析和圖像生成,此次升級主要包括以下兩個方面:
1、多文檔分析:Acrobat 的 AI 助手現在能夠同時分析和查詢多個文檔,包括非 PDF 文件。這意味著用戶可以將多個 PDF 或其他格式的文件拖拽至應用程序中,AI 助手會自動處理這些文件并提供相關信息。
2、圖像生成和編輯:Adobe Acrobat 引入了全新的“Generate Image”功能,用戶可以選擇 PDF 文件中的某段內容,調用 AI 來生成圖片,并調整圖片的樣式和大小。還有“Edit Image”功能,允許用戶通過 Firefly AI 模型對現有圖像進行編輯,例如刪除背景、擦除和裁剪等。
這次升級顯著增強了 Acrobat 的功能,使其在處理復雜文檔和圖像方面更加高效和智能。
各位設計師們,這個工具太牛了啊,只需在源圖像中指定需要編輯的區域,并提供一張參考圖,MimicBrush 就能智能捕捉兩者間的聯系,自動完成局部編輯或替換。該工具的主要功能包括局部區域編輯、紋理轉移和后期處理優化等。分享給大家!!
MimicBrush 是由中國香港大學、阿里巴巴集團和螞蟻集團聯合開發的一種零樣本圖像編輯工具,通過參考圖像進行模仿編輯,幫助用戶更方便地進行創作。
MimicBrush 的主要特點包括: 參考圖像模擬:分析并復制參考圖像中指定的視覺特征到源圖像中的標記區域,確保風格或內容的一致性。 零樣本圖像編輯:允許用戶在沒有原始目標圖像的情況下進行圖像編輯,通過參考仿制的方式實現編輯效果。 文本到圖像對齊:利用 CLIP 編碼器和 VAE 實現文本到圖像的對齊功能,用戶可以通過輸入文本描述來指導編輯過程。 多樣化的編輯結果:展示了一系列多樣化的編輯結果,包括局部區域編輯、紋理轉移和后期處理優化等功能。
MimicBrush 還簡化了復雜的編輯流程,提高了效率和靈活性,特別適用于產品定制、角色設計和特效制作等領域。其底層框架基于 SD1.5 的擴散模型和 MimicBrush 模型結合,極大地簡化了 AI 圖像編輯的流程。
項目地址:https://github.com/ali-vilab/MimicBrush