好消息啊!4月27日,在2024中關村論壇-未來人工智能先鋒論壇上,清華大學聯合生數科技正式發布了,中國首個長時間、高一致性、高動態性視頻大模型——Vidu。
大家期待已久的國產大模型,這不就來了嗎?
Vidu采用了原創的Diffusion與Transformer融合架構U-ViT,能夠支持文本生成長達16秒、分辨率高達1080P的高清視頻內容。
Vidu不僅能夠模擬真實物理世界,還具備豐富想象力,具備多鏡頭生成、時空一致性高等技術特點。這也是繼Sora發布之后,全球率先取得重大突破的視頻大模型,性能全面對標國際頂尖水平,并加速功能迭代中。
現在已經開放試用了,還不趕緊來試一試?
試用地址:https://www.shengshu-ai.com/home?ref=maginative.com
Blockade Labs 生成式 AI 平臺,近日在其官方網站上隆重推出了新一代模型——Model 3。
與前代Model 2相比,Model 3在生成效果上有了顯著的提升。這款新模型原生就能支持到8192x4096的超高清分辨率,這大大提高了生成圖像的質量。而且其增強的文本提示器能更精確地描繪生成的虛擬世界,使得生成的圖像更為生動逼真。Model 3還大幅降低了生成圖像的灰度值,無論是建筑、風景還是人物,都展現出更高的清晰度和精致的細節。
現在,大家已經可以免費體驗這款全新的Model 3模型。雖然目前Model 3還未開放像Model 2中的網格、混音、重組、草圖等自定義功能,但Blockade Labs已經明確表示,這些功能將在不久的將來為用戶逐一呈現。
Model 3的主要特點包括: 1. 高分辨率支持:原生支持8192x4096分辨率,這比Model 2有顯著提升。 2. 文本提示器增強:能夠更好地描述生成的世界。 3. 減少灰度值:使生成的建筑、風景、人物等看起來更加高清和細膩。
免費體驗地址:https://skybox.blockadelabs.com/1a97298c8f1f88340e91418e93fbee3e API地址:https://skybox.blockadelabs.com/api-membership
Adobe Photoshop 引入了全新的 Firefly Image 3 圖像 AI 模型,這一更新是在2024年4月23日宣布的。這個新模型是基于 Adobe Firefly Image 3 Foundation Model 開發的,旨在為創意專業人士和設計師提供更多的AI圖像編輯功能和改進。
Firefly Image 3 模型不僅增加了生成式AI特性,還對Photoshop現有的所有功能進行了改進,使得生成的圖像和輸出看起來更加逼真、詳細。
Firefly Image 3 模型通過提供更多的控制、改進圖像生成以及使編輯過程更直觀,大幅提升了圖像編輯的深度與靈活性。這些新功能包括但不限于根據文本提示制作基于AI的圖像,以及在Photoshop中引入的新的人工智能功能,如Reference Image等。
Adobe Firefly Image 3 模型的引入,標志著Adobe在AI圖像生成領域的一個重要進步,它不僅增強了創意專業人士和設計師的工作效率和創造力,也為用戶提供了更加豐富和強大的圖像編輯工具。這些更新預計將在今年晚些時候通過Photoshop的beta桌面應用向公眾開放。
原文地址戳這里!
最近,Adobe 發布了視頻超分項目 VideoGigaGAN。從演示效果來看相當牛批,支持8倍視頻放大,可以適應不同風格的視頻。
詳細介紹: 該模型能夠生成既保持時間連貫性又具有高頻細節的視頻。VideoGigaGAN基于一個先進的大規模圖像放大模型GigaGAN進行設計和優化。 如果簡單地將GigaGAN擴展為視頻處理模型,并增加處理時間信息的模塊,會引起視頻中的嚴重閃爍問題。為解決這一問題,我們識別并改進了幾個關鍵技術點,顯著提升了視頻的時間穩定性。 通過在公開數據集上與其他先進的VSR模型對比,并展示8倍超分辨率的視頻效果,我們驗證了VideoGigaGAN的高效性。
項目地址:https://videogigagan.github.io/
Dynamic Typography這個標題動畫方案,簡直是神器啊!你想啊,在你設計的標題里,加個SVG小動畫,立馬就能抓住觀眾的眼球!
詳細介紹: 一個名為“動態排版(Dynamic Typography)”的自動化文字動畫方案,它結合了變形字母表達語義和根據用戶指令添加動態效果這兩項技術難題。 我們的方法采用了矢量圖形表示和端到端的優化框架,使用神經位移場技術將字母轉換成基本形狀,并配合逐幀動態效果,確保動畫與文字的意圖保持一致。 通過形狀保持技術和感知損失正則化,我們確保了動畫在整個制作過程中的可讀性和結構完整性。
用了 Dynamic Typography,你的設計肯定能讓人眼前一亮,贊不絕口!
項目地址:Dynamic Typography
谷歌發布了一套完整的機器學習工程師課程,共計15門課,學習時長達300小時,而且完全免費!
這套課程全面講解了機器學習系統的設計、搭建、投產、優化以及后續的運轉和維護工作,內容既深入又實用。
具體學習內容包括: - 機器學習基礎,深入剖析機器學習的核心原理和方法。 - 特征工程,教授如何高效處理和轉換數據,進而提升模型的性能。 - 生產級機器學習系統的構建與部署,讓你了解如何將模型應用到實際生產環境中。 - 計算機視覺與自然語言處理的專業知識,涵蓋圖像和語言數據的深度分析及應用。 - 推薦系統的構建技巧,探討打造個性化推薦引擎的要點。 - MLOps的實操指南,從模型的部署、監控到維護,全方位掌握機器學習操作。 - 還將詳細介紹TensorFlow、Google Cloud和Vertex AI等工具和平臺,助你輕松應對機器學習項目的開發與部署。
課程地址:https://www.cloudskillsboost.google/paths/17
Stability AI 開發者平臺 API 現已支持最新版本的 Stable Diffusion3(SD3)及其增強版本 Stable Diffusion3Turbo。
SD3模型的亮點在于其對字體和提示的遵循能力,這在人類偏好評估中得到了突出體現。為了實現這一目標,SD3采用了新的多模態擴散變換器(MMDiT)架構,該架構改進了對圖像和語言表示的權重分離處理,從而顯著增強了模型的文本理解和拼寫能力。這使得SD3在理解和執行用戶的文本提示時更為精準,生成的圖像更加符合用戶的預期。
Stability AI在不斷提升服務質量,盡管SD3模型已經通過API對外提供,但公司仍在持續對模型進行優化。Stability AI計劃在不久的將來開放模型權重,允許擁有Stability AI會員資格的用戶自行托管,這將增強用戶的自主性和靈活性。
Stability AI與Fireworks AI的合作確保了API平臺的高速和可靠性,公司承諾提供99.9%的服務可用性,這對于企業用戶來說尤為重要,因為他們在使用開發者平臺進行關鍵的生成型AI工作時,需要確保服務的穩定性和可靠性。
至于能不能和 Midjourney v6 相媲美或者超越 V6 ,大家不妨多體驗,試試看!
API文檔:https://top.aibase.com/tool/stable-diffusion-3-api 體驗地址:https://sdxlturbo.ai/stable-diffusion3
哎呀,昨晚 Meta 發布被稱為最強開源的 Llama 3 系列模型了,大晚上扔了個炸彈啊!說實話,這事兒也不算太意外,畢竟 Meta 總是喜歡搞點大動作。他們這次帶來的就是那個自稱“有史以來最牛”的開源大模型——Llama 3系列。 咱們設計師,又可以借助這個新模型好好發揮一番了!
一起看看這個 GPT-4 級模型,它能干得過 GPT-4 么?
Llama 3模型的特點 - 規模與性能:Meta開源了兩款不同規模的Llama 3模型,分別是8B和70B參數規模。Llama 3 8B在性能上與Llama 2 70B相當,而Llama 3 70B則在性能上媲美甚至超越了其他頂尖AI模型。 - 技術改進:Llama 3在預訓練和后訓練方面都有所改進,優化了模型的一致性和響應多樣性,降低了出錯率。 - 多模態與多語言:未來幾個月,Meta將推出具備多模態、多語言對話和更長上下文窗口的新模型,其中包括超過400B的模型,預計將與現有的頂尖模型競爭。
Llama 3的性能測試 - 基準測試:Llama 3在多個測試中得分超越了其他同類模型,顯示出其在推理、代碼生成和遵循指令等方面的突破性提升。 - 人類評估數據集:Meta開發了一套新的高質量人類評估數據集,用于準確研究模型性能。
開源與閉源的辯論 - 開源優勢:Meta堅定地支持開源路線,認為這有助于推動社區和公司雙方的創新。 - 未來展望:盡管Llama 3為開源模型贏得了一場勝利,但關于開源與閉源的辯論仍在繼續。未來,可能會有更高性能的模型出現,為這場辯論帶來新的轉折。
附上 Llama 3 體驗地址:https://huggingface.co/meta-llama/Meta-Llama-3-70B-Instruct
各位設計師小伙伴,現在用Midjourney、DALL·E 3、Stable Diffusion 這些AI模型來生成圖片的時候,如果生成的圖片樣式并不完全符合你的設計需求,大家都是怎么處理的啊?
常規操作,你得用 PS、Adobe Lightroom這些軟件來調整。不過說實話,這樣挺費時的,也不太符合現在AI時代的高效率要求。
近日「AIGC開放社區」就為大家介紹一款最近公測的高效圖片無限重生樣式的免費試用AI平臺——Freepik。這個平臺現在是公測期,而且提供免費試用。
你只需要把圖片上傳到Freepik,選擇3D、繪畫、懷舊、卡通、超現實等樣式,就能在幾秒內快速實現。
對于我們這些設計師來說,Freepik簡直就是個神器,強烈推薦給大家試試!
Freepik免費試用地址:https://www.freepik.com/pikaso/reimagine
昨天,谷歌在官網宣布從5月15日起,將向所有谷歌相冊用戶免費提供Magic Editor、Photo Unblur和Magic Eraser三款生成式AI編輯工具。
通過這三款強大的AI圖像編輯工具,用戶可以輕松將模糊的圖片變高清,實現一鍵PS/調色/光影,刪除圖片多余內容等。而在此之前,這三個是谷歌Pixel手機獨有功能。
功能介紹: 1. Magic Editor:這是一款強大的AI圖像編輯工具,它可以幫助用戶輕松實現一鍵PS/調色/光影,改變圖片中的物體位置等。這項功能最初在2023年10月4日隨Pixel 8系列手機發布。Magic Editor的優勢在于它的細節調整和融合度比傳統的PS工具更強,而且操作簡單,無需深度的專業知識。不過,需要注意的是,所有谷歌相冊用戶每月只能使用10次Magic Editor,如果想要更多使用次數,用戶需要購買Pixel 8手機或開通Google One計劃(2TB及以上)。 2. Photo Unblur:這是一款專用于去除圖片模糊的工具。用戶在拍攝圖片時可能會因為手抖、環境等因素導致圖片模糊,Photo Unblur能夠一鍵還原圖片的清晰度,讓模糊的圖片變高清。 3. Magic Eraser:這是一款圖片擦除工具,可以幫助用戶去除照片中不希望出現的元素,如行人或物體。對于不熟悉PS技術的用戶來說,Magic Eraser提供了一種簡單快捷的解決方案,一鍵完美去除圖片中的障礙物。
哪款你最期待呢?評論區說出你的想法吧~
OpenAI 發布了GPT-4-Turbo 正式版,這是一個帶有視覺能力的模型,能夠處理128k的上下文。
這個模型現在已經全面開放,可以通過“gpt-4-turbo”來使用,最新版本為“gpt-4-turbo-2024-04-09”。
GPT-4-Turbo模型的基礎能力得到了顯著提升,它不僅能夠處理文本輸入,還能夠識別和理解圖片。這一特性使得GPT-4-Turbo在多種應用場景中具有更廣泛的應用潛力。例如,它可以用于自動編碼、圖像識別和營養分析等領域,為用戶提供更加豐富和便捷的服務。
GPT-4-Turbo的價格與之前的版本保持一致,這使得用戶能夠以相對較低的成本使用這一先進的AI技術。同時,OpenAI還提供了詳細的接口信息和使用限制,幫助開發者更好地理解和利用這一模型。
大家覺得這個新功能怎么樣,實用性高嗎?
4月10日凌晨,谷歌在官網正式發布了Gemini1.5Pro,現在可在180多個國家/地區使用。
Gemini 1.5 Pro 不僅能夠生成創意文本和代碼,還能理解、總結上傳的視頻和音頻內容,并且支持高達100萬tokens的上下文。
在Google AI Studio開發平臺中,用戶可以免費試用Gemini 1.5 Pro,并且它支持中文提示。這使得用戶能夠通過簡單的操作,上傳視頻或音頻文件,并獲取內容的深度總結。例如,用戶可以上傳一個視頻并詢問影片的內容,Gemini 1.5 Pro能夠快速解析并提供答案。
Gemini 1.5 Pro還提供了音頻理解功能,能夠快速解析音頻文件并總結其內容。這對于需要處理大量視頻和音頻內容的用戶來說,無疑是一個巨大的幫助,因為它可以節省大量的時間。
谷歌還對Gemini API進行了性能優化,包括系統指令、JSON模式以及函數調用優化,這些改進顯著提升了模型的穩定性和輸出能力。系統指令功能允許用戶根據特定需求控制模型的行為,JSON模式可以幫助開發者從文本或圖像中提取結構化數據,而函數調用優化則支持開發者實現更全面的查詢響應。
詳情點此查看: https://developers.googleblog.com/2024/04/gemini-15-pro-in-public-preview-with-new-features.html
音頻理解能力: https://github.com/google-gemini/cookbook/blob/main/quickstarts/Audio.ipynb