4月10日凌晨,谷歌在官網正式發布了Gemini1.5Pro,現在可在180多個國家/地區使用。
Gemini 1.5 Pro 不僅能夠生成創意文本和代碼,還能理解、總結上傳的視頻和音頻內容,并且支持高達100萬tokens的上下文。
在Google AI Studio開發平臺中,用戶可以免費試用Gemini 1.5 Pro,并且它支持中文提示。這使得用戶能夠通過簡單的操作,上傳視頻或音頻文件,并獲取內容的深度總結。例如,用戶可以上傳一個視頻并詢問影片的內容,Gemini 1.5 Pro能夠快速解析并提供答案。
Gemini 1.5 Pro還提供了音頻理解功能,能夠快速解析音頻文件并總結其內容。這對于需要處理大量視頻和音頻內容的用戶來說,無疑是一個巨大的幫助,因為它可以節省大量的時間。
谷歌還對Gemini API進行了性能優化,包括系統指令、JSON模式以及函數調用優化,這些改進顯著提升了模型的穩定性和輸出能力。系統指令功能允許用戶根據特定需求控制模型的行為,JSON模式可以幫助開發者從文本或圖像中提取結構化數據,而函數調用優化則支持開發者實現更全面的查詢響應。
詳情點此查看:
https://developers.googleblog.com/2024/04/gemini-15-pro-in-public-preview-with-new-features.html
音頻理解能力:
https://github.com/google-gemini/cookbook/blob/main/quickstarts/Audio.ipynb