首先有一個誤區,很多人覺得開源就是免費,開源就是沒有版權。其實這是完全錯誤的理解!
開源≠免費。開源≠沒有版權。開源≠隨意商用。開源≠完全透明。
對開源模型的理解,目前大致有四個 Level,開放程度依次增加:
1. 封閉式“開源”(以 OpenAI 為代表)
- 核心理念:早期以開源和非營利為目標,逐漸轉向封閉模式,通過 API 提供服務,不公開模型權重和訓練細節。
- 特點:模型權重和訓練數據不公開,僅提供黑箱化的 API,通過訂閱服務和 API 收費實現盈利,有助于控制模型濫用風險。
- 爭議:違背了開源的核心精神,被批評為技術壟斷。
2. 自定義開源(以 Meta 為代表)
- 核心理念:開源模型(如 LLaMA),但采用自定義許可證(如 LLaMA 社區許可協議),強調研究和非商業用途,限制商業使用。
- 特點:公開模型權重,但限制商業使用和分發,主要面向學術機構和非營利組織,用戶需申請訪問權限。
- 爭議:自定義許可證限制了模型的廣泛使用,不符合完全開源的定義。
3. 傳統開源(以 DeepSeek 為代表)
- 核心理念:采用傳統開源許可證(如 Apache 2.0),完全開放模型權重和代碼,強調自由使用、修改和分發,包括商業用途。
- 特點:模型權重、代碼和部分訓練數據公開,允許商業使用,無歧視性限制,鼓勵社區協作和創新。
- 優勢:符合傳統開源定義,推動技術普及和創新。
4. 理想開源(以 OSI 為代表)
- 核心理念:OSI 正在制定 OSAID 1.0(Open Source AI Definition),旨在為開源 AI 系統提供明確標準,強調透明度、可訪問性和可修改性。
- 特點:要求公開模型權重,允許用戶自由使用,盡可能公開訓練數據的來源和組成,訓練和推理代碼必須開源,不得限制特定用戶群體或用途。
- 目標:確保開源 AI 系統符合開源精神,推動技術民主化。