美國禁止對中國販售高階工智慧(AI)晶片的禁令,反而成為了創新的一個催化劑。一家小型中國新創公司DeepSeek,於2023年5月由一名曾經學習AI的避險基金經理人所創立。該公司表示其找到使用二級圖形處理器的方法可與美國競爭對手相媲美,並且成本更低。
DeepSeek 藉著高效的大型語言模型(LLMs)已經吸引了廣泛關注,這些模型類似於 OpenAI的ChatGPT 但功能較弱。與 ChatGPT 和大多數西方競爭對手不同,DeepSeek 的LLM是開放原始碼,表示用戶可以查看和修改,以進行改進或客製。現在DeepSeek表示其最新的模型V3已經取得了重大突破。該公司在 2024 年 12 月 27 日的技術報告中表示V3“優於其他開放原始碼模型,並做到與領先的封閉原始碼模型相當的性能”。
DeepSeek僅用了560萬美元來訓練 V3,遠低於 OpenAI 訓練ChatGPT-4o估計的7800萬美元。該公司表示V3 在數據分析、圖像識別和預測模型能力,可以幫助預測氣候影響、識別疾病生物標誌以及測試宇宙理論等科學用途。
儘管 DeepSeek 已取得重大進展,其開放原始碼的做法意味著“競爭對手可以改進 DeepSeek 的方法,”觀察家認為仍然面臨很大挑戰,必須不斷突破軟體和系統創新的界限,才能保持競爭力。
在 DeepSeek 和其他中國公司急於趕上西方LLM之際,它們擁有獨佔中國市場的優勢,ChatGPT 和其他模型被中國的防火牆屏蔽
全文請見:
https://www.science.org/content/article/chinese-firm-s-faster-cheaper-ai-language-model-makes-splash