DeepSeek 训练成本不到GPT 的二十分之一。

日期:

DeepSeek 训练成本不到GPT 的二十分之一。

中国领先的人工智慧公司DeepSeek AI最近发布了最新的专家混合模型(MoE)DeepSeek V3 [1]。该模型仅拥有370 亿个有效参数,因其令人印象深刻的结果和相对较低的成本而受到广泛关注。

DeepSeek V3 使用14.8 兆个代币进行训练,明显少于GPT-4 的1750 亿个和Claude 3.5 的210 亿个 [1]。尽管活动参数较少,DeepSeek V3 在各种评估中均优于GPT-4 和Claude 3.5,包括MATH 500、AIME 2024、Codeforces 和SWE-bench Verified [1]。

DeepSeek V3 的发布最引人注目的方面是该公司提供的透明度水平。该技术报告分享了有关建模和基础设施决策的大量细节,并强调了使Meta 使用GPU 显得浪费的数字 [1]。

DeepSeek 采用的最重要的成本节约措施之一是使用客制化的培训基础设施。该公司声称,他们的基础设施使他们能够训练大型模型,而成本只是传统基于云端的解决方案的一小部分 [1]。

此外,DeepSeek对MoE技术的使用使得模型在参数的使用上更有效率。这使得模型的功能与GPT-4 和Claude 3.5 一样,但活动参数较少,整体成本较低 [1]。

尽管DeepSeek V3 具有令人印象深刻的结果和成本效益,但它可能不适合每个人。一些用户注意到模型的特征或训练后感觉很浅薄,与ChatGPT 等更精致的模型相比,使用起来不太愉快 [1]。

总之,DeepSeek V3 是GPT-4 和Claude 3.5 的经济高效替代品,可提供令人印象深刻的结果。它使用MoE 技术和客制化的培训基础设施,使其成为希望降低成本同时保持高品质语言模型的企业的一个有前途的选择。

参考:
[1] Interconnects.ai。 (2023 年1 月10 日)。 DeepSeek V3 和训练大型语言模式的实际成本。 https://www.interconnects.ai/p/deepseek-v3-and-the-actual-cost-of

[ad_1]


[ad_2]

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Share post:

订阅

spot_imgspot_img

流行

相关文章
Related