内容总结
Deepseek V3在2024年底以6710亿参数和14.8万亿高质量token惊艳亮相,仅花费557.6万美元训练成本和280万个GPU小时,成功与顶尖模型竞争,并在能效上领先。Deepseek从幻方量化内部AI部门孵化而来,专注AI大模型研发。其选择开源策略,吸引开发者参与,形成技术生态。DeepseekV3通过稀疏MoE和FP8混合精度等创新架构,在数学和编码场景中展现高性能。然而,在通用性和稳定性方面仍需进一步打磨。未来,Deepseek需平衡推理成本与营收,并提升模型通用性,以在AI大模型领域取得更广泛应用。