1 篇
DeepSeek V3、Claude 4(Sonnet/Opus)和 GPT-4.1 在 HumanEval、SWE-bench Verified、LiveCodeBench 上的正面对比,以及每 benchmark 分的成本分析。