真正Open的AI公司Mistral又低调上新了。
这次,他们发布了首款代码天生模型Codestral,支持80多种编程措辞以及32K长高下文窗口。
不仅在基准测试上取得了惊艳的表现,而且代码天生的速率也让试用的网友非常满意。

目前,Codestral供应了多种API,而且模型权重也公开在HuggingFace上。
项目地址:https://huggingface.co/mistralai/Codestral-22B-v0.1/tree/main
代码天生新SOTA
Codestral的演习数据包含80多种编程措辞,包括最盛行的Python、Java、C、C++和Bash,以及HTML、JavaScript等前端措辞,在Swift和Fortran上也有良好表现。
模型可以完成的任务包括编写特定功能的函数、编写测试,以及代码添补。
此外,由于Codestral同时精通英语,也可以与开拓职员进行交互,有助于提高工程师的编码水平并减少缺点和漏洞。
可以通过Le Chat对话界面免费利用模型的交互功能。
在线地址:https://chat.mistral.ai/chat
作为一个参数量只有22B的模型,Codestral实现了32K的长高下文窗口,是Llama 3 70B的四倍。
Codestral利用了Llama架构,但在7种措辞的HumanEval均分超过了CodeLlama,可以和Llama 3打个平手。
RepoBench是一个用于评估存储库级代码补全任务的新基准,磨练模型的跨文件检索和理解长高下文能力。在RepoBench上,Codestral利用Python措辞达到了SOTA成绩。
此外,在其他措辞的评估中,包括C++、bash、Java、PHP、Typescript和C#,Codestral也取得了不错的成绩。
FIM基准可以评估模型在中间添补当务上的性能,但CodeLlama和Llama不直接支持这个功能。
在FIM任务中,Codestral用更少的参数量,在Pyhon、JavaScript和Java三种措辞上的分数全面超过DeepSeek Coder 33B。
目前,Mistral开放了两个API供开拓者调用Codestral,分别是codestral.mistral.ai和api.mistral.ai,前者有8周的免费测试期,后者按token收费。
此外,还可以通过Continue.dev或者Tabnine插件在VSCode或JetBrains的IDE中利用Codestral的功能。
开拓者们已经用上了
基准测试毕竟只是参考,代码工具好不好用,只有试过才知道。
有网友感叹「80种措辞太猖獗了」「终于有人想起来Swift了」。
而且实测中可以看到,Codestral的代码天生速率非常快,而且相应延迟也很短。
有人给了GPT-4o和Codestral相同的任务,让它们用Go措辞实现基本的发布/订阅系统。
虽然两个模型的相应延迟都很短,但Codestral写完的时候,GPT-4o刚写到一半,天生速率高下立现。
有开拓者剖析,虽然Codestral不是最大、最好的代码模型,但自己还是会从Claude Opus爬墙,改用Codestral。
由于模型确实包含了更多前沿知识,可以帮助编写最新的AI代码,但ChatGPT和Opus都做不到。
但也有Python工程师吐槽:「没有一个LLM明白,在Python 3.9之后的版本中,就不再须要利用from typing import List了。」
「GPT-4、GPT-4o、Claude Opus、Gemini和Codestral都无法理解这一点。纵然明确解释,它们仍旧无法理解。」
看来人类程序员剩下的为数不多的上风还有「知错就改」。