开源言语 Codex 长于 PolyCoder C 代码生成器优于 AI

koi

2024-11-14发布
关注私信

362 327 333

卡内基梅隆大学的钻研人员推出了一个开源的智能代码生成器模型 PolyCoder，具备 27B 参数，基于 GPT-2 架构，在一台机器上对超越 12种编程言语的 249GB 代码启动了训练。训练结果标明，在 C 编程言语中，PolyCoder 优于包括 Codex 在内的一切模型。

钻研人员指出，OpenAI 的 Codex 于去年 8 月颁布，可经过微软领有的 GitHub 的 Copilot 工具取得;但它经过黑盒 API调用提供对模型输入的“non-free access”，模型的权重和训练数据并无法用。DeepMind 宣称其最近颁布的 AlphaCode代码生成器在人类介入的编程较量中排名前 54.3%，但是训练这个模型需却要在谷歌的数据核心启动"hundreds of petaFLOPSdays"的训练。

“虽然大型言语代码模型取得了渺小成功，但最强的模型都尚未地下。这阻止了这些模型在资源短缺的公司之外的运行，并限度了资源匮乏的组织在这一畛域的钻研。”

为了处置这一疑问，他们推出了 PolyCoder。该模型经常使用来自 GitHub 的多个存储库的数据启动训练，涵盖 12种盛行的编程言语：C、C#、C++、Go、Java、JavaScript、PHP、Python、Ruby、Rust、Scala 和TypeScript。未经过滤的数据集总共有 631GB 的数据和 3890 万个文件。此外，为了训练 PolyCoder，钻研人员选用了GPT-2(由于估算有限)。

不过虽然 PolyCoder 在 C 言语方面的体现优于一切模型，但 Codex 在其余言语方面依然要胜过 PolyCoder。

“值得留意的是，PolyCoder 在 C 言语方面优于 Codex 和一切其余模型。在比拟独自的开源模型时，PolyCoder 在C、JavaScript、Rust、Scala 和 TypeScript 方面的体现比相似规模的 GPT-Neo 2.7B 更好。在除 C 言语以外的其余 11种言语中，一切其余开源模型，包括咱们的，都显著比 Codex 差(higher perplexity)。”

概略可检查

本文题目：开源 AI 代码生成器 PolyCoder：长于 C 言语，优于 Codex

文章版权声明 1、本网站名称：萌爵百货商行网
2、本站永久网址：http://msbhsh.com
3、本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长进行删除处理。
4、本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5、本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报

#言语 #智能代码生成器 #PolyCoder

开源 言语 Codex 长于 PolyCoder C 代码生成器 优于 AI

开源言语 Codex 长于 PolyCoder C 代码生成器优于 AI