通义千问 Code Qwen 挑战赛总结

发表时间:2024-06-12 15:35

通义千问 Code Qwen 挑战赛总结。

  • 赛题名称:通义千问AI挑战赛 - Code Qwen能力算法赛道
  • 赛题类型:大模型代码能力生成
  • 赛题链接:https://tianchi.aliyun.com/competition/entrance/532169

赛题背景

代码是人类创造的高质量语言之一,通过高度的抽象来代替形式多样的自然语言,最终转换为具体程序来代替人类完成任务,其具有精确性、逻辑性和可执行性等优点。所以代码能力也成为大语言模型(LLMs)的核心能力,我们期待 LLMs 可以帮助人类进行辅助编程、漏洞修复、甚至是全自动代码生成等工作。

如何通过高质量的数据微调提升基础语言模型的代码能力仍然是一个开放且具有挑战的问题,Qwen AI挑战赛由阿里云和NVIDIA主办,天池平台和魔搭联合承办,是聚焦于通义千问大模型微调训练的竞赛,其主要目标是通过高质量的数据探索和拓展开源模型 Qwen 1.8B 及 Qwen 72B 的代码能力上限。

赛题赛制

  • 【初赛阶段 - 小试牛刀 1.8B】2023年12月5日10:00-2023年12月18日18:00,UTC+8
  • 【复赛A榜 - 八仙过海 72B】2023年12月20日18:00-2023年12月28日12:00,UTC+8

数据说明

  1. 训练集不做限制,但不得存在评测集数据泄露及侵犯任何第三方的合法权益;

  2. 初赛测试集:主办方将提供训练框架及离线推理评测框架:https://github.com/codefuse-ai/MFTCoder/blob/codeqwen_competition/mft_peft_hf/README.md 。评测指标采取 pass@1, 推理超参数 n_samples=1, do_sample=False。获得模型的生成结果(名为“ generations_{your-model-name}”的文件夹)后,将其压缩为 zip 文件,然后上传到阿里云天池平台,平台会自动评测得到均分。

  3. 复赛测试集:主办方将在初赛评测集的基础上加入隐藏的评测数据,考验模型的泛化能力。格式与初赛题目一致,最终通过主办方评估选手部署好的 72B 模型进行统一评测,最终排名以为**初赛公开数据集分数 X 0.5 + 隐藏的代码数据集分数 X 0.5 **。

优胜方案分享

第1名:yyyyyjjjjj 团队方案

https://tianchi.aliyun.com/forum/post/659838

第2名:JMXGODLZZ 团队方案

https://tianchi.aliyun.com/forum/post/659750

初赛模型开源地址:https://modelscope.cn/models/JMXGODLZ/CodeQWen_1.8B/summary


第3名:VSCODE 团队方案

https://tianchi.aliyun.com/forum/post/659773


第4名:Infinite Loopers 团队方案

https://tianchi.aliyun.com/forum/post/659755

第6名:Somnus丶M 团队方案

https://tianchi.aliyun.com/forum/post/659756

第7名:CodeMage 团队方案

https://tianchi.aliyun.com/forum/post/659757

第8名:wjf 团队方案

https://tianchi.aliyun.com/forum/post/659760

第9名:拒做韭菜 团队方案

https://tianchi.aliyun.com/forum/post/659765

第10名:Dejavu 团队方案

https://tianchi.aliyun.com/forum/post/659761


分享到: