本报讯 (新重庆-重庆日报记者 李志峰)近日,在全球知名数据科学竞赛平台Kaggle与Deep Past Initiative团队联合举办的“Deep Past挑战赛——将古阿卡德语(楔形文字)翻译成英语”赛事中,来自重庆邮电大学人工智能学院2023级的两位本科生——王世成与刘洋,携手美国算法工程师杰克组建的“M&J&M”团队斩获赛事金牌,在全球排名中位列第六。
“Deep Past挑战赛”到底比的是什么?“你用过豆包吗?这项赛事就好比我们需要建立一个类似豆包的模型,然后通过语言处理,要求它把距今2000余年的古阿卡德语翻译成现代英语。”王世成说,选手需要利用数据资源,让AI破译距今数千年的楔形文字,属于典型的低资源语言挑战。
现存古阿卡德语文献约100本,虽然竞赛提供了约4000条文档(相当于30本书的体量)的测试集,但参考资料依然匮乏,远不及主流语言。不仅如此,古文字资料存在格式错乱、拼写误差等问题,给翻译工作带来了巨大困难。
比赛于去年12月底开始,为了冲击更高目标,王世成与刘洋组了队,并在竞赛平台上联系上了擅长数据分析的杰克,形成了远程协作、高效配合的竞赛团队。但是,比赛远比想象中复杂。“如何把一堆杂乱、质量不一的资料,真正整理成模型能‘学会’的东西,是需要突破的点。”王世成说,面对困境,团队做出了关键的战略转向:放弃单纯追求模型精调,转而聚焦于“把数据做厚、做准”。
靠着“发现问题就改,效果不好就重做,分数卡住就换思路”的韧劲,团队逐一攻克技术难关,锁定了全球第六的佳绩。
王世成和刘洋这份成绩的背后,离不开重邮人工智能学院定制化拔尖人才培养的支撑。他们所在的数据科学与大数据技术拔尖班,是学校面向AI算法岗位打造的特色班型。该班采用小班化教学,其最大特色是将Kaggle等高水平国际竞赛纳入实践教学的核心环节,并设定了“银牌必修、金牌培优”的考核机制。