粤语语料库建设与大模型评测重点实验室在2025年中国数字文娱大会发布自研数据集成果

作者:    时间:2025-12-19    点击数:

12月18日,2025年中国数字文娱大会在广州羊城创意产业园举行。在下午的“新技术-智慧文娱解锁消费密码”分论坛上,广州大学粤语语料库建设与大模型评测广州市哲学社会科学重点实验室发布了5个自主研发的数据集以及与羊城晚报岭南文化大模型团队联合研制的1个数据集,总计6个支持人工智能应用的岭南文化数据集——岭南建筑图像标注数据集、粤语内容安全检测关键词库数据集、粤鉴-粤语大模型安全评测数据集、面向影视剧AI配音的细粒度标注粤语数据集、面向大模型训练的粤语大模型数据集和粤语文化思维链语料数据集。

会上,广州大学网络空间安全学院教授、粤语语料库建设与大模型评测重点实验室主任齐佳音教授介绍了AI-DimSum粤语语料库平台的建设情况,强调AI-DimSum粤语语料库的建设原则是“文化忠实、安全可信、AI友好、持续成长”的活态语料库。齐佳音教授重点介绍5个自主研发的数据集:


图1 粤语语料库建设与大模型评测重点实验室主任  齐佳音


岭南建筑图像标注数据集对岭南地区典型建筑,如碉楼、骑楼、祠堂等进行外观特征标注,包括建筑类型、构件、装饰工艺、材质、颜色等,构建了面向岭南建筑文化的多模态基础资源,为岭南文化数字化保护、岭南文化大模型等应用提供数据支持,对于活化和传承岭南文化具有重要意义。

粤语内容安全检测关键词库数据集围绕粤语整合多源语料,针对三大核心领域(涉政违法、侮辱歧视、岭南文化禁忌),采用“分级+标签”的动态词库管理方式,构建了粤语内容安全检测关键词库数据集,旨在填补大模型对粤语内容安全检测缺乏关键词库的缺口,保障大模型粤语内容安全与粤语网络内容安全治理。

粤鉴-粤语大模型安全评测语料集是面向粤语内容安全的高质量多模态评测数据集,约20万条,包括10万文本、10万音频、3000图片。该数据集依据《生成式人工智能服务安全基本要求》,覆盖政治、暴力、伦理、隐私、地域歧视等5大类31小类,深度融合粤语俚语、谐音等特色,可用于大模型安全对齐、合规评估和多方言内容治理,助力粤港澳大湾区AI安全发展。

面向影视剧AI配音的细粒度标注粤语语料数据集通过多渠道语料收集与细粒度编码,构建了涵盖超过30个影视剧人物、13种情绪、超过1000分钟的音频语料库,填补了粤语这种小语种影视剧人工配音成本高,智能配音缺乏高质量标注语料的实际产业痛点。

面向大模型训练的粤语大模型语料数据是面向大模型小语种能力训练的高质量多模态数据集,覆盖多种生活场景,超过5000个问答对,成功将普通话等通用语言数据转为粤语语料,为粤语大模型的数据训练和微调等后续泛化能力提供支持。

岭南文化大模型实验室主任邓立邦发布了全国首个方言文化思维链训练语料集——粤语思维链语料数据集。该数据集由岭南文化大模型实验室与粤语语料库建设与大模型评测重点实验室联合研制,搭建了3层结构,涵盖17个文化类别、360余个核心文化概念,并配套逾1万多组高质量标注语料,可直接服务于大模型的精调训练。邓立邦主任指出:“粤语是岭南文化的灵魂,开源这套数据,就是为了让大模型真正‘懂’岭南。”



目前,除了两个安全的数据集,其他四个都已经在粤语语料库建设与大模型评测重点实验室对外官网https://search.aidimsum.com/library,以及Hugging Face、GitHub、Gitee三个平台完全开源。

粤语语料库建设与大模型评测重点实验室由广州市社科联与广州大学联合共建,旨在通过“粤语+人工智能”的文化科技融合创新,推动粤语传承传播和发展。实验室由中国工程院院士、广州大学方滨兴教授,国家语言服务与粤港澳大湾区语言研究中心主任、广州大学屈哨兵教授担任双首席科学家,广州大学网络空间安全学院齐佳音教授担任重点实验室主任。


Copyright © 2022 广州大学网络空间安全学院 版权所有