news 2026/7/5 15:17:05

Qomhra: A Bilingual Irish-English Large Language Model

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Qomhra: A Bilingual Irish-English Large Language Model

一、文章主要内容总结

本文介绍了双语(爱尔兰语-英语)大语言模型Qomhrá的开发过程、核心实验及成果,聚焦低资源语言(爱尔兰语)的LLM构建难题,提出了涵盖双语持续预训练(CPT)、指令微调、人类偏好对齐的完整流程:

  1. 背景与动机:爱尔兰语作为官方语言,在语言技术领域滞后于其他欧洲语言,缺乏高质量标注数据和成熟LLM。现有研究(如gaBERT、UCCIX)未覆盖指令微调与偏好对齐环节,无法直接用于聊天机器人开发。
  2. 核心方法
    • 预训练:基于Qwen-3-8B模型,混合爱尔兰语(含UCCIX开源数据、国家语料库等)和英语(维基百科数据)语料进行双语CPT,避免灾难性遗忘;
    • 指令微调:通过评估6个闭源LLM的爱尔兰语生成能力,选定Gemini-2.5-Pro翻译Dolly V2数据集,构建3万条双语平行指令数据集,采用LoRA进行微调;
    • 人类偏好对齐:利用Gemini-2.5-Pro翻译LIMA数据集,生成1千条含"可接受/不可接受"响应的偏好数据集,验证其与爱尔兰语母语者判断的一致性。
  3. 实验结果
    • 预训练后,Qomhrá在爱尔兰语任务上较基线提升最高29%,英语任务提升44%,未出现显著灾难性遗忘;
    • 指令微调后,模型在翻译、世界知识等开放式任务上性能显著改善,响应长度更合理;
    • Gemini-2.5-Pro生成的偏好数据与母语者判断一致性达98.9%(Cohen’s κ=0.
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/7/5 15:15:02

Linux账户安全

设置强密码策略 /etc/login.defs2查看当前设置的参数3.限制用户登录失败次数查看当前设置的参数控制用户权限使用多因素身份验证 /etc/pam.d/system-auth查看当前设置的参数

作者头像 李华
网站建设 2026/7/5 15:13:11

河源市万川石英发展有限公司工厂简介

河源市万川石英发展有限公司是一间专业从事石英砂资源开发与利用的大型工矿企业。本企业拥有一帮15年石英石资源采选经验的技术团队,从工厂选址到生产工艺定型,再到市场销售,均有一定的造诣。本企业投资在广东河源设立选矿厂,拥有…

作者头像 李华
网站建设 2026/7/5 15:11:46

断桥结构耐火性技术与建筑实用适配

现行建筑节能与消防规范双控背景下,常规 PA66 玻纤断桥铝型材存在隔热条低温蠕变、高温熔融失效、冷热循环界面脱粘、耐火与节能性能互斥四大核心矛盾。本文以冷热耦合工况下断桥结构传热、力学、耐火失效机理为基础,系统梳理隔热条基体阻燃改性、型材腔…

作者头像 李华
网站建设 2026/7/5 15:11:12

零基础可视化看板搭建:从交互到下钻全流程

一、前言:从数据展示到交互洞察的跃迁在前两个实验中,我们分别完成了浏览器市场分析大屏的静态布局与数据接入,以及用户画像大屏的多维度数据绑定和筛选器联动。然而,一个真正具备商业价值的可视化大屏,不仅需要"…

作者头像 李华
网站建设 2026/7/5 15:06:23

UVa 520 Append

题目描述 题目要求计算给定的编码序列 CwC_wCw​ 可以分解为 CuCvC_u C_vCu​Cv​ 的方式数,其中 uuu 和 vvv 均为非空字符串,且 wuvw uvwuv。编码规则如下: 每个编码对 (pi,ri)(p_i, r_i)(pi​,ri​) 要么是 0 c(表示添加字符 c…

作者头像 李华
网站建设 2026/7/5 15:05:09

面试口述版:个人对 Prometheus 完整理解

结合 K8s 集群搭建 SRE 智能运维 Agent 的实操项目,我从定位、核心架构、项目落地、踩坑感悟四个层面讲下我对 Prometheus 的理解。一、核心定位Prometheus 是一套开源、面向云原生场景的时序监控告警系统,采用 Pull 拉取架构采集指标,配套独…

作者头像 李华