Line日本开源自有大型语言模型

2023 年 8 月 17 日

Line日本

Line日本总部本周宣布开源自有开发的日语大型语言模型（LLM）。

Line将以Apache License 2.0授权开源其japanese-large-lm模型，除了研究用途外，也允许商业用途，包含36亿及17亿个参数2个版本，两项专案都可以在HuggingFace Hub存取。

Line自2020年11月起，即致力於针对该公司大型语言模型HyperCLOVA，启动多项构筑和应用相关研发计画。Line於2021年5月开发者大会上，首次公开2,040亿个参数训练而成的韩文版LLM HyperCLOVA，11月则公布日语特化版，拥有850亿参数，并宣称将以其发展一系列自然语言处理服务。

而本次公开的japanese-large-lm模型是和HyperCLOVA由不同部门并行开发，前者即是Massive LM团队的开发成果。团队指出，本模型是用了Line自己的日语大型Web文本为基础来训练，并利用成员自行开发的HojiChar开源函式库，来过滤大量原始码及非日语文字等杂讯，最後用了650GB资料集来训练。开发时间上，以17亿参数版本而言，在A100 硬体上花了4000 GPU时间训练而成。

研究团队也提供了本次公开的两个模型和Rinna-3.6B及OpenCALM-7B模型的准确度和困惑度（perplexity score，PPL）比较数据。