当前位置:首页 >  科学 >  陈根,该语言模型使用,成为迄今为止最大规模的人工智能语言模型

陈根,该语言模型使用,成为迄今为止最大规模的人工智能语言模型

发布时间:2021-01-19 15:13编辑:小狐阅读: 44次 手机阅读

文/陈根

人工智能的语言模型,一直是人工智能的重要细分领域。人工智能语言模型应用包括搜索引擎、文字生成、个性化的对话工具以及软件生成等。

2020年5月,OpenAI的一组研究人员发布了具有里程碑意义的AI模型GPT-3。GPT-3就是在570 GB的文本数据上训练的语言模型,因此,就训练数据和生成能力而言,GPT-3截至2020年都是最庞大的公布的语言模型

此外,OpenAI的GPT-3一反之前死守基础研究的思路,将 GPT-3 做成了一个服务,可以调用的 OpenAI API,并且向开放了少量体验资格,使得拿到体验资格的业界人士或学者等,出了一众惊人的演示。

陈根,该语言模型使用,成为迄今为止最大规模的人工智能语言模型(图1)

包括答题、翻译、写文章,甚至是数学计算和编写代码。而由GPT-3所写的文章几乎达到了以假乱真的地步,在 OpenAI 的中,人类评估人员也很难判断出这篇新闻的真假,检测准确率仅为 12%。

但现在,谷歌研究人员出一个新的语言模型,它包含了超过 1.6 万亿个参数,远超Open AI 的 GTP-3 的规模(1750 亿个参数)成为迄今为止最大规模的人工智能语言模型,比之前谷歌过最大的语言模型 T5-XXL 的效率提高了 4 倍。

该语言模型使用 Switch Transformer 方法进行大规模训练,这是一种“稀疏激活”技术,它只使用模型权重的子集或在模型中转换输入数据的参数,以有效降低计算密集度。

管在部分实验中,该模型相比规模更小的模型得到了较低分数。但在相同的计算资源下,预训练速度提高了7倍。这些改进扩展到多语言设置中,我们在所有101种语言中测量mT5基本版本的增益。最后,我们通过在“巨大的干净的爬虫语料库”上预先训练多达万亿个参数的模型,提高了语言模型的当前规模,并实现了比T5-XXL模型4倍的加速。

本文相关词条概念解析:

模型

模型是所研究的系统、过程、事物或概念的一种表达形式,也可指根据实验、图样放大或缩小而制作的样品,模型一般用于展览或实验或铸造机器零件等用的模子。对于现实世界的事物、现象、过程或系统的简化描述,或其部分属性的模仿。在一般的意义下是指模仿实物或设计中的构造物的形状制成的雏型,其大小可以分为缩小型、实物型和放大型。

标签:
  • 网友评论
相关文章:

科学本月排行

科学精选