大模型的未来为什么是深度学习?

2023-7点击：3923

以ChatGPT为代表的大型语言模型在全世界范围内产生了巨大影响，被视为科技领域的革命性进展。而当今社会是科技的社会，是算力快速发展的时代。随着数据中心、东数西算、高性能计算、数据分析、数据挖掘的快速发展，大模型得到了快速地发展。大模型是“大算力+强算法”相结合的产物，是人工智能的发展趋势和未来。

一、什么是大模型？

大模型也叫大型语言模型、大语言模型(Large Language Model，LLM; Large Language Models，LLMs)。

大型语言模型（LLM）是指包含数千亿(或更多)参数的语言模型，这些参数是在大量文本数据上训练的，例如模型 GPT-3、PaLM、Galactica 和 LLaMA。

大型语言模型（LLM）建立在 Transformer 架构之上，其中多头注意力层堆叠在一个非常深的神经网络中。

现有的大型语言模型（LLM）主要采用与小语言模型类似的模型架构 (即 Transformer) 和预训练目标(即语言建数)。

作为主要区别，大型语言模型（LLM）在很大程度上扩展了模型大小、预训练数据和总计算量 (扩大倍数)。

他们可以更好地理解自然语言，并根据给定的上下文 (例如 prompt) 生成高质量的文本。

这种容量改进可以用标度律进行部分地描述，其中性能大致遵循模型大小的大幅增加而增加。

然而根据标度律，某些能力(例如，上下文学习)是不可预测的，只有当模型大小超过某个水平时才能观察到。

二、全球AI大模型现状01美国

可以说，在AI大模型领域，目前的美国就是妥妥的“别人家孩子”，这也导致目前行业最具代表性的AI大模型都集中在美国。

从2012年AI萌芽时期，到2016年AI1.0时期，再到2022年ChatGPT带来的AI2.0时期，美国一直是AI领域的破局者，引领着全世界AI发展再进一步。

比如现在几乎所有AI大模型训练时采用的Transformer网络结构，是谷歌在2017年提出的，它具有优秀的长序列处理能力，更高的并行计算效率，无需手动设计以及更强的语义表达能力等特征。Transformer的提出让大模型训练成为可能。

再比如OpenAI最新发布的多模态预训练大模型GPT-4，谷歌最新推出“通才”大模型PaLM-E，拥世界最大规模的5620亿参数，能看图说话、能操控机器人，以及刚刚解决AI绘画手指问题的Midjourney等等。

02日本

我们盘点日本的AI大模型，会发现它们大多具有美国或者韩国色彩。

日本的落后其实要从上个互联网时代讲起。在盘点世界AI大模型领域的关键角色时会发现，无论是中国的BAT，韩国的Naver，还是美国的谷歌、亚马逊，他们都是互联网时代的巨头。而目前，日本的即时通讯软件来自韩国的LINE，云计算业务也被美国企业长期把持。

除此之外，日本其实还面临许多其他问题，比如由于半导体产业的衰落，让日本在本应成为最大优势的AI芯片领域缺位；比如作为一个小语种国家，日语面临和中文一样缺乏语料的问题。

在这样的背景下，日本在AI时代其实早就丧失了自主权。所以我们盘点日本的AI大模型，会发现它们大多具有美国或者韩国色彩。

03韩国

事实上，韩国是最早加入AI大模型研发的国家之一，但韩国的AI大模型这个国家的经济一样，只有财阀的身影，没有初创公司的故事。目前，韩国在大模型领域的代表只有互联网巨头Naver和Kakao，移动运营商巨头KT和SKT，以及通信巨头LG。

除了财阀唱主角之外，紧跟美国步伐也是他们的一个重要特点。

比如在GPT-3的应用上，2020年OpenAI发布GPT-3的论文，韩国企业在2021年就推出了相应产品，反应速度比中国更快。这种紧跟在AI方面也是如此，2020年谷歌、亚马逊等美国巨头开始推出AI加速芯片时，SKT就同步推出了自主研发的AI加速芯片SAPEON X220。

04欧洲

Future of Life Institute (FLI)曾在2022年11月发表过一篇报告提到：“欧洲没有开发通用人工智能系统，也不太可能很快开始这样做。”

FLI认为，在AI大模型方面，欧洲可能会主要扮演一个使用者的角色，即通过接入其他国家开发的大模型API来开发应用。

比如芬兰的Flowrite，一个基于AI的写作工具，可以将输入关键词生成邮件、消息等内容。比如荷兰的MessageBird，一个全渠道通信平台，这两者都是在GPT-3的基础上运行的。

欧洲在AI大模型方面确实缺少有影响力的企业，唯一一个总部位于英国的DeepMind还是由 Alphabet 全资拥有。整个欧洲，唯一担心因为大模型落后而被世界甩开，并为此操碎了心的只有德国。

比如谷歌3月7日最新推出的多模态大模型PaLM-E，就由谷歌和柏林工业大学共同打造，目前PaLM-E拥有5620亿参数，是全球最大的视觉语言模型。

05中国

有意思的是，中国第一个AI大模型并不来自于这些牛逼哄哄的大企业，而是2021年3月由智源研究院发布的“悟道1.0”。

且几乎所有企业，在发布大模型的时候都不止发一个，而是一串。

比如百度在2019年发布了文心大模型。和悟道AI一样，文心大模型也是诸多模型的统称，包括NLP、CV（机器学习）、跨模态大模型和生命计算大模型四个类别36个大模型。

3月16日，基于文心大模型，百度发布文心一言，成为中国第一个类ChatGPT产品。

华为在在2021年基于昇腾 AI 与鹏城实验室联合发布了鹏程盘古大模型。盘古大模型包括CV和NLP两类大模型。其中，盘古NLP大模型是业界首个千亿级中文NLP大模型。

阿里在2022年9月发布了“通义”大模型系列，包含NLP大模型AlicMind、视觉大模型CV，多模态大模型M6。其中M6大模型是国内首个千亿参数多模态大模型。

同样在2022年，腾讯发布混元AI大模型，其中包含NLP、CV和多模态等基础模型和众多行业/领域模型。到今年2月初，腾讯混元AI大模型团队再推出万亿中文NLP预训练模型HunYuan-NLP-1。目前HunYuan-NLP-1T大模型已在腾讯广告、搜索、对话等内部产品落地，并通过腾讯云服务外部客户。

到今年2月底，腾讯也开始研发类ChatGPT产品，并已成立“混元助手(HunyuanAide)”项目组。

商汤在3月14日发布多模态通用大模型“书生2.5"，拥有30亿参数，其图文跨模态开放任务处理能力可为自动驾驶、机器人等通用场景任务提供感知和理解能力支持。书生（INTERN）”最初版本由商汤科技、上海人工智能实验室、清华大学、香港中文大学、上海交通大学在2021年11月首次共同发布。

在此之外，京东在2月10日宣布研发产业版ChatGP—ChatJD，网易、360、字节跳动等也宣布了在AI大模型方面的布局。

所以不管是哪个国家都在进行大模型方面的探讨和研究，所以大模型为什么是深度学习的未来？第五届华东CIO大会、2023中国数字化转型展将于8月19-20日举行，希望这场思想盛宴中能给你带来答案~

上一篇：什么是数字化转型的本质？
下一篇：ESG和数字化转型有什么关联关系？

新闻资讯