欢迎来 中南山 官方网站!

主页 > 最新动态 > 数字动态
数字动态

大模型的未来为什么是深度学习?

2023-7点击:3923
以ChatGPT为代表的大型语言模型在全世界范围内产生了巨大影响,被视为科技领域的革命性进展。而当今社会是科技的社会,是算力快速发展的时代。随着数据中心、东数西算、高性能计算、数据分析、数据挖掘的快速发展,大模型得到了快速地发展。大模型是“大算力+强算法”相结合的产物,是人工智能的发展趋势和未来。


一、什么是大模型?


大模型也叫大型语言模型、大语言模型(Large Language Model,LLM; Large Language Models,LLMs)。


大型语言模型(LLM)是指包含数千亿(或更多)参数的语言模型,这些参数是在大量文本数据上训练的,例如模型 GPT-3、PaLM、Galactica 和 LLaMA。


大型语言模型(LLM)建立在 Transformer 架构之上,其中多头注意力层堆叠在一个非常深的神经网络中。


现有的大型语言模型(LLM)主要采用与小语言模型类似的模型架构 (即 Transformer) 和预训练目标(即语言建数)


作为主要区别,大型语言模型(LLM)在很大程度上扩展了模型大小、预训练数据和总计算量 (扩大倍数)


他们可以更好地理解自然语言,并根据给定的上下文 (例如 prompt) 生成高质量的文本。


这种容量改进可以用标度律进行部分地描述,其中性能大致遵循模型大小的大幅增加而增加。


然而根据标度律,某些能力(例如,上下文学习)是不可预测的,只有当模型大小超过某个水平时才能观察到。


二、全球AI大模型现状01美国

可以说,在AI大模型领域,目前的美国就是妥妥的“别人家孩子”,这也导致目前行业最具代表性的AI大模型都集中在美国。



从2012年AI萌芽时期,到2016年AI1.0时期,再到2022年ChatGPT带来的AI2.0时期,美国一直是AI领域的破局者,引领着全世界AI发展再进一步。


比如现在几乎所有AI大模型训练时采用的Transformer网络结构,是谷歌在2017年提出的,它具有优秀的长序列处理能力,更高的并行计算效率,无需手动设计以及更强的语义表达能力等特征。Transformer的提出让大模型训练成为可能。


再比如OpenAI最新发布的多模态预训练大模型GPT-4,谷歌最新推出“通才”大模型PaLM-E,拥世界最大规模的5620亿参数,能看图说话、能操控机器人,以及刚刚解决AI绘画手指问题的Midjourney等等。

02日本

我们盘点日本的AI大模型,会发现它们大多具有美国或者韩国色彩。


日本的落后其实要从上个互联网时代讲起。在盘点世界AI大模型领域的关键角色时会发现,无论是中国的BAT,韩国的Naver,还是美国的谷歌、亚马逊,他们都是互联网时代的巨头。而目前,日本的即时通讯软件来自韩国的LINE,云计算业务也被美国企业长期把持。


除此之外,日本其实还面临许多其他问题,比如由于半导体产业的衰落,让日本在本应成为最大优势的AI芯片领域缺位;比如作为一个小语种国家,日语面临和中文一样缺乏语料的问题。


在这样的背景下,日本在AI时代其实早就丧失了自主权。所以我们盘点日本的AI大模型,会发现它们大多具有美国或者韩国色彩。

03韩国

事实上,韩国是最早加入AI大模型研发的国家之一,但韩国的AI大模型这个国家的经济一样,只有财阀的身影,没有初创公司的故事。目前,韩国在大模型领域的代表只有互联网巨头Naver和Kakao,移动运营商巨头KT和SKT,以及通信巨头LG。


除了财阀唱主角之外,紧跟美国步伐也是他们的一个重要特点。



比如在GPT-3的应用上,2020年OpenAI发布GPT-3的论文,韩国企业在2021年就推出了相应产品,反应速度比中国更快。这种紧跟在AI方面也是如此,2020年谷歌、亚马逊等美国巨头开始推出AI加速芯片时,SKT就同步推出了自主研发的AI加速芯片SAPEON X220。

04欧洲

Future of Life Institute (FLI)曾在2022年11月发表过一篇报告提到:“欧洲没有开发通用人工智能系统,也不太可能很快开始这样做。”


FLI认为,在AI大模型方面,欧洲可能会主要扮演一个使用者的角色,即通过接入其他国家开发的大模型API来开发应用。


比如芬兰的Flowrite,一个基于AI的写作工具,可以将输入关键词生成邮件、消息等内容。比如荷兰的MessageBird,一个全渠道通信平台,这两者都是在GPT-3的基础上运行的。


欧洲在AI大模型方面确实缺少有影响力的企业,唯一一个总部位于英国的DeepMind还是由 Alphabet 全资拥有。整个欧洲,唯一担心因为大模型落后而被世界甩开,并为此操碎了心的只有德国。



比如谷歌3月7日最新推出的多模态大模型PaLM-E,就由谷歌和柏林工业大学共同打造,目前PaLM-E拥有5620亿参数,是全球最大的视觉语言模型。

05中国

有意思的是,中国第一个AI大模型并不来自于这些牛逼哄哄的大企业,而是2021年3月由智源研究院发布的“悟道1.0”。


且几乎所有企业,在发布大模型的时候都不止发一个,而是一串。



比如百度在2019年发布了文心大模型。和悟道AI一样,文心大模型也是诸多模型的统称,包括NLP、CV(机器学习)、跨模态大模型和生命计算大模型四个类别36个大模型。


3月16日,基于文心大模型,百度发布文心一言,成为中国第一个类ChatGPT产品。


华为在在2021年基于昇腾 AI 与鹏城实验室联合发布了鹏程盘古大模型。盘古大模型包括CV和NLP两类大模型。其中,盘古NLP大模型是业界首个千亿级中文NLP大模型。


阿里在2022年9月发布了“通义”大模型系列,包含NLP大模型AlicMind、视觉大模型CV,多模态大模型M6。其中M6大模型是国内首个千亿参数多模态大模型。


同样在2022年,腾讯发布混元AI大模型,其中包含NLP、CV和多模态等基础模型和众多行业/领域模型。到今年2月初,腾讯混元AI大模型团队再推出万亿中文NLP预训练模型HunYuan-NLP-1。目前HunYuan-NLP-1T大模型已在腾讯广告、搜索、对话等内部产品落地,并通过腾讯云服务外部客户。


到今年2月底,腾讯也开始研发类ChatGPT产品,并已成立“混元助手(HunyuanAide)”项目组。


商汤在3月14日发布多模态通用大模型“书生2.5",拥有30亿参数,其图文跨模态开放任务处理能力可为自动驾驶、机器人等通用场景任务提供感知和理解能力支持。书生(INTERN)”最初版本由商汤科技、上海人工智能实验室、清华大学、香港中文大学、上海交通大学在2021年11月首次共同发布。


在此之外,京东在2月10日宣布研发产业版ChatGP—ChatJD,网易、360、字节跳动等也宣布了在AI大模型方面的布局。


所以不管是哪个国家都在进行大模型方面的探讨和研究,所以大模型为什么是深度学习的未来?第五届华东CIO大会、2023中国数字化转型展将于8月19-20日举行,希望这场思想盛宴中能给你带来答案~

新闻资讯
相关产品