阿里达摩院ai检测原理（达摩院2023十大科技趋势发布）

极目楚天 2023-07-15 19:03:42

收藏赞

1月11日，达摩院发布《达摩院2023十大科技趋势》，生成式AI、多模态预训练大模型等技术入选。

阿里达摩院ai检测原理（达摩院2023十大科技趋势发布）(1)

达摩院认为，AI正在加速奔向通用人工智能。生成式AI将迎来应用大爆发，极大推动数字化内容的生产与创造；多模态预训练大模型将实现图像、文本、音频等的统一知识表示，成为人工智能基础设施。人工智能诞生数十年，人类对“通用AI”的想象从未如此具体。

趋势解读一：生成式AI

阿里达摩院ai检测原理（达摩院2023十大科技趋势发布）(2)

生成式AI使用各种机器学习算法，从数据中学习要素，使机器能够创建全新的数字视频、图像、文本、音频或代码等内容。它创建出的内容与训练数据保持相似，而非复制。它的发展得益于近年来大模型在基础研究尤其是深度学习上的突破，真实数据的积累和计算成本的下降。在过去的这一年，生成式AI将人工智能的价值聚焦到“创造”二字，这标志着人工智能开始具备定义和呈现新事物的能力。过去一年，生成式AI的进展主要体现在如下领域：

图像生成领域的进展来自扩散模型（Diffusion model）的应用，以DALL·E2、Stable Diffusion为代表。扩散模型是一种从噪声中生成图像的深度学习技术。扩散模型技术的背后，是更精准理解人类语义的预训练模型、以及文本与图像统一表示模型（CLIP）的支撑。它的出现，让图像生成变得更具想象力。

自然语言处理（NLP）领域的进展来自于基于GPT3.5的ChatGPT。这是一种基于互联网可用数据训练的文本生成深度学习模型，用于问答、文本摘要生成、机器翻译、分类、代码生成和对话AI。得益于文本和代码相结合的预训练大模型的发展，ChatGPT引入了人工标注数据和强化学习（RLHF）来进行持续训练和优化。加入强化学习后，大模型能够理解人类的指令以及背后的含义，根据人类反馈来判断答案的质量，给出可解释的答案，并对于不合适的问题给出合理的回复，形成一个可迭代反馈的闭环。

代码生成领域的进展来自代码生成系统AlphaCode和Copilot。2022年2月，Deepmind推出了AlphaCode。它是一个可以自主编程的系统，在Codeforces举办的编程竞赛中，超过了47%的人类工程师。这标志着AI代码生成系统，首次在编程竞赛中，达到了具有竞争力的水平。基于开源代码训练的Copilot开始商业化，作为订阅服务提供给开发者，用户可以通过使用Copilot自动补全代码。Copilot作为一个基于大型语言模型的系统，尽管在多数情况下仍需要人工二次修正，但在简单、重复性的代码生成上，将帮助开发者提升工作效率，并给IDE（集成开发环境）行业带来重大影响。

随着内容创造的爆发式增长，如何做到内容在质量和语义上的可控，成为可控式生成，将是生成式AI面临的主要挑战。在产业化方面，降成本仍是关键挑战。只有像ChatGPT这样的大模型训练成本和推理成本足够低，才有可能规模化推广。此外，数据的安全可控、创作版权和信任问题也需要随着产业化加快逐一解决。

未来三年，生成式AI将步入技术产品化的快车道，在商业模式上会有更多探索，产业生态也会随着应用的普及逐步完善。届时，生成式AI的内容创造能力将达到人类水平。拥有数据、计算能力、产品化经验的大型科技公司将成为生成式AI落地的主要参与者。基于生成模型的计算基础设施和平台会逐步发展起来，模型变成随手可得的服务，客户不需要部署和运行生成式模型的专业技能就可以使用。生成模型将在交互能力、安全可信、认知智能上取得显著进展，以辅助人类完成各类创造性工作。

趋势解读二：多模态预训练大模型

阿里达摩院ai检测原理（达摩院2023十大科技趋势发布）(3)

基于深度学习的多模态预训练是认知智能快速发展的重要推动力。构建多场景、多任务的预训练大模型将加速模型标准化进程，为人工智能模型成为基础设施创造条件。深度学习模型的不断完善、互联网海量真实数据的积累和生成式预训练的广泛应用，使得人工智能模型在自然语言理解、语音处理、计算机视觉等领域地交叉应用取得显著进展。

2022年，技术上的突出进展来自于BEiT-3多模态基础模型，该模型在视觉-语言任务处理上具备出色表现，包括视觉问答、图片描述生成和跨模态检索等。BEiT-3通过统一的模型框架和骨干网络（backbone）建模，能够更加轻松地完成多模态编码和处理不同的下游任务。另一方面，CLIP（ContrastiveLanguage-ImagePre-training）的广泛应用也促进了多模态模型的技术发展。CLIP作为基于对比学习的预训练模型，负责从文本特征映射到图像特征，能够指导GAN或扩散模型（Diffusion Model）生成图像。在文生图领域，Stable Diffusion也使用了CLIP，它能够通过文本提示调整模型，并借助扩散模型改善图像质量。与此同时，开源极大的促进了多模态的融合和预训练模型的发展。通过开源来降低模型使用门槛，将大模型从一种新兴的AI技术转变为稳健的基础设施，已成为许多大模型开发者的共识。

多模态预训练模型的发展将重塑人工智能商业模式，并为人们的生产生活方式带来积极影响。对个人而言，类似CLIP的多模态模型，将使更多非技术出身的人能够表达自己的创造力，无需再借助工具和编程专业能力。对企业来说，多模态预训练模型将成为企业生产效率提升的关键。商业模式上，具备大数据、算力资源和模型开发能力的科技企业，将会成为模型服务的提供方，帮助企业将基础模型的能力与生产流程融合起来，实现效率和成本最优。

认知智能的发展，不会局限在文本或图像等单一的模态上。未来，如何针对不同模态建立更高效的模型架构和统一的骨干网络，使得大模型能够广泛地支持各种下游任务将成为主要挑战。在此基础上，更多的挑战来自于挖掘不同模态（如图像-文本，文本-自然语言，视频-文本）数据间的相关信息，并巧妙的设计预训练任务，让模型更好的捕捉不同模态信息之间的关联。

语音、视觉和多模态预训练模型将加速人工智能向通用基础模型方向演进。在这个演进过程中，深度学习与强化学习相互促进发展，融合大量行业知识，模型将具备在不断变化的环境中快速适应的灵活性。建立统一的、跨场景、多任务的多模态基础模型会成为人工智能发展的主流趋势之一。随着技术的不断成熟，大模型在开发成本、易用性、开发周期、性能上会更具优势，给产品化和商业化带来更多可能性。

内容来源：达摩院

《达摩院2023十大科技趋势》报告PDF地址：

https://files.alicdn.com/tpsservice/9b8b05280c05294f158bdb0dee61f78b.pdf

免责声明：本文仅代表文章作者的个人观点，与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺，请读者仅作参考，并自行核实相关内容。

猜您喜欢

有没有什么可以拍照翻译的软件（可以拍照翻译软件有哪些）

随着全球化的加速，跨语言交流已成为日常生活中不可避免的一部分。然而，由于语言障碍，很多人在旅行、工作或学习过程中遇到了翻...

成熟小屁孩 2023-07-15 19:13:16
一加6跟哪款手机性能一样（50秒破亿的销售额靠的是什么）

一加新款旗舰一加6手机于本月发布。在收获了不少的好评的同时，一加6还取得了不错的销量，开售当天50 秒销售额破亿， 12...

女桃酥 2023-07-15 19:26:39
适合婚礼播放的模板（婚礼用的模板哪里找）

婚礼用的视频模板哪里找？婚礼是人生中非常重要的大事，为了记录这份美好的回忆，很多人都会选择制作婚礼视频。而为了让婚礼视频...

用唇语说爱 2023-07-15 19:18:33
在家如何自己染头发全过程（教你们全程在家）

姐妹们，看蓉姐的头发，四十天就白了，她只好每四十天就染一次。现在我来教你们如何染头发，让大家在家也能轻松染发。这次我想染...

憮药岢救 2023-07-15 19:45:29
推坡跑偏如何调整（教你五步搞定前刃推坡）

第四课：单板滑雪——前刃推坡五步搞定。大家好，我是大门，今天我要和大家分享单板滑雪的技巧——前刃推坡。这是初学者必须...

咣頭啝尙 2023-07-15 19:58:55
4am小醒目一雷四杀各大主播反应（4am小醒目一雷四杀独狼吃鸡）

最近由绝地求生举办的FGS国际大赛也从伦敦正式开赛了，这一次的国际赛事由全球24支队伍共同参加，其中我们中国就有四支队伍...

我创意好耶 2023-07-15 19:30:24
aoc收入分析（ZOL年度专访AOC艾德蒙科技总经理阎立东）

过去的2020年，注定是将被载入史册的年份。面对新冠疫情引发的动荡和挑战，科技成为我们破局的力量。回溯过去，ZOL不...

誰會在意皒 2023-07-15 19:22:39

秒懂生活

阿里达摩院ai检测原理（达摩院2023十大科技趋势发布）

猜您喜欢

有没有什么可以拍照翻译的软件（可以拍照翻译软件有哪些）

一加6跟哪款手机性能一样（50秒破亿的销售额靠的是什么）

适合婚礼播放的模板（婚礼用的模板哪里找）

在家如何自己染头发全过程（教你们全程在家）

推坡跑偏如何调整（教你五步搞定前刃推坡）

4am小醒目一雷四杀各大主播反应（4am小醒目一雷四杀独狼吃鸡）

aoc收入分析（ZOL年度专访AOC艾德蒙科技总经理阎立东）

热门推荐

排行榜