“大模型”和“多模态”，如何成为AIGC发展的关键？

机器人大讲堂2023-02-14159人工智能（AI）

AIGC指的是通过人工智能技术来生成内容，包括文字、代码、图像、音频和视频等多种形式，它既是一种内容形态，也是内容生成的技术合集。随着AIGC技术与应用的演化迭代，“大模型”和“多模态”逐渐成为AIGC发展的大势所趋。

大型语言模型，AIGC的“神奇模具”

人工智能的语言模型是基于自然语言处理技术和算法创建的，而大型语言模型（LLM）是在包含巨大数据量的大规模数据集上训练的。自2018年基于Transformer的NLP预处理模型BERT发布之后，人工智能正式进入了预训练模型时代，各种各样的大型语言模型逐渐遍地开花。

预训练模型首先在大量的通用数据上进行训练，再结合多元的垂直场景，对预训练模型进行微调，而这种“预训练+微调”技术，可通过一套技术解决不同的NLP任务，大型语言模型逐步发展为下一代交互式人工智能工具的基础模型。

随着参数规模和模型性能的不断提升，大型语言模型在自然语言处理、计算机视觉、跨模态等领域展现出较好的拓展性，支持多模态信息融合，并且不断扩展应用边界，从对话问答、写作与编程到绘画、视频创作，持续推动AIGC的应用落地，并且向多模态、跨模态领域发展。

多模态技术，AIGC的“万花筒”

“模态”是德国生理学家赫尔姆霍茨提出的一种生物学概念，指生物凭借感知器官与经验来接收信息的通道，多模态是指将多种感官进行融合，而多模态交互是指人通过声音、肢体语言、信息载体、环境等多渠道，与计算机进行交流，充分模拟人与人之间的交互方式。

多模态人工智能是计算机视觉和交互式人工智能模型的融合形态，成为AIGC的重要发展和应用方向。对于AIGC的多模态领域，智能数字人相当于多领域技术的综合体，在人类大规模行为数据基础上进行多模态生成，进而输出具有交互能力的数字人。

机器人大讲堂获悉，小i机器人通过自然语言处理、深度学习等技术，打造了可实现多模态交互的小i交互数字人。这一数字人不仅具有量身定做的虚拟形象，还可以个性化配置语音问答的情绪和动作，对于不同的问答场景进行丰富精准的回答，体现了小i在AIGC多模态生成领域的持续探索。

人工智能生成内容（AIGC），正在成为引发生产力变革的引擎，而不断刷新的大型语言模型就像是充满创造力的模具，在多模态技术的加持下映射出更加绚烂的光彩，创造气象万千、云蒸霞蔚的未来。

精彩文章

扫码手机阅读