“大模型”和“多模态”,如何成为AIGC发展的关键?

机器人大讲堂2023-02-14159人工智能(AI)

AIGC指的是通过人工智能技术来生成内容,包括文字、代码、图像、音频和视频等多种形式,它既是一种内容形态,也是内容生成的技术合集。随着AIGC技术与应用的演化迭代,“大模型”和“多模态”逐渐成为AIGC发展的大势所趋。

 

 

大型语言模型,AIGC的“神奇模具”

 

人工智能的语言模型是基于自然语言处理技术和算法创建的,而大型语言模型(LLM)是在包含巨大数据量的大规模数据集上训练的。自2018年基于Transformer的NLP预处理模型BERT发布之后,人工智能正式进入了预训练模型时代,各种各样的大型语言模型逐渐遍地开花。

 

预训练模型首先在大量的通用数据上进行训练,再结合多元的垂直场景,对预训练模型进行微调,而这种“预训练+微调”技术,可通过一套技术解决不同的NLP任务,大型语言模型逐步发展为下一代交互式人工智能工具的基础模型。

 

随着参数规模和模型性能的不断提升,大型语言模型在自然语言处理、计算机视觉、跨模态等领域展现出较好的拓展性,支持多模态信息融合,并且不断扩展应用边界,从对话问答、写作与编程到绘画、视频创作,持续推动AIGC的应用落地,并且向多模态、跨模态领域发展。

 

 

多模态技术,AIGC的“万花筒”

 

“模态”是德国生理学家赫尔姆霍茨提出的一种生物学概念,指生物凭借感知器官与经验来接收信息的通道,多模态是指将多种感官进行融合,而多模态交互是指人通过声音、肢体语言、信息载体、环境等多渠道,与计算机进行交流,充分模拟人与人之间的交互方式。

 

多模态人工智能是计算机视觉和交互式人工智能模型的融合形态,成为AIGC的重要发展和应用方向。对于AIGC的多模态领域,智能数字人相当于多领域技术的综合体,在人类大规模行为数据基础上进行多模态生成,进而输出具有交互能力的数字人。

 

机器人大讲堂获悉,小i机器人通过自然语言处理、深度学习等技术,打造了可实现多模态交互的小i交互数字人。这一数字人不仅具有量身定做的虚拟形象,还可以个性化配置语音问答的情绪和动作,对于不同的问答场景进行丰富精准的回答,体现了小i在AIGC多模态生成领域的持续探索。

 

人工智能生成内容(AIGC),正在成为引发生产力变革的引擎,而不断刷新的大型语言模型就像是充满创造力的模具,在多模态技术的加持下映射出更加绚烂的光彩,创造气象万千、云蒸霞蔚的未来。