电子科技大学软件学院团队在自然语言领域顶级会议上发表学术论文

来源:电子科技大学 #电子科技大学#
3896

近日,信息与软件工程学院田文洪教授团队在计算语言学协会北美分会Annual Conference of the North American Chapter of the Association for Computational Linguistics(NAACL)2024会议上发表针对人工智能大语言模型在产业应用上进行无损推理加速的学术论文。NAACL是世界学术界和企业界公认的自然语言领域的顶级会议之一,自然语言领域的众多里程碑式的成果都曾在该会议上进行发表,入选的科研论文代表着当前的国际水平。

该研究提出了一种无损名为“Adaptive N-gram Parallel Decoding”(自适应N-gram并行解码)的创新算法,通过允许同时生成多个令牌来加速大型语言模型的推理过程。众所周知,尽管大型语言模型展现出了非凡的能力,但由于自回归处理,它们常常受到显著的资源消耗和相当大的延迟的阻碍。Adaptive N-gram Parallel Decoding采用了一种两阶段的方法:首先是一个快速起草阶段,该阶段使用一个基于当前交互上下文自适应的N-gram模块;然后是验证阶段,在此阶段,原始的大型语言模型评估并确认提议的令牌。通过这种方式,Adaptive N-gram Parallel Decoding在提高处理速度的同时,保留了大型语言模型原始输出的完整性。该研究还利用了N-gram模块的多级架构来提高初始草稿的精确度,从而进一步减少了推理延迟。值得注意的是,Adaptive N-gram Parallel Decoding消除了重新训练或额外GPU内存的需求,使其成为一种高效且即插即用的增强方法。在该研究的实验对比分析中,相比LLaMA及其微调变体等模型的速度提升高达3.67倍,这一结果有力地验证了Adaptive N-gram Parallel Decoding的有效性。这项突破性的研究为加速大型语言模型的推理过程提供了一种全新的思路,有望在自然语言处理领域产生较深远的影响。

图 大语言模型无损推理加速方法架构图

责编: 爱集微
来源:电子科技大学 #电子科技大学#
THE END
关闭
加载

PDF 加载中...