大模型长文本竞赛升级 40万token或成新起点

robot
摘要生成中

大模型厂商掀起长文本技术竞赛,40万token或许只是开始

大模型正以惊人的速度扩展其处理长文本的能力。从4000到40万token,这一能力的提升可谓"肉眼可见"。

长文本处理能力似乎已成为大模型厂商的新标配。国际上,OpenAI经过多次升级,将GPT-3.5和GPT-4的上下文长度分别提升至1.6万和3.2万token。其主要竞争对手Anthropic更是一举将上下文长度扩展到10万token。LongLLaMA则将这一数字提高到了25.6万token甚至更多。

国内方面,大模型初创公司月之暗面推出的Kimi Chat可支持输入20万汉字,约合40万token。港中文和MIT联合开发的LongLoRA技术,能将7B模型的文本长度扩展至10万token,70B模型则达到3.2万token。

目前,包括OpenAI、Anthropic、Meta、月之暗面在内的多家顶级大模型公司和研究机构,都将拓展上下文长度作为重点升级方向。这些公司无一例外地受到资本市场的青睐。

OpenAI已获得近120亿美元投资;Anthropic最新估值有望达到300亿美元;成立仅半年的月之暗面估值已超3亿美元,并完成近20亿元融资。

大模型公司为何如此重视长文本技术?上下文长度扩大100倍意味着什么?

表面上看,这意味着模型可以处理更长的文本输入,阅读能力大大增强。但更深层的意义在于,长文本技术正在推动大模型在金融、司法、科研等专业领域的应用落地。长文档摘要、阅读理解、问答等能力,正是这些领域亟需智能化升级的方向。

然而,与模型参数类似,文本长度并非越长越好。研究表明,模型支持更长上下文输入与效果提升并不能直接画等号。关键在于模型如何有效利用上下文内容。

目前,业界对文本长度的探索还远未达到极限。40万token可能只是一个开始,国内外大模型公司仍在不断突破这一frontier。

为什么要"卷"长文本?

月之暗面创始人杨植麟表示,正是由于大模型输入长度受限,才造成了许多应用落地的困境。这也是众多大模型公司当前聚焦长文本技术的原因所在。

比如在虚拟角色场景中,由于长文本能力不足,角色会遗忘重要信息;在开发剧本杀游戏时,输入长度不够导致只能削减规则和设定;在法律、金融等专业领域,深度内容分析和生成常常受挫。

在通往未来Agent和AI原生应用的道路上,长文本仍扮演着重要角色。Agent任务运行需要依靠历史信息进行规划决策,AI原生应用需要上下文来保持连贯、个性化的用户体验。

杨植麟认为,大模型的上限由单步能力和执行步骤数共同决定,其中单步能力与参数量正相关,而执行步骤数即上下文长度。

长文本技术不仅可以解决大模型初期被诟病的一些问题,增强某些功能,还是进一步推进产业和应用落地的关键技术。这也从侧面表明通用大模型正迈入从LLM到Long LLM的新阶段。

透过月之暗面新发布的Kimi Chat,我们可以一窥Long LLM阶段大模型的升级功能:

首先是对超长文本的关键信息提取、总结和分析能力。如快速分析公众号文章大意,提取财报关键信息并以表格形式呈现,或对整本书进行问答。

在代码方面,可以实现文字直接转化为代码,甚至根据论文复现代码生成过程。

在长对话场景中,对话机器人可以实现角色扮演,通过输入公众人物语料,设置语气和性格,实现与特定人物一对一对话。

这些例子表明,对话机器人正朝着专业化、个性化、深度化方向发展,这或许是撬动产业落地和打造超级APP的又一抓手。

杨植麟认为,不同于OpenAI只提供ChatGPT一个产品,月之暗面瞄准的是下一个C端超级APP:以长文本技术为突破,在基础通用模型上衍生出多个应用。

他判断,国内大模型市场格局会分为toB和toC两个阵营,在toC阵营中会出现基于自研模型的超级应用。

长文本的"不可能三角"困境

在长文本领域,存在着文本长短、注意力和算力的"不可能三角"。这表现为:文本越长,越难聚集充分注意力;在注意力限制下,短文本无法完整解读复杂信息;处理长文本需要大量算力,提高成本。

这一困境的根源在于现有大模型多基于Transformer结构。该结构中的自注意力机制虽然使模型能够跨越输入信息顺序限制,但计算量会随上下文长度增加呈平方级增长。

这构成了"不可能三角"中的第一组矛盾 - 文本长短与注意力,也从根本上解释了大模型长文本技术难以突破的原因。

同时,算力一直是稀缺资源。无论是扩大模型参数还是文本长度,都要权衡算力消耗。这形成了文本长短与算力之间的第二组矛盾。

目前主要有三种解决方案:

  1. 借助外部工具辅助处理长文本,如将长文本切分为多个短文本处理。

  2. 优化自注意力机制计算,如LongLoRA技术将长文本划分成不同组进行计算。

  3. 对模型进行优化,如LongLLaMA通过微调实现外推到更长序列。

长文本的"不可能三角"困境或许暂时难以完全解决,但这也明确了大模型厂商的探索路径:在文本长短、注意力和算力三者之间寻求最佳平衡点,既能处理足够信息,又能兼顾注意力计算与算力成本限制。

TOKEN4.95%
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 7
  • 转发
  • 分享
评论
0/400
Rekt_Recoveryvip
· 12小时前
唱多代币收益... 希望我的投资组合能够像这些数字一样诱高 fr fr
查看原文回复0
ForkTroopervip
· 08-11 05:57
性能卷不停啊 什么时候能卷到百万级捏
回复0
rugged_againvip
· 08-11 04:18
玩家继续卷吧 token党必胜
回复0
链上福尔摩克vip
· 08-09 23:45
呵呵 技术竞赛看似友好 背后明显是算力洗钱链条 典型的烧钱对垒
回复0
ApeWithAPlanvip
· 08-09 23:42
又是个数字堆砌比赛 有啥用呢
回复0
跑路预言家vip
· 08-09 23:34
这波 小厂干不住了吧
回复0
空投自由人vip
· 08-09 23:32
小赚50w美金~不是韭菜就是矿工 从早期玩到现在 一直追着利润跑

用指定语言生成评论:中文

我不想对token, 赛跑了,永远追不上啊~
回复0
交易,随时随地
qrCode
扫码下载 Gate APP
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)