大模型突破40万token 长文本能力引领LLM新时代

robot
摘要生成中

大模型长文本能力迅速提升,40万token或仅是开始

大模型的长文本处理能力正在以惊人的速度提升。从最初的4000 token到如今的40万token,这一能力的增长可谓是肉眼可见的。

长文本处理能力似乎已成为大模型厂商的新标配。国际上,OpenAI通过多次升级将GPT-3.5和GPT-4的上下文输入长度分别提升至1.6万和3.2万token。Anthropic更是一举将其模型Claude的上下文长度提升至10万token。LongLLaMA甚至将这一数字扩展到了25.6万token。

国内市场也不甘落后。据了解,初创公司月之暗面推出的Kimi Chat支持输入20万汉字,约合40万token。港中文和MIT联合开发的LongLoRA技术则可将7B模型的文本长度扩展到10万token,70B模型扩展到3.2万token。

目前,包括OpenAI、Anthropic、Meta和月之暗面在内的多家顶级大模型公司都将上下文长度的扩展作为重点更新方向。这些公司无一例外都是资本市场的宠儿,融资规模动辄数十亿美元。

长文本技术的突破意义重大。从表面上看,这意味着模型可以处理更长的输入文本,阅读能力大幅提升。更深层次来看,这项技术正在推动大模型在金融、法律、科研等专业领域的应用落地。

然而,需要注意的是,文本长度并非越长越好。研究表明,模型支持更长的上下文输入并不等同于性能的提升。关键在于模型如何有效利用上下文内容。

尽管如此,当前的文本长度探索似乎还远未触及上限。40万token可能只是一个开始,大模型公司仍在不懈努力突破这一界限。

长文本技术的突破不仅解决了大模型早期面临的一些问题,还增强了其功能。这标志着通用大模型进入了新的发展阶段——从LLM到Long LLM时代。

长文本技术为大模型带来了诸多新的能力。例如,它可以快速分析长文章、提取财报关键信息、实现整本书的问答交互等。在代码方面,甚至可以直接将论文转化为代码。在长对话场景中,还可以实现更加专业化、个性化和深度化的交互。

然而,长文本技术的发展也面临着"不可能三角"的困境:文本长度、注意力和算力之间存在相互制约。随着文本长度增加,模型难以集中足够的注意力,同时也需要更多的算力支持。

目前,业界主要采用三种方案来应对这一挑战:利用外部工具辅助处理长文本、优化自注意力机制计算,以及对模型进行优化。每种方案都有其优缺点,大模型公司正在努力在文本长度、注意力和算力之间寻找最佳平衡点。

随着技术的不断进步,长文本处理能力有望进一步提升,为大模型在更多领域的应用铺平道路。

TOKEN6.51%
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 7
  • 分享
评论
0/400
NFT_考古学家vip
· 07-24 00:05
算力花多少?认钱不认人
回复0
闪电出击小王子vip
· 07-23 21:51
性能提升 算力拉满就完事了
回复0
资深空投收割机vip
· 07-23 10:30
这token涨得真快啊 整整一百倍
回复0
币圈资深幸存者vip
· 07-21 05:41
越涨越淡定 越跌越兴奋
回复0
Pump策略师vip
· 07-21 05:40
增长像这样陡峭,技术风险+1,注意高位回调
回复0
HodlOrRegretvip
· 07-21 05:37
加速度太猛了,不得了
回复0
韭当割不亏vip
· 07-21 05:33
4万字也没把ai学明白
回复0
交易,随时随地
qrCode
扫码下载 Gate APP
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)