大模型突破40萬token 長文本能力引領LLM新時代

robot
摘要生成中

大模型長文本能力迅速提升,40萬token或僅是開始

大模型的長文本處理能力正在以驚人的速度提升。從最初的4000 token到如今的40萬token,這一能力的增長可謂是肉眼可見的。

長文本處理能力似乎已成爲大模型廠商的新標配。國際上,OpenAI通過多次升級將GPT-3.5和GPT-4的上下文輸入長度分別提升至1.6萬和3.2萬token。Anthropic更是一舉將其模型Claude的上下文長度提升至10萬token。LongLLaMA甚至將這一數字擴展到了25.6萬token。

國內市場也不甘落後。據了解,初創公司月之暗面推出的Kimi Chat支持輸入20萬漢字,約合40萬token。港中文和MIT聯合開發的LongLoRA技術則可將7B模型的文本長度擴展到10萬token,70B模型擴展到3.2萬token。

目前,包括OpenAI、Anthropic、Meta和月之暗面在內的多家頂級大模型公司都將上下文長度的擴展作爲重點更新方向。這些公司無一例外都是資本市場的寵兒,融資規模動輒數十億美元。

長文本技術的突破意義重大。從表面上看,這意味着模型可以處理更長的輸入文本,閱讀能力大幅提升。更深層次來看,這項技術正在推動大模型在金融、法律、科研等專業領域的應用落地。

然而,需要注意的是,文本長度並非越長越好。研究表明,模型支持更長的上下文輸入並不等同於性能的提升。關鍵在於模型如何有效利用上下文內容。

盡管如此,當前的文本長度探索似乎還遠未觸及上限。40萬token可能只是一個開始,大模型公司仍在不懈努力突破這一界限。

長文本技術的突破不僅解決了大模型早期面臨的一些問題,還增強了其功能。這標志着通用大模型進入了新的發展階段——從LLM到Long LLM時代。

長文本技術爲大模型帶來了諸多新的能力。例如,它可以快速分析長文章、提取財報關鍵信息、實現整本書的問答交互等。在代碼方面,甚至可以直接將論文轉化爲代碼。在長對話場景中,還可以實現更加專業化、個性化和深度化的交互。

然而,長文本技術的發展也面臨着"不可能三角"的困境:文本長度、注意力和算力之間存在相互制約。隨着文本長度增加,模型難以集中足夠的注意力,同時也需要更多的算力支持。

目前,業界主要採用三種方案來應對這一挑戰:利用外部工具輔助處理長文本、優化自注意力機制計算,以及對模型進行優化。每種方案都有其優缺點,大模型公司正在努力在文本長度、注意力和算力之間尋找最佳平衡點。

隨着技術的不斷進步,長文本處理能力有望進一步提升,爲大模型在更多領域的應用鋪平道路。

TOKEN-9.96%
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 7
  • 分享
留言
0/400
NFT_考古学家vip
· 6小時前
算力花多少?认钱不认人
回復0
闪电出击小王子vip
· 8小時前
性能提升 算力拉满就完事了
回復0
资深空投收割机vip
· 19小時前
这token涨得真快啊 整整一百倍
回復0
币圈资深幸存者vip
· 07-21 05:41
越涨越淡定 越跌越兴奋
回復0
Pump策略师vip
· 07-21 05:40
增长像这样陡峭,技术风险+1,注意高位回调
回復0
HodlOrRegretvip
· 07-21 05:37
加速度太猛了,不得了
回復0
韭当割不亏vip
· 07-21 05:33
4万字也没把ai学明白
回復0
交易,隨時隨地
qrCode
掃碼下載 Gate APP
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)