📢 Gate廣場 #MBG任务挑战# 發帖贏大獎活動火熱開啓!
想要瓜分1,000枚MBG?現在就來參與,展示你的洞察與實操,成爲MBG推廣達人!
💰️ 本期將評選出20位優質發帖用戶,每人可輕鬆獲得50枚MBG!
如何參與:
1️⃣ 調研MBG項目
對MBG的基本面、社區治理、發展目標、代幣經濟模型等方面進行研究,分享你對項目的深度研究。
2️⃣ 參與並分享真實體驗
參與MBG相關活動(包括CandyDrop、Launchpool或現貨交易),並曬出你的參與截圖、收益圖或實用教程。可以是收益展示、簡明易懂的新手攻略、小竅門,也可以是現貨行情點位分析,內容詳實優先。
3️⃣ 鼓勵帶新互動
如果你的帖子吸引到他人參與活動,或者有好友評論“已參與/已交易”,將大幅提升你的獲獎概率!
MBG熱門活動(帖文需附下列活動連結):
Gate第287期Launchpool:MBG — 質押ETH、MBG即可免費瓜分112,500 MBG,每小時領取獎勵!參與攻略見公告:https://www.gate.com/announcements/article/46230
Gate CandyDrop第55期:CandyDrop x MBG — 通過首次交易、交易MBG、邀請好友註冊交易即可分187,500 MBG!參與攻略見公告:https://www.gate.com/announcements
大模型突破40萬token 長文本能力引領LLM新時代
大模型長文本能力迅速提升,40萬token或僅是開始
大模型的長文本處理能力正在以驚人的速度提升。從最初的4000 token到如今的40萬token,這一能力的增長可謂是肉眼可見的。
長文本處理能力似乎已成爲大模型廠商的新標配。國際上,OpenAI通過多次升級將GPT-3.5和GPT-4的上下文輸入長度分別提升至1.6萬和3.2萬token。Anthropic更是一舉將其模型Claude的上下文長度提升至10萬token。LongLLaMA甚至將這一數字擴展到了25.6萬token。
國內市場也不甘落後。據了解,初創公司月之暗面推出的Kimi Chat支持輸入20萬漢字,約合40萬token。港中文和MIT聯合開發的LongLoRA技術則可將7B模型的文本長度擴展到10萬token,70B模型擴展到3.2萬token。
目前,包括OpenAI、Anthropic、Meta和月之暗面在內的多家頂級大模型公司都將上下文長度的擴展作爲重點更新方向。這些公司無一例外都是資本市場的寵兒,融資規模動輒數十億美元。
長文本技術的突破意義重大。從表面上看,這意味着模型可以處理更長的輸入文本,閱讀能力大幅提升。更深層次來看,這項技術正在推動大模型在金融、法律、科研等專業領域的應用落地。
然而,需要注意的是,文本長度並非越長越好。研究表明,模型支持更長的上下文輸入並不等同於性能的提升。關鍵在於模型如何有效利用上下文內容。
盡管如此,當前的文本長度探索似乎還遠未觸及上限。40萬token可能只是一個開始,大模型公司仍在不懈努力突破這一界限。
長文本技術的突破不僅解決了大模型早期面臨的一些問題,還增強了其功能。這標志着通用大模型進入了新的發展階段——從LLM到Long LLM時代。
長文本技術爲大模型帶來了諸多新的能力。例如,它可以快速分析長文章、提取財報關鍵信息、實現整本書的問答交互等。在代碼方面,甚至可以直接將論文轉化爲代碼。在長對話場景中,還可以實現更加專業化、個性化和深度化的交互。
然而,長文本技術的發展也面臨着"不可能三角"的困境:文本長度、注意力和算力之間存在相互制約。隨着文本長度增加,模型難以集中足夠的注意力,同時也需要更多的算力支持。
目前,業界主要採用三種方案來應對這一挑戰:利用外部工具輔助處理長文本、優化自注意力機制計算,以及對模型進行優化。每種方案都有其優缺點,大模型公司正在努力在文本長度、注意力和算力之間尋找最佳平衡點。
隨着技術的不斷進步,長文本處理能力有望進一步提升,爲大模型在更多領域的應用鋪平道路。