📢 Gate广场 #NERO发帖挑战# 秀观点赢大奖活动火热开启!
Gate NERO生态周来袭!发帖秀出NERO项目洞察和活动实用攻略,瓜分30,000NERO!
💰️ 15位优质发帖用户 * 2,000枚NERO每人
如何参与:
1️⃣ 调研NERO项目
对NERO的基本面、社区治理、发展目标、代币经济模型等方面进行研究,分享你对项目的深度研究。
2️⃣ 参与并分享真实体验
参与NERO生态周相关活动,并晒出你的参与截图、收益图或实用教程。可以是收益展示、简明易懂的新手攻略、小窍门,也可以是行情点位分析,内容详实优先。
3️⃣ 鼓励带新互动
如果你的帖子吸引到他人参与活动,或者有好友评论“已参与/已交易”,将大幅提升你的获奖概率!
NERO热门活动(帖文需附以下活动链接):
NERO Chain (NERO) 生态周:Gate 已上线 NERO 现货交易,为回馈平台用户,HODLer Airdrop、Launchpool、CandyDrop、余币宝已上线 NERO,邀您体验。参与攻略见公告:https://www.gate.com/announcements/article/46284
高质量帖子Tips:
教程越详细、图片越直观、互动量越高,获奖几率越大!
市场见解独到、真实参与经历、有带新互动者,评选将优先考虑。
帖子需原创,字数不少于250字,且需获得至少3条有效互动
大模型突破40万token 长文本能力引领LLM新时代
大模型长文本能力迅速提升,40万token或仅是开始
大模型的长文本处理能力正在以惊人的速度提升。从最初的4000 token到如今的40万token,这一能力的增长可谓是肉眼可见的。
长文本处理能力似乎已成为大模型厂商的新标配。国际上,OpenAI通过多次升级将GPT-3.5和GPT-4的上下文输入长度分别提升至1.6万和3.2万token。Anthropic更是一举将其模型Claude的上下文长度提升至10万token。LongLLaMA甚至将这一数字扩展到了25.6万token。
国内市场也不甘落后。据了解,初创公司月之暗面推出的Kimi Chat支持输入20万汉字,约合40万token。港中文和MIT联合开发的LongLoRA技术则可将7B模型的文本长度扩展到10万token,70B模型扩展到3.2万token。
目前,包括OpenAI、Anthropic、Meta和月之暗面在内的多家顶级大模型公司都将上下文长度的扩展作为重点更新方向。这些公司无一例外都是资本市场的宠儿,融资规模动辄数十亿美元。
长文本技术的突破意义重大。从表面上看,这意味着模型可以处理更长的输入文本,阅读能力大幅提升。更深层次来看,这项技术正在推动大模型在金融、法律、科研等专业领域的应用落地。
然而,需要注意的是,文本长度并非越长越好。研究表明,模型支持更长的上下文输入并不等同于性能的提升。关键在于模型如何有效利用上下文内容。
尽管如此,当前的文本长度探索似乎还远未触及上限。40万token可能只是一个开始,大模型公司仍在不懈努力突破这一界限。
长文本技术的突破不仅解决了大模型早期面临的一些问题,还增强了其功能。这标志着通用大模型进入了新的发展阶段——从LLM到Long LLM时代。
长文本技术为大模型带来了诸多新的能力。例如,它可以快速分析长文章、提取财报关键信息、实现整本书的问答交互等。在代码方面,甚至可以直接将论文转化为代码。在长对话场景中,还可以实现更加专业化、个性化和深度化的交互。
然而,长文本技术的发展也面临着"不可能三角"的困境:文本长度、注意力和算力之间存在相互制约。随着文本长度增加,模型难以集中足够的注意力,同时也需要更多的算力支持。
目前,业界主要采用三种方案来应对这一挑战:利用外部工具辅助处理长文本、优化自注意力机制计算,以及对模型进行优化。每种方案都有其优缺点,大模型公司正在努力在文本长度、注意力和算力之间寻找最佳平衡点。
随着技术的不断进步,长文本处理能力有望进一步提升,为大模型在更多领域的应用铺平道路。