# 大規模モデルの長文能力が急速に向上し、40万トークンは始まりに過ぎない大規模モデルの長文処理能力は驚異的な速度で向上しています。最初の4000トークンから現在の40万トークンまで、この能力の増加は目に見えるものです。長文処理能力は、大規模モデルのメーカーにとって新たな標準となっているようです。国際的には、OpenAIが何度もアップグレードを行い、GPT-3.5とGPT-4のコンテキスト入力の長さをそれぞれ1.6万と3.2万tokenに引き上げました。Anthropicはさらに、そのモデルClaudeのコンテキスト長を10万tokenに引き上げました。LongLLaMAはこの数字を25.6万tokenにまで拡張しました。国内市場も負けじと進化しています。スタートアップの月の暗面が発表したKimi Chatは、20万の漢字、約40万トークンの入力をサポートしています。香港中文大学とMITが共同開発したLongLoRA技術は、7Bモデルのテキスト長を10万トークンに、70Bモデルを3.2万トークンに拡張することができます。現在、OpenAI、Anthropic、Meta、月の暗い面を含む複数のトップ大モデル会社は、コンテキストの長さの拡張を重点的な更新の方向性として位置づけています。これらの会社は例外なく資本市場のお気に入りで、資金調達の規模は数十億ドルに達することが多いです。長文技術の突破は重要な意義を持っています。一見すると、これはモデルがより長い入力テキストを処理できることを意味し、読み取り能力が大幅に向上します。より深いレベルでは、この技術は金融、法律、研究などの専門分野での大規模モデルの応用を推進しています。しかし、注意すべきことは、テキストの長さが長ければ長いほど良いというわけではないということです。研究によると、モデルがより長いコンテキスト入力をサポートしていることは、必ずしもパフォーマンスの向上に繋がるわけではありません。重要なのは、モデルがコンテキストの内容をどのように効果的に利用するかです。それにもかかわらず、現在のテキスト長の探索はまだ上限に達していないようです。40万トークンは単なる始まりに過ぎず、大規模モデルの企業はこの限界を突破するために懸命に努力し続けています。長文技術の突破は、大規模モデルが初期に直面していたいくつかの問題を解決するだけでなく、その機能も強化しました。これは、汎用大規模モデルが新しい発展段階に入ったことを示しています——LLMからLong LLM時代への移行です。ロングテキスト技術は大規模モデルに多くの新しい能力をもたらしました。例えば、長い記事を迅速に分析したり、財務報告の重要情報を抽出したり、1冊の本に対する質問応答インタラクションを実現したりできます。コードの面では、論文を直接コードに変換することもできます。長い対話シーンでは、より専門的で、個別化され、深いインタラクションを実現することも可能です。しかし、長文技術の発展は"不可能な三角形"のジレンマにも直面しています:テキストの長さ、注意力、計算能力の間には相互制約があります。テキストの長さが増すにつれて、モデルは十分な注意を集中させるのが難しくなり、同時により多くの計算能力のサポートも必要となります。現在、業界ではこの課題に対処するために主に3つのアプローチが採用されています:外部ツールを利用して長いテキストを処理する、自己注意メカニズムの計算を最適化する、そしてモデルを最適化することです。それぞれのアプローチには利点と欠点があり、大規模モデルの企業はテキストの長さ、注意力、計算能力の間で最適なバランスを見つけるために努力しています。技術の進歩に伴い、長文処理能力はさらに向上することが期待されており、大規模モデルのより多くの分野での応用への道を切り開いています。
大規模モデルが40万トークンを突破し、長文能力がLLMの新時代をリードする
大規模モデルの長文能力が急速に向上し、40万トークンは始まりに過ぎない
大規模モデルの長文処理能力は驚異的な速度で向上しています。最初の4000トークンから現在の40万トークンまで、この能力の増加は目に見えるものです。
長文処理能力は、大規模モデルのメーカーにとって新たな標準となっているようです。国際的には、OpenAIが何度もアップグレードを行い、GPT-3.5とGPT-4のコンテキスト入力の長さをそれぞれ1.6万と3.2万tokenに引き上げました。Anthropicはさらに、そのモデルClaudeのコンテキスト長を10万tokenに引き上げました。LongLLaMAはこの数字を25.6万tokenにまで拡張しました。
国内市場も負けじと進化しています。スタートアップの月の暗面が発表したKimi Chatは、20万の漢字、約40万トークンの入力をサポートしています。香港中文大学とMITが共同開発したLongLoRA技術は、7Bモデルのテキスト長を10万トークンに、70Bモデルを3.2万トークンに拡張することができます。
現在、OpenAI、Anthropic、Meta、月の暗い面を含む複数のトップ大モデル会社は、コンテキストの長さの拡張を重点的な更新の方向性として位置づけています。これらの会社は例外なく資本市場のお気に入りで、資金調達の規模は数十億ドルに達することが多いです。
長文技術の突破は重要な意義を持っています。一見すると、これはモデルがより長い入力テキストを処理できることを意味し、読み取り能力が大幅に向上します。より深いレベルでは、この技術は金融、法律、研究などの専門分野での大規模モデルの応用を推進しています。
しかし、注意すべきことは、テキストの長さが長ければ長いほど良いというわけではないということです。研究によると、モデルがより長いコンテキスト入力をサポートしていることは、必ずしもパフォーマンスの向上に繋がるわけではありません。重要なのは、モデルがコンテキストの内容をどのように効果的に利用するかです。
それにもかかわらず、現在のテキスト長の探索はまだ上限に達していないようです。40万トークンは単なる始まりに過ぎず、大規模モデルの企業はこの限界を突破するために懸命に努力し続けています。
長文技術の突破は、大規模モデルが初期に直面していたいくつかの問題を解決するだけでなく、その機能も強化しました。これは、汎用大規模モデルが新しい発展段階に入ったことを示しています——LLMからLong LLM時代への移行です。
ロングテキスト技術は大規模モデルに多くの新しい能力をもたらしました。例えば、長い記事を迅速に分析したり、財務報告の重要情報を抽出したり、1冊の本に対する質問応答インタラクションを実現したりできます。コードの面では、論文を直接コードに変換することもできます。長い対話シーンでは、より専門的で、個別化され、深いインタラクションを実現することも可能です。
しかし、長文技術の発展は"不可能な三角形"のジレンマにも直面しています:テキストの長さ、注意力、計算能力の間には相互制約があります。テキストの長さが増すにつれて、モデルは十分な注意を集中させるのが難しくなり、同時により多くの計算能力のサポートも必要となります。
現在、業界ではこの課題に対処するために主に3つのアプローチが採用されています:外部ツールを利用して長いテキストを処理する、自己注意メカニズムの計算を最適化する、そしてモデルを最適化することです。それぞれのアプローチには利点と欠点があり、大規模モデルの企業はテキストの長さ、注意力、計算能力の間で最適なバランスを見つけるために努力しています。
技術の進歩に伴い、長文処理能力はさらに向上することが期待されており、大規模モデルのより多くの分野での応用への道を切り開いています。