قدرة النماذج الكبيرة على التعامل مع النصوص الطويلة تتحسن بسرعة، 400000 توكن قد تكون مجرد بداية
تتزايد قدرة نماذج اللغة الكبيرة على معالجة النصوص الطويلة بسرعة مذهلة. من 4000 توكن في البداية إلى 400000 توكن اليوم، يعتبر هذا النمو ملحوظاً بشكل واضح.
يبدو أن القدرة على معالجة النصوص الطويلة أصبحت معيارًا جديدًا لشركات النماذج الكبيرة. على المستوى الدولي، قامت OpenAI بترقية GPT-3.5 وGPT-4 عدة مرات لزيادة طول إدخال السياق إلى 16000 و32000 توكن على التوالي. بينما قامت Anthropic برفع طول سياق نموذجها Claude إلى 100000 توكن دفعة واحدة. حتى أن LongLLaMA وسعت هذا الرقم إلى 256000 توكن.
لا تريد السوق المحلية أن تتخلف عن الركب. وفقًا للمعلومات، أطلقت شركة الناشئة "الجانب المظلم من القمر" تطبيق Kimi Chat الذي يدعم إدخال 200,000 حرف صيني، وهو ما يعادل حوالي 400,000 توكن. أما تقنية LongLoRA التي تم تطويرها بالتعاون بين جامعة هونغ كونغ الصينية وMIT، فهي تستطيع توسيع طول النص لنموذج 7B إلى 100,000 توكن، ونموذج 70B إلى 32,000 توكن.
حالياً، تركز العديد من شركات النماذج الكبيرة الرائدة، بما في ذلك OpenAI وAnthropic وMeta و月之暗面، على توسيع طول السياق كوجهة تحديث رئيسية. هذه الشركات بدون استثناء هي المفضلة في أسواق رأس المال، حيث تصل حجم تمويلها إلى عشرات المليارات من الدولارات.
إن突破 تقنية النصوص الطويلة له معنى كبير. من الناحية السطحية، هذا يعني أن النموذج يمكنه معالجة نصوص مدخلة أطول، مما يعزز بشكل كبير من قدرته على القراءة. وعلى مستوى أعمق، فإن هذه التقنية تدفع بتطبيقات النماذج الكبيرة في مجالات مثل المالية والقانون والبحث العلمي.
ومع ذلك، من المهم أن نلاحظ أن طول النص ليس شرطًا أن يكون أطول هو الأفضل. تشير الأبحاث إلى أن دعم النماذج لإدخال سياق أطول لا يعني بالضرورة تحسين الأداء. المفتاح هو كيفية استغلال النموذج لمحتوى السياق بشكل فعال.
ومع ذلك، يبدو أن الاستكشاف الحالي لطول النص لا يزال بعيدًا عن الوصول إلى الحد الأقصى. قد تكون 400000 توكن مجرد بداية، ولا تزال شركات النماذج الكبيرة تعمل بجد لتجاوز هذا الحد.
إن突破 تقنية النصوص الطويلة لم يحل فقط بعض المشكلات التي واجهتها النماذج الكبيرة في مراحلها المبكرة، بل عزز أيضًا من وظائفها. وهذا يمثل دخول النماذج الكبيرة العامة في مرحلة تطوير جديدة - من عصر LLM إلى عصر Long LLM.
تقدم تقنية النص الطويل العديد من القدرات الجديدة للنماذج الكبيرة. على سبيل المثال، يمكنها تحليل المقالات الطويلة بسرعة، واستخراج المعلومات الرئيسية من التقارير المالية، وتنفيذ تفاعلات الأسئلة والأجوبة لكتاب كامل. في مجال البرمجة، يمكن حتى تحويل الأوراق البحثية مباشرة إلى شيفرة. في سيناريوهات الحوار الطويل، يمكن أيضًا تحقيق تفاعلات أكثر تخصصًا وشخصية وعمقًا.
ومع ذلك، تواجه تقنية النصوص الطويلة أيضًا تحدي "مثلث المستحيل": هناك قيود متبادلة بين طول النص، والانتباه، وقوة الحساب. مع زيادة طول النص، يصبح من الصعب على النموذج التركيز بما يكفي من الانتباه، وفي الوقت نفسه يحتاج أيضًا إلى دعم أكبر من حيث قوة الحساب.
في الوقت الحالي، تعتمد الصناعة بشكل رئيسي على ثلاث حلول لمواجهة هذا التحدي: استخدام أدوات خارجية للمساعدة في معالجة النصوص الطويلة، تحسين حساب آلية الانتباه الذاتي، وتحسين النموذج. كل حل له مزاياه وعيوبه، وشركات النماذج الكبيرة تعمل بجد للعثور على التوازن الأمثل بين طول النص والانتباه وقدرة الحوسبة.
مع التقدم المستمر في التكنولوجيا، من المتوقع أن تتحسن قدرة معالجة النصوص الطويلة، مما يمهد الطريق لاستخدام النماذج الكبيرة في مجالات أكثر.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
تجاوز النموذج الكبير 400000 توكن، وقدرة النصوص الطويلة تقود عصر LLM الجديد
قدرة النماذج الكبيرة على التعامل مع النصوص الطويلة تتحسن بسرعة، 400000 توكن قد تكون مجرد بداية
تتزايد قدرة نماذج اللغة الكبيرة على معالجة النصوص الطويلة بسرعة مذهلة. من 4000 توكن في البداية إلى 400000 توكن اليوم، يعتبر هذا النمو ملحوظاً بشكل واضح.
يبدو أن القدرة على معالجة النصوص الطويلة أصبحت معيارًا جديدًا لشركات النماذج الكبيرة. على المستوى الدولي، قامت OpenAI بترقية GPT-3.5 وGPT-4 عدة مرات لزيادة طول إدخال السياق إلى 16000 و32000 توكن على التوالي. بينما قامت Anthropic برفع طول سياق نموذجها Claude إلى 100000 توكن دفعة واحدة. حتى أن LongLLaMA وسعت هذا الرقم إلى 256000 توكن.
لا تريد السوق المحلية أن تتخلف عن الركب. وفقًا للمعلومات، أطلقت شركة الناشئة "الجانب المظلم من القمر" تطبيق Kimi Chat الذي يدعم إدخال 200,000 حرف صيني، وهو ما يعادل حوالي 400,000 توكن. أما تقنية LongLoRA التي تم تطويرها بالتعاون بين جامعة هونغ كونغ الصينية وMIT، فهي تستطيع توسيع طول النص لنموذج 7B إلى 100,000 توكن، ونموذج 70B إلى 32,000 توكن.
حالياً، تركز العديد من شركات النماذج الكبيرة الرائدة، بما في ذلك OpenAI وAnthropic وMeta و月之暗面، على توسيع طول السياق كوجهة تحديث رئيسية. هذه الشركات بدون استثناء هي المفضلة في أسواق رأس المال، حيث تصل حجم تمويلها إلى عشرات المليارات من الدولارات.
إن突破 تقنية النصوص الطويلة له معنى كبير. من الناحية السطحية، هذا يعني أن النموذج يمكنه معالجة نصوص مدخلة أطول، مما يعزز بشكل كبير من قدرته على القراءة. وعلى مستوى أعمق، فإن هذه التقنية تدفع بتطبيقات النماذج الكبيرة في مجالات مثل المالية والقانون والبحث العلمي.
ومع ذلك، من المهم أن نلاحظ أن طول النص ليس شرطًا أن يكون أطول هو الأفضل. تشير الأبحاث إلى أن دعم النماذج لإدخال سياق أطول لا يعني بالضرورة تحسين الأداء. المفتاح هو كيفية استغلال النموذج لمحتوى السياق بشكل فعال.
ومع ذلك، يبدو أن الاستكشاف الحالي لطول النص لا يزال بعيدًا عن الوصول إلى الحد الأقصى. قد تكون 400000 توكن مجرد بداية، ولا تزال شركات النماذج الكبيرة تعمل بجد لتجاوز هذا الحد.
إن突破 تقنية النصوص الطويلة لم يحل فقط بعض المشكلات التي واجهتها النماذج الكبيرة في مراحلها المبكرة، بل عزز أيضًا من وظائفها. وهذا يمثل دخول النماذج الكبيرة العامة في مرحلة تطوير جديدة - من عصر LLM إلى عصر Long LLM.
تقدم تقنية النص الطويل العديد من القدرات الجديدة للنماذج الكبيرة. على سبيل المثال، يمكنها تحليل المقالات الطويلة بسرعة، واستخراج المعلومات الرئيسية من التقارير المالية، وتنفيذ تفاعلات الأسئلة والأجوبة لكتاب كامل. في مجال البرمجة، يمكن حتى تحويل الأوراق البحثية مباشرة إلى شيفرة. في سيناريوهات الحوار الطويل، يمكن أيضًا تحقيق تفاعلات أكثر تخصصًا وشخصية وعمقًا.
ومع ذلك، تواجه تقنية النصوص الطويلة أيضًا تحدي "مثلث المستحيل": هناك قيود متبادلة بين طول النص، والانتباه، وقوة الحساب. مع زيادة طول النص، يصبح من الصعب على النموذج التركيز بما يكفي من الانتباه، وفي الوقت نفسه يحتاج أيضًا إلى دعم أكبر من حيث قوة الحساب.
في الوقت الحالي، تعتمد الصناعة بشكل رئيسي على ثلاث حلول لمواجهة هذا التحدي: استخدام أدوات خارجية للمساعدة في معالجة النصوص الطويلة، تحسين حساب آلية الانتباه الذاتي، وتحسين النموذج. كل حل له مزاياه وعيوبه، وشركات النماذج الكبيرة تعمل بجد للعثور على التوازن الأمثل بين طول النص والانتباه وقدرة الحوسبة.
مع التقدم المستمر في التكنولوجيا، من المتوقع أن تتحسن قدرة معالجة النصوص الطويلة، مما يمهد الطريق لاستخدام النماذج الكبيرة في مجالات أكثر.