Le grand modèle dépasse 400 000 tokens, la capacité de long texte ouvre la voie à une nouvelle ère LLM.

robot
Création du résumé en cours

La capacité des grands modèles à traiter de longs textes s'améliore rapidement, 400 000 tokens ne sont peut-être que le début.

La capacité des grands modèles à traiter de longs textes s'améliore à une vitesse incroyable. De 4000 tokens au départ à 400 000 tokens aujourd'hui, cette augmentation de capacité est clairement visible.

La capacité de traitement de longs textes semble être devenue une nouvelle norme pour les fabricants de grands modèles. À l'international, OpenAI a augmenté la longueur d'entrée contextuelle de GPT-3.5 et GPT-4 à respectivement 16 000 et 32 000 tokens grâce à plusieurs mises à jour. Anthropic a même porté la longueur contextuelle de son modèle Claude à 100 000 tokens. LongLLaMA a même étendu ce chiffre à 256 000 tokens.

Le marché national ne veut pas être en reste. Il est rapporté que la startup "Kimi Chat" a été lancée par la société "月之暗面" et prend en charge la saisie de 200 000 caractères chinois, soit environ 400 000 tokens. La technologie LongLoRA, développée conjointement par l'Université de Hong Kong et le MIT, permet d'étendre la longueur du texte du modèle 7B à 100 000 tokens et celle du modèle 70B à 32 000 tokens.

Actuellement, plusieurs grandes entreprises de modèles, y compris OpenAI, Anthropic, Meta et Moonlight, se concentrent sur l'extension de la longueur du contexte comme direction de mise à jour clé. Ces entreprises sont toutes, sans exception, des favorites du marché des capitaux, avec des montants de financement atteignant souvent des milliards de dollars.

Les percées dans la technologie des longs textes sont d'une grande importance. En surface, cela signifie que les modèles peuvent traiter des textes d'entrée plus longs, améliorant considérablement leur capacité de lecture. À un niveau plus profond, cette technologie favorise l'application des grands modèles dans des domaines professionnels tels que la finance, le droit et la recherche scientifique.

Cependant, il est important de noter que la longueur du texte n'est pas nécessairement un avantage. Des études montrent que le fait qu'un modèle prenne en charge des entrées contextuelles plus longues ne se traduit pas forcément par une amélioration des performances. La clé réside dans la manière dont le modèle utilise efficacement le contenu contextuel.

Néanmoins, l'exploration actuelle de la longueur du texte semble encore loin d'atteindre une limite. 400 000 tokens ne sont peut-être qu'un début, et les entreprises de grands modèles continuent de travailler sans relâche pour franchir cette barrière.

Les percées dans la technologie des longs textes non seulement résolvent certains problèmes auxquels les grands modèles étaient confrontés au début, mais renforcent également leurs capacités. Cela marque l'entrée des grands modèles généraux dans une nouvelle phase de développement : de l'ère LLM à l'ère Long LLM.

La technologie des longs textes a apporté de nouvelles capacités aux grands modèles. Par exemple, elle peut analyser rapidement de longs articles, extraire des informations clés des rapports financiers et réaliser des interactions de questions-réponses sur un livre entier. En ce qui concerne le code, elle peut même convertir directement des articles de recherche en code. Dans des scénarios de dialogue prolongés, elle peut également permettre des interactions plus spécialisées, personnalisées et approfondies.

Cependant, le développement des techniques de traitement des longs textes fait face au dilemme du "triangle impossible" : il existe des contraintes mutuelles entre la longueur du texte, l'attention et la puissance de calcul. À mesure que la longueur du texte augmente, il devient difficile pour le modèle de concentrer suffisamment d'attention, tout en nécessitant également plus de soutien en puissance de calcul.

Actuellement, l'industrie utilise principalement trois solutions pour relever ce défi : l'utilisation d'outils externes pour traiter les longs textes, l'optimisation du calcul des mécanismes d'attention, et l'optimisation des modèles. Chaque solution a ses avantages et ses inconvénients, et les entreprises de grands modèles s'efforcent de trouver le meilleur compromis entre la longueur du texte, l'attention et la puissance de calcul.

Avec les progrès technologiques continus, la capacité de traitement des longs textes devrait être améliorée, ouvrant la voie à l'application des grands modèles dans davantage de domaines.

TOKEN-4.05%
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 7
  • Partager
Commentaire
0/400
NFTArchaeologistvip
· 07-24 00:05
Puissance de calcul, combien ça coûte ? Reconnaître l'argent, pas les gens.
Voir l'originalRépondre0
FlashLoanPrincevip
· 07-23 21:51
Amélioration des performances, Puissance de calcul à fond et c'est tout.
Voir l'originalRépondre0
AirdropHarvestervip
· 07-23 10:30
Ce token a vraiment fait une hausse rapide, exactement cent fois.
Voir l'originalRépondre0
CryptoSurvivorvip
· 07-21 05:41
Plus la hausse, plus le calme; plus la chute, plus l'excitation.
Voir l'originalRépondre0
PumpStrategistvip
· 07-21 05:40
hausse comme ça, risque technique +1, attention au pullback en position élevée
Voir l'originalRépondre0
HodlOrRegretvip
· 07-21 05:37
L'accélération est trop forte, c'est incroyable.
Voir l'originalRépondre0
HappyToBeDumpedvip
· 07-21 05:33
Je n'ai pas compris l'IA même après 40 000 mots.
Voir l'originalRépondre0
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)