Les grands modèles s'attaquent aux longs textes, 400 000 tokens n'est que le début
Les grands modèles améliorent leur capacité à traiter des longs textes à une vitesse incroyable. Passant des 4000 tokens initiaux à maintenant 400 000 tokens, la capacité de traitement des longs textes est devenue un nouveau standard pour les entreprises de modèles grands pour démontrer leur puissance technologique.
À l'international, des acteurs majeurs comme OpenAI et Anthropic ont tous augmenté la longueur de contexte de leurs modèles. Dans le pays, certaines nouvelles entreprises se lancent aussi dans cette course. Il est rapporté qu'actuellement, un grand nombre de sociétés de modèles et d'instituts de recherche de premier plan considèrent l'extension de la longueur de contexte comme une priorité dans leur mise à niveau technologique.
Ces entreprises sont toutes très appréciées par les capitaux. OpenAI a obtenu près de 12 milliards de dollars de financement, la valorisation d'Anthropic pourrait atteindre 30 milliards de dollars, et la nouvelle entreprise nationale, Mois de l'Obscurité, a déjà dépassé 300 millions de dollars de valorisation en seulement six mois.
Pourquoi les entreprises de grands modèles sont-elles si désireuses de conquérir la technologie des longs textes ? En apparence, cela signifie que le modèle peut traiter des textes d'entrée plus longs, avec une capacité de lecture considérablement améliorée. La raison plus profonde est que la technologie des longs textes peut favoriser l'application des grands modèles dans des domaines professionnels tels que la finance, le droit et la recherche scientifique.
Cependant, ce n'est pas parce que la longueur du texte est plus longue que le modèle fonctionne mieux. Des recherches montrent que la clé réside dans la manière dont le modèle utilise efficacement les informations contextuelles. Actuellement, l'exploration de la longueur du texte dans l'industrie n'a pas encore atteint le "point critique", 400 000 tokens ne sont peut-être qu'un début.
Les percées dans la technologie des longs textes peuvent résoudre certains problèmes auxquels les grands modèles étaient confrontés au départ, tels que l'oubli d'informations par les personnages virtuels et l'analyse insuffisante des domaines spécialisés. C'est également l'une des technologies clés qui propulse la mise en œuvre des applications industrielles, marquant l'entrée des grands modèles dans une nouvelle phase allant de LLM à Long LLM.
Les technologies de texte long permettent aux robots de conversation d'atteindre des fonctions plus spécialisées, personnalisées et approfondies, telles que l'analyse de textes très longs, la génération de code, le jeu de rôle, etc. Cela ouvre la voie au développement de la prochaine génération de super applications.
Cependant, la technologie des longs textes est confrontée au dilemme du "triangle impossible" : il est difficile de concilier la longueur du texte, l'attention et la puissance de calcul. La principale raison réside dans le fait que la quantité de calcul du mécanisme d'attention auto dans la structure Transformer augmente de manière quadratique avec la longueur du contexte.
L'industrie fait actuellement face à ce défi par trois solutions principales : utiliser des outils externes pour aider au traitement, optimiser le calcul de l'attention auto-référentielle et optimiser le modèle. Chaque solution a ses avantages et ses inconvénients, et les grandes entreprises de modèles doivent trouver un équilibre entre les trois.
Dans l'ensemble, les percées dans la technologie des longs textes ouvrent de nouvelles directions de développement pour les grands modèles, mais de nombreux défis demeurent. Le développement futur se concentrera sur la manière de traiter efficacement des textes ultra-longs tout en garantissant les performances du modèle.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
18 J'aime
Récompense
18
5
Reposter
Partager
Commentaire
0/400
PerpetualLonger
· 08-07 07:29
Le long texte est la prochaine opportunité de s'enrichir rapidement, il suffit de copier.
Voir l'originalRépondre0
rugpull_survivor
· 08-06 12:42
Qui regarde cette dépense extravagante ?
Voir l'originalRépondre0
¯\_(ツ)_/¯
· 08-05 02:36
Le texte est long et l'IA est devenue audacieuse.
Voir l'originalRépondre0
Anon4461
· 08-05 02:36
Token s'envoler vers le ciel petite rédaction ne panique pas
Voir l'originalRépondre0
SignatureAnxiety
· 08-05 02:35
Avoir de l'argent, c'est pouvoir faire ce que l'on veut.
Les capacités des grands modèles pour les longs textes explosent, 400 000 tokens pourraient remodeler le paysage des applications IA.
Les grands modèles s'attaquent aux longs textes, 400 000 tokens n'est que le début
Les grands modèles améliorent leur capacité à traiter des longs textes à une vitesse incroyable. Passant des 4000 tokens initiaux à maintenant 400 000 tokens, la capacité de traitement des longs textes est devenue un nouveau standard pour les entreprises de modèles grands pour démontrer leur puissance technologique.
À l'international, des acteurs majeurs comme OpenAI et Anthropic ont tous augmenté la longueur de contexte de leurs modèles. Dans le pays, certaines nouvelles entreprises se lancent aussi dans cette course. Il est rapporté qu'actuellement, un grand nombre de sociétés de modèles et d'instituts de recherche de premier plan considèrent l'extension de la longueur de contexte comme une priorité dans leur mise à niveau technologique.
Ces entreprises sont toutes très appréciées par les capitaux. OpenAI a obtenu près de 12 milliards de dollars de financement, la valorisation d'Anthropic pourrait atteindre 30 milliards de dollars, et la nouvelle entreprise nationale, Mois de l'Obscurité, a déjà dépassé 300 millions de dollars de valorisation en seulement six mois.
Pourquoi les entreprises de grands modèles sont-elles si désireuses de conquérir la technologie des longs textes ? En apparence, cela signifie que le modèle peut traiter des textes d'entrée plus longs, avec une capacité de lecture considérablement améliorée. La raison plus profonde est que la technologie des longs textes peut favoriser l'application des grands modèles dans des domaines professionnels tels que la finance, le droit et la recherche scientifique.
Cependant, ce n'est pas parce que la longueur du texte est plus longue que le modèle fonctionne mieux. Des recherches montrent que la clé réside dans la manière dont le modèle utilise efficacement les informations contextuelles. Actuellement, l'exploration de la longueur du texte dans l'industrie n'a pas encore atteint le "point critique", 400 000 tokens ne sont peut-être qu'un début.
Les percées dans la technologie des longs textes peuvent résoudre certains problèmes auxquels les grands modèles étaient confrontés au départ, tels que l'oubli d'informations par les personnages virtuels et l'analyse insuffisante des domaines spécialisés. C'est également l'une des technologies clés qui propulse la mise en œuvre des applications industrielles, marquant l'entrée des grands modèles dans une nouvelle phase allant de LLM à Long LLM.
Les technologies de texte long permettent aux robots de conversation d'atteindre des fonctions plus spécialisées, personnalisées et approfondies, telles que l'analyse de textes très longs, la génération de code, le jeu de rôle, etc. Cela ouvre la voie au développement de la prochaine génération de super applications.
Cependant, la technologie des longs textes est confrontée au dilemme du "triangle impossible" : il est difficile de concilier la longueur du texte, l'attention et la puissance de calcul. La principale raison réside dans le fait que la quantité de calcul du mécanisme d'attention auto dans la structure Transformer augmente de manière quadratique avec la longueur du contexte.
L'industrie fait actuellement face à ce défi par trois solutions principales : utiliser des outils externes pour aider au traitement, optimiser le calcul de l'attention auto-référentielle et optimiser le modèle. Chaque solution a ses avantages et ses inconvénients, et les grandes entreprises de modèles doivent trouver un équilibre entre les trois.
Dans l'ensemble, les percées dans la technologie des longs textes ouvrent de nouvelles directions de développement pour les grands modèles, mais de nombreux défis demeurent. Le développement futur se concentrera sur la manière de traiter efficacement des textes ultra-longs tout en garantissant les performances du modèle.