Les fournisseurs de grands modèles lancent une compétition sur la technologie des longs textes, 400 000 tokens ne sont peut-être que le début
Les grands modèles étendent leur capacité à traiter de longs textes à une vitesse incroyable. De 4000 à 400 000 tokens, cette amélioration est "visiblement évidente".
La capacité à traiter de longs textes semble être devenue la nouvelle norme pour les fournisseurs de grands modèles. À l'international, OpenAI a augmenté la longueur de contexte de GPT-3.5 et GPT-4 à respectivement 16 000 et 32 000 tokens après plusieurs mises à jour. Son principal concurrent, Anthropic, a même étendu la longueur de contexte à 100 000 tokens. LongLLaMA a porté ce chiffre à 256 000 tokens, voire plus.
Sur le plan national, Kimi Chat, lancé par la startup de modèles de grande taille "Le Côté Obscur de la Lune", peut prendre en charge l'entrée de 200 000 caractères chinois, soit environ 400 000 tokens. La technologie LongLoRA, développée conjointement par l'Université Chinoise de Hong Kong et le MIT, peut étendre la longueur du texte du modèle 7B à 100 000 tokens, tandis que le modèle 70B atteint 32 000 tokens.
Actuellement, plusieurs grandes entreprises de modèles, notamment OpenAI, Anthropic, Meta et Dark Side of the Moon, considèrent l'expansion de la longueur du contexte comme une direction de mise à niveau clé. Ces entreprises sont toutes, sans exception, prisées par le marché des capitaux.
OpenAI a obtenu près de 12 milliards de dollars d'investissements ; la dernière valorisation d'Anthropic devrait atteindre 30 milliards de dollars ; la valorisation de Moonlight, qui n'a été fondée que depuis six mois, a déjà dépassé 300 millions de dollars, et a réalisé un financement de près de 2 milliards de yuans.
Pourquoi les entreprises de grands modèles accordent-elles autant d'importance à la technologie des longs textes ? Que signifie une augmentation de la longueur du contexte de 100 fois ?
En surface, cela signifie que le modèle peut traiter des entrées textuelles plus longues, améliorant considérablement sa capacité de lecture. Mais la signification plus profonde est que la technologie des longs textes pousse l'application des grands modèles dans des domaines professionnels tels que la finance, la justice et la recherche scientifique. Les capacités de résumé de documents longs, de compréhension de lecture et de questions-réponses sont précisément les directions dans lesquelles ces domaines ont un besoin urgent d'une mise à niveau intelligente.
Cependant, tout comme pour les paramètres du modèle, la longueur du texte n'est pas nécessairement meilleure lorsqu'elle est plus longue. Des études montrent que le soutien du modèle pour des entrées contextuelles plus longues ne se traduit pas directement par une amélioration des performances. La clé réside dans la manière dont le modèle utilise efficacement le contenu contextuel.
Actuellement, l'industrie n'a pas encore atteint les limites de l'exploration de la longueur des textes. 400 000 tokens ne sont peut-être qu'un début, les entreprises de grands modèles tant nationales qu'internationales continuent de franchir cette frontière.
Pourquoi "rouler" des textes longs?
Le fondateur de la face cachée de la lune, Yang Zhilin, a déclaré que c'est en raison des limitations de la longueur d'entrée des grands modèles que de nombreuses applications rencontrent des difficultés à se concrétiser. C'est également la raison pour laquelle de nombreuses entreprises de grands modèles se concentrent actuellement sur les technologies de texte long.
Par exemple, dans le contexte des personnages virtuels, en raison d'une capacité insuffisante à traiter de longs textes, les personnages oublient des informations importantes ; lors du développement de jeux de type "murder party", une longueur d'entrée insuffisante entraîne une réduction des règles et des paramètres ; dans des domaines spécialisés tels que le droit et la finance, l'analyse et la génération de contenu approfondi rencontrent souvent des obstacles.
Dans la voie vers les applications natives d'Agent et d'IA du futur, les longs textes jouent encore un rôle important. Les tâches des agents nécessitent de s'appuyer sur des informations historiques pour la planification et la prise de décision, tandis que les applications natives d'IA ont besoin de contexte pour maintenir une expérience utilisateur cohérente et personnalisée.
Yang Zhilin estime que la limite des grands modèles est déterminée par la capacité à un seul pas et le nombre d'étapes d'exécution, où la capacité à un seul pas est positivement corrélée au nombre de paramètres, tandis que le nombre d'étapes d'exécution correspond à la longueur du contexte.
La technologie des longs textes peut non seulement résoudre certains problèmes soulevés au début des grands modèles et renforcer certaines fonctions, mais elle est également une technologie clé pour faire progresser l'industrialisation et l'application. Cela indique également que les grands modèles universels entrent dans une nouvelle phase, passant de LLM à Long LLM.
Grâce à Kimi Chat, récemment lancé par The Dark Side of the Moon, nous pouvons avoir un aperçu des fonctionnalités améliorées du modèle LLM de Long.
Tout d'abord, il s'agit de la capacité d'extraction, de résumé et d'analyse des informations clés à partir de textes très longs. Par exemple, analyser rapidement le sens d'un article sur un compte public, extraire les informations clés d'un rapport financier et les présenter sous forme de tableau, ou répondre à des questions sur un livre entier.
En ce qui concerne le code, il est possible de convertir directement le texte en code, voire de reproduire le processus de génération de code à partir d'articles.
Dans des scénarios de dialogue prolongé, les robots de dialogue peuvent jouer des rôles en utilisant des données de personnalités publiques, en ajustant le ton et la personnalité pour engager une conversation en tête-à-tête avec des personnages spécifiques.
Ces exemples montrent que les chatbots évoluent vers une spécialisation, une personnalisation et une profondeur, ce qui pourrait être un autre levier pour faire décoller l'industrie et créer des super applications.
Yang Zhilin estime que, contrairement à OpenAI qui ne propose qu'un seul produit, ChatGPT, Dark Side of the Moon vise à devenir la prochaine super application C-end : en utilisant la technologie des longs textes comme percée, plusieurs applications sont dérivées d'un modèle général de base.
Il prédit que le marché national des grands modèles se divisera en deux camps : toB et toC, et qu'il y aura des applications super basées sur des modèles auto-développés dans le camp toC.
Le dilemme du "triangle impossible" dans un long texte
Dans le domaine des longs textes, il existe un "triangle impossible" entre la longueur du texte, l'attention et la puissance de calcul. Cela se manifeste par : plus le texte est long, plus il est difficile de concentrer suffisamment d'attention ; sous une attention limitée, les textes courts ne peuvent pas interpréter pleinement des informations complexes ; le traitement de longs textes nécessite une grande puissance de calcul, ce qui augmente les coûts.
La racine de ce dilemme réside dans le fait que les grands modèles existants sont principalement basés sur la structure Transformer. Bien que le mécanisme d'attention automatique de cette structure permette au modèle de surmonter les limites de l'ordre des informations d'entrée, la charge de calcul augmente de manière quadratique avec la longueur du contexte.
Cela constitue le premier ensemble de contradictions dans le "triangle impossible" - la longueur du texte et l'attention, et explique fondamentalement la raison pour laquelle les grandes technologies de modèles ont du mal à surmonter les longs textes.
En même temps, la puissance de calcul a toujours été une ressource rare. Que ce soit pour élargir les paramètres du modèle ou la longueur du texte, il faut peser la consommation de puissance de calcul. Cela crée un deuxième ensemble de contradictions entre la longueur du texte et la puissance de calcul.
Il existe actuellement trois principales solutions:
Utiliser des outils externes pour aider à traiter de longs textes, comme diviser un long texte en plusieurs courts textes à traiter.
Optimisation du calcul du mécanisme d'attention auto, comme la technologie LongLoRA qui divise les longs textes en différents groupes pour le calcul.
Optimiser le modèle, par exemple LongLLaMA réalise une extrapolation vers des séquences plus longues grâce à un ajustement.
Le dilemme du "triangle impossible" des longs textes peut être difficile à résoudre complètement pour le moment, mais cela clarifie également le chemin d'exploration des fabricants de grands modèles : rechercher le meilleur équilibre entre la longueur du texte, l'attention et la puissance de calcul, afin de pouvoir traiter suffisamment d'informations tout en tenant compte des limitations de calcul de l'attention et des coûts de puissance de calcul.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
21 J'aime
Récompense
21
7
Reposter
Partager
Commentaire
0/400
Rekt_Recovery
· 08-12 19:00
haussier sur les gains de jetons... j'aimerais que mon portefeuille puisse pump comme ces chiffres fr fr
Voir l'originalRépondre0
ForkTrooper
· 08-11 05:57
La performance des volumes ne s'arrête jamais, quand pourrai-je atteindre des millions ?
Voir l'originalRépondre0
rugged_again
· 08-11 04:18
Les joueurs continuent de rouler, le parti token doit gagner.
Voir l'originalRépondre0
OnchainDetective
· 08-09 23:45
Hehe, la compétition technologique semble amicale, mais derrière se cache clairement une chaîne de blanchiment de capitaux de puissance de calcul, un affrontement typique de brûlage d'argent.
Voir l'originalRépondre0
ApeWithAPlan
· 08-09 23:42
C'est encore un concours d'accumulation de chiffres, à quoi ça sert ?
Voir l'originalRépondre0
RugPullProphet
· 08-09 23:34
Cette vague, la petite usine ne peut plus tenir, n'est-ce pas ?
Voir l'originalRépondre0
AirdropFreedom
· 08-09 23:32
Petit gain de 50k dollars~ soit des pigeons soit des mineurs. Depuis que j'ai commencé à jouer, je cours toujours après le profit.
Générer un commentaire dans la langue spécifiée : chinois
Je ne veux pas courir après le token, je ne pourrai jamais le rattraper~
La compétition de long texte des grands modèles se met à niveau, 400 000 tokens pourraient devenir un nouveau point de départ.
Les fournisseurs de grands modèles lancent une compétition sur la technologie des longs textes, 400 000 tokens ne sont peut-être que le début
Les grands modèles étendent leur capacité à traiter de longs textes à une vitesse incroyable. De 4000 à 400 000 tokens, cette amélioration est "visiblement évidente".
La capacité à traiter de longs textes semble être devenue la nouvelle norme pour les fournisseurs de grands modèles. À l'international, OpenAI a augmenté la longueur de contexte de GPT-3.5 et GPT-4 à respectivement 16 000 et 32 000 tokens après plusieurs mises à jour. Son principal concurrent, Anthropic, a même étendu la longueur de contexte à 100 000 tokens. LongLLaMA a porté ce chiffre à 256 000 tokens, voire plus.
Sur le plan national, Kimi Chat, lancé par la startup de modèles de grande taille "Le Côté Obscur de la Lune", peut prendre en charge l'entrée de 200 000 caractères chinois, soit environ 400 000 tokens. La technologie LongLoRA, développée conjointement par l'Université Chinoise de Hong Kong et le MIT, peut étendre la longueur du texte du modèle 7B à 100 000 tokens, tandis que le modèle 70B atteint 32 000 tokens.
Actuellement, plusieurs grandes entreprises de modèles, notamment OpenAI, Anthropic, Meta et Dark Side of the Moon, considèrent l'expansion de la longueur du contexte comme une direction de mise à niveau clé. Ces entreprises sont toutes, sans exception, prisées par le marché des capitaux.
OpenAI a obtenu près de 12 milliards de dollars d'investissements ; la dernière valorisation d'Anthropic devrait atteindre 30 milliards de dollars ; la valorisation de Moonlight, qui n'a été fondée que depuis six mois, a déjà dépassé 300 millions de dollars, et a réalisé un financement de près de 2 milliards de yuans.
Pourquoi les entreprises de grands modèles accordent-elles autant d'importance à la technologie des longs textes ? Que signifie une augmentation de la longueur du contexte de 100 fois ?
En surface, cela signifie que le modèle peut traiter des entrées textuelles plus longues, améliorant considérablement sa capacité de lecture. Mais la signification plus profonde est que la technologie des longs textes pousse l'application des grands modèles dans des domaines professionnels tels que la finance, la justice et la recherche scientifique. Les capacités de résumé de documents longs, de compréhension de lecture et de questions-réponses sont précisément les directions dans lesquelles ces domaines ont un besoin urgent d'une mise à niveau intelligente.
Cependant, tout comme pour les paramètres du modèle, la longueur du texte n'est pas nécessairement meilleure lorsqu'elle est plus longue. Des études montrent que le soutien du modèle pour des entrées contextuelles plus longues ne se traduit pas directement par une amélioration des performances. La clé réside dans la manière dont le modèle utilise efficacement le contenu contextuel.
Actuellement, l'industrie n'a pas encore atteint les limites de l'exploration de la longueur des textes. 400 000 tokens ne sont peut-être qu'un début, les entreprises de grands modèles tant nationales qu'internationales continuent de franchir cette frontière.
Pourquoi "rouler" des textes longs?
Le fondateur de la face cachée de la lune, Yang Zhilin, a déclaré que c'est en raison des limitations de la longueur d'entrée des grands modèles que de nombreuses applications rencontrent des difficultés à se concrétiser. C'est également la raison pour laquelle de nombreuses entreprises de grands modèles se concentrent actuellement sur les technologies de texte long.
Par exemple, dans le contexte des personnages virtuels, en raison d'une capacité insuffisante à traiter de longs textes, les personnages oublient des informations importantes ; lors du développement de jeux de type "murder party", une longueur d'entrée insuffisante entraîne une réduction des règles et des paramètres ; dans des domaines spécialisés tels que le droit et la finance, l'analyse et la génération de contenu approfondi rencontrent souvent des obstacles.
Dans la voie vers les applications natives d'Agent et d'IA du futur, les longs textes jouent encore un rôle important. Les tâches des agents nécessitent de s'appuyer sur des informations historiques pour la planification et la prise de décision, tandis que les applications natives d'IA ont besoin de contexte pour maintenir une expérience utilisateur cohérente et personnalisée.
Yang Zhilin estime que la limite des grands modèles est déterminée par la capacité à un seul pas et le nombre d'étapes d'exécution, où la capacité à un seul pas est positivement corrélée au nombre de paramètres, tandis que le nombre d'étapes d'exécution correspond à la longueur du contexte.
La technologie des longs textes peut non seulement résoudre certains problèmes soulevés au début des grands modèles et renforcer certaines fonctions, mais elle est également une technologie clé pour faire progresser l'industrialisation et l'application. Cela indique également que les grands modèles universels entrent dans une nouvelle phase, passant de LLM à Long LLM.
Grâce à Kimi Chat, récemment lancé par The Dark Side of the Moon, nous pouvons avoir un aperçu des fonctionnalités améliorées du modèle LLM de Long.
Tout d'abord, il s'agit de la capacité d'extraction, de résumé et d'analyse des informations clés à partir de textes très longs. Par exemple, analyser rapidement le sens d'un article sur un compte public, extraire les informations clés d'un rapport financier et les présenter sous forme de tableau, ou répondre à des questions sur un livre entier.
En ce qui concerne le code, il est possible de convertir directement le texte en code, voire de reproduire le processus de génération de code à partir d'articles.
Dans des scénarios de dialogue prolongé, les robots de dialogue peuvent jouer des rôles en utilisant des données de personnalités publiques, en ajustant le ton et la personnalité pour engager une conversation en tête-à-tête avec des personnages spécifiques.
Ces exemples montrent que les chatbots évoluent vers une spécialisation, une personnalisation et une profondeur, ce qui pourrait être un autre levier pour faire décoller l'industrie et créer des super applications.
Yang Zhilin estime que, contrairement à OpenAI qui ne propose qu'un seul produit, ChatGPT, Dark Side of the Moon vise à devenir la prochaine super application C-end : en utilisant la technologie des longs textes comme percée, plusieurs applications sont dérivées d'un modèle général de base.
Il prédit que le marché national des grands modèles se divisera en deux camps : toB et toC, et qu'il y aura des applications super basées sur des modèles auto-développés dans le camp toC.
Le dilemme du "triangle impossible" dans un long texte
Dans le domaine des longs textes, il existe un "triangle impossible" entre la longueur du texte, l'attention et la puissance de calcul. Cela se manifeste par : plus le texte est long, plus il est difficile de concentrer suffisamment d'attention ; sous une attention limitée, les textes courts ne peuvent pas interpréter pleinement des informations complexes ; le traitement de longs textes nécessite une grande puissance de calcul, ce qui augmente les coûts.
La racine de ce dilemme réside dans le fait que les grands modèles existants sont principalement basés sur la structure Transformer. Bien que le mécanisme d'attention automatique de cette structure permette au modèle de surmonter les limites de l'ordre des informations d'entrée, la charge de calcul augmente de manière quadratique avec la longueur du contexte.
Cela constitue le premier ensemble de contradictions dans le "triangle impossible" - la longueur du texte et l'attention, et explique fondamentalement la raison pour laquelle les grandes technologies de modèles ont du mal à surmonter les longs textes.
En même temps, la puissance de calcul a toujours été une ressource rare. Que ce soit pour élargir les paramètres du modèle ou la longueur du texte, il faut peser la consommation de puissance de calcul. Cela crée un deuxième ensemble de contradictions entre la longueur du texte et la puissance de calcul.
Il existe actuellement trois principales solutions:
Utiliser des outils externes pour aider à traiter de longs textes, comme diviser un long texte en plusieurs courts textes à traiter.
Optimisation du calcul du mécanisme d'attention auto, comme la technologie LongLoRA qui divise les longs textes en différents groupes pour le calcul.
Optimiser le modèle, par exemple LongLLaMA réalise une extrapolation vers des séquences plus longues grâce à un ajustement.
Le dilemme du "triangle impossible" des longs textes peut être difficile à résoudre complètement pour le moment, mais cela clarifie également le chemin d'exploration des fabricants de grands modèles : rechercher le meilleur équilibre entre la longueur du texte, l'attention et la puissance de calcul, afin de pouvoir traiter suffisamment d'informations tout en tenant compte des limitations de calcul de l'attention et des coûts de puissance de calcul.
Générer un commentaire dans la langue spécifiée : chinois
Je ne veux pas courir après le token, je ne pourrai jamais le rattraper~