Aller au contenu

GPT-2

Un article de Wikipédia, l'encyclopédie libre.
GPT-2

Description de l'image GPT2-talks-about-GPT2.png.
Informations
Développé par Open AIVoir et modifier les données sur Wikidata
Première version Voir et modifier les données sur Wikidata
Dépôt github.com/openai/gpt-2Voir et modifier les données sur Wikidata
Type Grand modèle de langage
Transformateur génératif pré-forméVoir et modifier les données sur Wikidata
Licence MIT[1]
Site web openai.com/blog/better-language-modelsVoir et modifier les données sur Wikidata

Chronologie des versions

GPT-2 ( Generative Pre-trained Transformer 2, en français Transformeur génératif préentraîné 2 ) est un grand modèle de langage développé par OpenAI. Deuxième modèle de sa série pionnière de modèles GPT, GPT-2 a été pré-entraîné sur un ensemble de données issues de 8 millions de pages web[2].

Il est considéré comme le véritable tournant ayant révélé la puissance des transformeurs génératifs préentrainés pour générer du texte inédit et cohérant. OpenAI publiait avant GPT-2 ses modèles en Open source. Pour la première fois, la puissance du modèle, notamment son potentiel de nuisance, convainc ses développeurs de ne le publier que partiellement en février 2019. La version complète du modèle à 1,5 milliard de paramètres a finalement été publiée le 5 novembre[3],[4],[5]. Geoffrey Hinton révélait dans une interview que "ChatGPT en soi ne l'avait pas vraiment stupéfait, GPT-2, un des premiers modèles de langage, l'avait beaucoup plus impressionné"[6].

GPT-2 est une version augmentée de GPT-1[7], avec un nombre de paramètres et un jeu de données d'entraînement environ dix fois plus important[5]. Le modèle de langage GPT-2 est capable de réaliser des tâches relativement diverses grâce à son aptitude exceptionnelle, par rapport à l'état de la science de l'époque, à réaliser de la complétion de texte[2]. Cette capacité à prédire le prochain mot dans une séquence de mots lui permet de traduire des textes, de répondre à des questions sur un sujet donné, de résumer des passages d'un texte plus long et de générer un texte d'une qualité parfois indiscernable de celle d'un humain . Cependant, il arrivait qu'il se répète ou devienne incohérent lors de la génération de longs passages[8]. Il a été remplacé par les modèles GPT-3, GPT-4 et GPT-5, qui ne sont plus libres de droits.

GPT-2, à l'instar de son prédécesseur GPT-1 et de ses successeurs GPT-3, GPT-4 et GPT-5, utilise une architecture de type Transformeur génératif préentraînée . Il est entrainé par apprentissage profond avec un réseau de neurones artificiels, plus précisément un modèle de type transformeur[7], qui mobilise l'attention plutôt que les solutions plus anciennes basées sur la récurrence et la convolution[9],[10]. Ces mécanismes d'attention permettent au modèle de se concentrer sélectivement sur les segments du texte d'entrée qu'il prédit comme étant les plus pertinents. Ce modèle permet une parallélisation considérablement accrue et surpasse les précédents benchmarks pour les modèles basés sur les RNN/CNN/LSTM[7] .

Entraînement de GPT-2

[modifier | modifier le code]

L'architecture transformeur ayant permis une parallélisation massive, les modèles GPT ont pu être entraînés sur des corpus plus vastes que les précédents modèles d'entrainement automatique du langage naturel. Si le modèle GPT-1 a démontré la viabilité de l'approche, GPT-2 a permis d'explorer plus profondément les propriétés émergentes des réseaux entraînés sur des corpus extrêmement volumineux.

Le corpusCommonCrawl, issu du web crawling a été envisagé pour l'entrainement de GPT-2 en raison de sa taille importante, mais il a finalement été rejeté puisqu'une grande partie de son contenu était considéré comme inintelligible[2]. OpenAI a alors développé un nouveau corpus, WebText. Ce corpus d'entrainement n'était pas composé de contenu récolté de manière indiscriminée sur le Web, mais a été réalisé en collectant uniquement des publications du réseau social Reddit ayant reçu au moins 3 points de karma avant décembre 2017. Ce corpus a ensuite été légèrement nettoyé et converti en texte brut[2].

Il est connu que le coût d'entraînement de GPT-2 était de 256 dollar américain par heure[11],[12], néanmoins le nombre d'heures nécessaires à l'entraînement étant inconnu, le coût total de l'apprentissage du modèle ne peut pas être estimé avec précision[13].

Publication

[modifier | modifier le code]

GPT-2 a été annoncé pour la première fois le 14 février 2019 dans un article de The Verge. James Vincent y indiquait que, bien que « le texte qu'il produit est en principe facilement identifiable comme n'étant pas d'origine humaine », il était néanmoins « l'un des exemples les plus intéressants à ce jour » de programmes de génération de langage[14].

Le Guardian qualifiait les productions de GPT-2 comme étant « de la prose plausible pour un journal »[8] ; Kelsey Piper de Vox déclarait que ce modèle était "l’un des systèmes d’IA les plus fascinants jamais vus, qui pourrait bien être celui qui me fera perdre mon emploi. »[15] Sa flexibilité et ses capacités à réaliser des tâches diverses a particulièrement impressionné la presse[14].

Une étude de l' Université d'Amsterdam considérait que GPT-2 passait le test de Turing, au moins dans certains scénarios. C'est-à-dire que dans une interaction avec GPT-2, les participants étaient incapables de distinguer ses poèmes de ceux écrits par des humains[6].

Restrictions et publication partielle

[modifier | modifier le code]
Bien que « Skub » ne soit pas un produit réel, même le modèle réduit utilisé dans DistilGPT2 est capable de créer des arguments plausibles pour et contre son existence.

Alors que les précédents modèles d'OpenAI avaient été immédiatement mis à la disposition du public, OpenAI a initialement refusé de publier le code source de GPT-2 lors de son annonce en février 2019, invoquant le risque d'utilisation malveillante[8]. Un accès limité au modèle (c'est-à-dire à une interface permettant la saisie et la production de texte, et non le code source lui-même) a été accordé à certains médias sélectionnés lors de l'annonce[8]. L'une des justifications avancées était que, puisque le texte généré était généralement totalement inédit, il pouvait être utilisé par des spammeurs pour contourner les filtres automatisés sur internet. En effet, OpenAI avait démontré qu'une version de GPT-2 optimisée pour cette tâche pouvait « générer une infinité d'avis positifs – ou négatifs – sur des produits »[8].

Une autre justification avancée par OpenAI était que GPT-2 pouvait permettre de générer des textes obscènes ou racistes.

Des chercheurs comme Jeremy Howard mettaient également en garde contre « cette technologie qui pourrait saturer Twitter, les messageries électroniques et le web en général de textes en apparence raisonnables et adapté au contexte, au point de noyer toute autre parole et d'être impossible à discerner de texte écrit par des humains »[14] .

Néanmoins, les avis étaient généralement partagés. L'article paru dans The Verge affirmait que la menace posée par GPT-2 avait été exagérée[16]. Anima Anandkumar, professeure à Caltech et directrice de la recherche en apprentissage automatique chez Nvidia déclarait également qu'il était infondé d'affirmer que GPT-2 avait les capacités de représenter les menaces décrites par OpenAI et que la restriction de publication du modèle était une « manœuvre malveillante » indigne des bonnes pratiques d'Open Source[16].

Publication de la version 774M

[modifier | modifier le code]

Bien qu'OpenAI n'avait toujours pas publié son modèle GPT-2 ni les corpus sur lesquels il avait été entraîné, la description des méthodes d'entrainement existant dans des publications antérieures (et la disponibilité gratuite de la technologie sous-jacente) a permis à d'autres de répliquer GPT-2 en tant que logiciel libre. Ainsi, OpenGPT-2 a été publié en août 2019, conjointement avec une version libre de WebText appelée OpenWebText. Le coût de l'entrainement d'OpenGPT-2 a été estimé à environ 50 000 $[17].

En réaction à OpenGPT-2, le 20 août 2019, OpenAI a publié une version partielle de GPT-2, avec 774 millions de paramètres (environ la moitié de ceux du modèle complet)[18].

Publication de la version complète 1.5B

[modifier | modifier le code]

En novembre 2019, puisqu'OpenAI n'avait « constaté aucune preuve tangible d'utilisation abusive » de sa version partielle de GPT-2, elle rendit publique la version complète, avec 1,5 milliard de paramètres entraînés sur quarante gigaoctets de données, « environ huit mille fois plus volumineux que l'œuvre complète de Shakespeare »[19],[3],[4].

GPT-2 peut générer des textes thématiquement pertinents pour diverses situations, même surréalistes. Par exemple, GPT-2 a écrit un article de CNN relatant un discours de Donald Trump faisant l'éloge du personnage d'anime Asuka Langley Soryu. On observe ici une tendance à générer des textes incohérents et répétitifs à mesure que la longueur du texte augmente (même avec le modèle complet de 1,5 milliard de mots) ; dès le deuxième paragraphe, la grammaire se dégrade et le texte finit par se réduire à une seule phrase incohérente répétée en boucle.

Bien que la capacité de GPT-2 à générer des passages plausibles en langage naturel ait été largement saluée, notamment chez les spécialistes, ses lacunes restaient évidentes, en particulier pour les textes de plus de deux paragraphes.

En plus de ces répétitions, divagations et hallucinations fréquentes, il a rapidement été constaté que le déploiement de GPT-2 était très gourmand en ressources. La version complète du modèle consommait une quantité importante de RAM et une seule prédiction pouvait saturer le processeur à 100 % pendant plusieurs minutes.

Application et recherches ultérieures

[modifier | modifier le code]

GPT-2 a été utilisé pour diverses applications et services, mais aussi pour le divertissement. En juin 2019, un subreddit nommé r/SubSimulatorGPT2 a par exemple été créé. Divers instances de GPT-2 y publiaient des messages et se répondaient entre elles[20]. En juillet de la même année, un logiciel basé sur GPT-2, capable de compléter automatiquement des lignes de code dans divers langages de programmation réalisait des performances jugées comme "révolutionnaires"[21].

En 2019, AI Dungeon est lancé. Ce site utilisait GPT-2 pour générer des aventures textuelles dynamiques à partir des interactions des utilisateurs avec le modèle[22].

En février 2021, un centre de crise pour adolescents en difficulté a annoncé qu'il commencerait à utiliser un Chatbot dérivé de GPT-2 pour former ses conseillers en leur permettant d'avoir des conversations avec des adolescents simulés (cette utilisation était purement interne et n'impliquait pas que GPT-2 communique avec des adolescents)[23].

Le 9 mai 2023, OpenAI a publié une version cartographiée du système de neurone de GPT-2, réalisée grâce à un des modèles successeur, GPT-4[6].

Performances et évaluation

[modifier | modifier le code]
GPT-2 rédige un article de presse fictif sur la réaction d' Edward Snowden après sa victoire à l' élection présidentielle américaine de 2020 (le texte en surbrillance est généré automatiquement). Bien que Snowden n'ait jamais été élu à une fonction publique (au moment de la génération), l'exemple produit est grammaticalement et stylistiquement correct.

Grâce à l'étendue de son ensemble de données et à sa technique, GPT-2 était capable d'effectuer diverses tâches au-delà de la simple production de texte : répondre à des questions, résumer et même traduire entre langues dans divers domaines spécifiques, sans recevoir d'instructions autres que celle de prédire le mot suivant dans une séquence[14],[15].

Ainsi, GPT-2 avait la capacité d'effectuer une traduction automatique d'assez bonne qualité entre le français et l'anglais[2].

Malgré un corpus d'entrainement loin d'être optimisé pour cette tâche (il bénéficiait d'un corpus de texte français environ 500 fois plus petit que celui des autres modèles), GPT-2 surpassait plusieurs modèles de traduction automatique non supervisée sur le corpus de test français-anglais. Ce résultat restait néanmoins inférieur à celui de la meilleure approche non supervisée contemporaine (2019)[2].

architecture nombre de paramètres données d'entraînement
GPT-1 Décodeur Transformer à 12 niveaux et 12 têtes (sans encodeur), suivi d'un softmax linéaire. 0,12 milliard BookCorpus[6] : 4,5 Go de texte, provenant de 7000 livres non publiés de genres variés.
GPT-2 GPT-1, mais avec une normalisation modifiée 1,5 milliard WebText : 40 Go[19] de texte, 8 millions de documents, provenant de 45 millions de pages Web ayant reçu des votes positifs sur Reddit.
GPT-3 GPT-2, mais modifié pour permettre une plus grande mise à l'échelle. 175 milliards 570 Go de texte brut, 300 milliards de jetons de CommonCrawl, WebText, Wikipédia en anglais et deux corpus de livres (Books1 et Books2).

GPT-2 a été suivi de GPT-3, un modèle à 175 milliards de paramètres et révélé au public en 2020[24] (dont le code source n'a jamais été rendu public). L'accès à GPT-3 se fait exclusivement via les API proposées par OpenAI et Microsoft[25]. Les modèles suivants GPT-4 et GPT-5 ne sont pas non plus Open Source.

Références

[modifier | modifier le code]
  1. « gpt-2 » [archive du ], sur GitHub (consulté le )
  2. a b c d e et f Radford, Wu, Child et Luan, « Language models are unsupervised multitask learners », OpenAI, vol. 1, no 8,‎ (lire en ligne [archive du ], consulté le )
  3. a et b Vincent, « OpenAI has published the text-generating AI it said was too dangerous to share » [archive du ], The Verge, (consulté le )
  4. a et b (en) « GPT-2: 1.5B Release » [archive du ], OpenAI, (consulté le )
  5. a et b « Better Language Models and Their Implications » [archive du ], OpenAI, (consulté le )
  6. a b c et d (en) « Geoffrey Hinton Picks GPT2 over ChatGPT! » Accès libre, sur Youtube
  7. a b et c Radford, Narasimhan, Salimans et Sutskever, « Improving Language Understanding by Generative Pre-Training » [archive du ], OpenAI, (consulté le ), p. 12
  8. a b c d et e Hern, « New AI fake text generator may be too dangerous to release, say creators » [archive du ], The Guardian, (consulté le )
  9. Vaswani, Shazeer, Parmar et Uszkoreit, « Attention is All you Need », Advances in Neural Information Processing Systems, Curran Associates, Inc., vol. 30,‎ (lire en ligne)
  10. Olah et Carter, « Attention and Augmented Recurrent Neural Networks », Distill, vol. 1, no 9,‎ (DOI 10.23915/distill.00001, lire en ligne [archive du ] Accès payant, consulté le )
  11. Quach, « Roses are red, this is sublime: We fed OpenAI's latest chat bot a classic Reg headline » [archive du ], The Register, (consulté le )
  12. « The Staggering Cost of Training SOTA AI Models » [archive du ], Synced, (consulté le )
  13. Wiggers, « Google open-sources framework that reduces AI training costs by up to 80% » [archive du ], VentureBeat, (consulté le )
  14. a b c et d Vincent, « OpenAI's new multitalented AI writes, translates, and slanders » [archive du ], The Verge, (consulté le )
  15. a et b Piper, « An AI helped us write this article » [archive du ], Vox, (consulté le )
  16. a et b Vincent, « AI researchers debate the ethics of sharing potentially harmful programs » [archive du ], The Verge, (consulté le )
  17. Gokaslan, Cohen, Pavlick et Tellex, « OpenGPT-2: We Replicated GPT-2 Because You Can Too » [archive du ], Noteworthy, (consulté le )
  18. Johnson, « OpenAI releases curtailed version of GPT-2 language model » [archive du ], VentureBeat, (consulté le )
  19. a et b (en) Murati, « Language & Coding Creativity | American Academy of Arts and Sciences », www.amacad.org, (consulté le )
  20. Vincent, « There's a subreddit populated entirely by AI personifications of other subreddits » [archive du ], The Verge, (consulté le )
  21. Vincent, « This AI-powered autocompletion software is Gmail's Smart Compose for coders » [archive du ], The Verge, (consulté le )
  22. Olson, « AI Dungeon 2, the Text Adventure Where You Can do Nearly Anything, Is Now on Mobile » [archive du ], (consulté le )
  23. Ohlheiser et Hao, « An AI is training counselors to deal with teens in crisis » [archive du ], MIT Technology Review, (consulté le )
  24. Arram, « GPT-3: An AI that's eerily good at writing almost anything » [archive du ], Arram Sabeti, (consulté le )
  25. (en) Hao, « OpenAI is giving Microsoft exclusive access to its GPT-3 language model », MIT Technology Review,‎ (lire en ligne [archive du ], consulté le ) :

    « "The companies say OpenAI will continue to offer its public-facing API, which allows chosen users to send text to GPT-3 or OpenAI’s other models and receive its output. Only Microsoft, however, will have access to GPT-3’s underlying code, allowing it to embed, repurpose, and modify the model as it pleases." »

Articles connexes

[modifier | modifier le code]

Liens externes

[modifier | modifier le code]