Grosse Sprachmodelle

Auteurs-es

DOI :

https://doi.org/10.18755/iw.2024.3

Résumé

L'article donne un aperçu complet de l'état actuel de la recherche sur l'IA générative, en particulier sur les grands modèles de langage (Large Language Models, LLMs). Il explique l'architecture, l'apprentissage et les capacités émergentes des LLM comme GPT-3. Les grands modèles linguistiques sont basés sur des réseaux neuronaux et sont entraînés sur d'énormes quantités de données textuelles. Ils apprennent ainsi à prédire le mot suivant en se basant sur le déroulement du texte en amont. Il s'agit d'une tâche simple, mais elle permet d'acquérir des compétences linguistiques complexes. Avec l'augmentation de la taille du modèle, les LLM montrent des capacités émergentes inattendues telles que les résumés de textes, les opérations mathématiques ou le raisonnement spatial.

Toutefois, les LLM présentent aussi des faiblesses, comme la tendance à fabuler en cas de lacunes dans les connaissances et le manque de cohérence. Actuellement, les progrès sont rapides grâce à de nouveaux modèles comme GPT-3 et ChatGPT. Les développements futurs devront tenir compte des aspects éthiques. Dans l'ensemble, les grands modèles linguistiques ouvrent des possibilités fascinantes, mais des recherches supplémentaires sont nécessaires. Cet article fournit un aperçu complet des opportunités et des défis de ce domaine technologique en plein essor.

Téléchargements

Les données de téléchargement ne sont pas encore disponible.

Publié

2024-05-06

Comment citer

Handschuh, S. (2024). Grosse Sprachmodelle. Informationswissenschaft: Theorie, Methode Und Praxis, 8(1), 11-29. https://doi.org/10.18755/iw.2024.3