Une IA devient plus habile pour mentir lorsque les experts d’OpenAI essayent de la sanctionner

« À mesure que nous avons formé des modèles de raisonnement frontalier plus performants, nous avons constaté qu’ils sont devenus de plus en plus aptes à exploiter les failles de leurs tâches et les erreurs de spécification de leurs fonctions de récompense, ce qui donne lieu à des modèles capables d’effectuer des piratages de récompense complexes dans les tâches de codage« , ont écrit les chercheurs d’OpenAI dans un article de blog sur leur travail. C’est pourquoi, lors de leurs tests, les chercheurs ont utilisé un autre LLM, GPT-4o, pour surveiller le modèle frontière en leur nom en visualisant sa chaîne de pensée, révélant le fonctionnement de l’IA dans des résumés en langage naturel. « Lors de l’entraînement du modèle d’IA, le punir pour les mauvaises pensées qui apparaissent dans sa chaîne de pensée pourrait permettre de mettre fin à ce comportement inapproprié », ont ajouté les chercheurs.

Author: contact@dailygeekshow.com (DGS)

Published at: 2025-03-30 10:30:00

Still want to read the full version? Full article