Menu
Accueil
Envoyer à un ami
Version imprimable
Augmenter la taille du texte
Diminuer la taille du texte
Partager

Et si la sécurité de l'IA s'apprenait par la santé ?


Le Samedi 20 Juin modifié le Mardi 30 Novembre



OpenAI a peut-être découvert un raccourci pour rendre l'IA plus sûre. Les chercheurs ont découvert que l'entraînement de modèles sur des situations humaines réalistes n'améliorait pas seulement le comportement dans ces scénarios spécifiques, mais les rendait également plus performants dans des tâches complètement différentes. La surprise : un modèle entraîné uniquement sur des interactions liées à la santé est devenu plus résistant au chantage, à la déception et au piratage de récompenses dans des domaines qu'il n'avait jamais vus auparavant. Encore plus intéressant, OpenAI a supprimé les données de santé et de science de l'entraînement, mais le modèle a tout de même obtenu de meilleurs résultats dans les évaluations de santé. Cela suggère qu'il ne mémorisait pas des règles, mais qu'il apprenait des habitudes plus générales telles que vérifier les faits avant de faire des affirmations, admettre des erreurs, résister à la manipulation et éviter les raccourcis intelligents. Le résultat était une IA plus difficile à pousser vers un comportement nuisible tout en restant utile lorsqu'on lui donnait des instructions légitimes. En d'autres termes, OpenAI pourrait avoir trouvé un moyen d'enseigner des principes aux modèles, et pas seulement des règles.



Source : https://fr.articlophile.com/blog/i/97051989/et-si-...