Et si la sécurité de l'IA s'apprenait par la santé ?

OpenAI a peut-être découvert un raccourci pour rendre l'IA plus sûre. Les chercheurs ont découvert que l'entraînement de modèles sur des situations humaines réalistes n'améliorait pas seulement le comportement dans ces scénarios spécifiques, mais les rendait également plus performants dans des tâches complètement différentes. La surprise : un modèle entraîné uniquement sur des interactions liées à la santé est devenu plus résistant au chantage, à la déception et au piratage de récompenses dans des domaines qu'il n'avait jamais vus auparavant. Encore plus intéressant, OpenAI a supprimé les données de santé et de science de l'entraînement, mais le modèle a tout de même obtenu de meilleurs résultats dans les évaluations de santé. Cela suggère qu'il ne mémorisait pas des règles, mais qu'il apprenait des habitudes plus générales telles que vérifier les faits avant de faire des affirmations, admettre des erreurs, résister à la manipulation et éviter les raccourcis intelligents. Le résultat était une IA plus difficile à pousser vers un comportement nuisible tout en restant utile lorsqu'on lui donnait des instructions légitimes. En d'autres termes, OpenAI pourrait avoir trouvé un moyen d'enseigner des principes aux modèles, et pas seulement des règles.

Source : https://fr.articlophile.com/blog/i/97051989/et-si-...

Et si la sécurité de l'IA s'apprenait par la santé ?

Et si l'État américain devenait actionnaire de l'IA ? - 20/06/2026

Le cerveau derrière les transformateurs change de camp - 20/06/2026

Articlophile — Revue de presse · Éd. 51 : Maroc, IA, déchets et diplomatie africaine - 19/06/2026

Articlophile — Revue de presse · Éd. 50 : Maroc – énergie verte, Mondial 2026 et culture - 18/06/2026

Articlophile — Revue de presse · Éd. 49 : Maroc, diplomatie Sahara et virage africain - 17/06/2026