Une équipe de scientifiques informatiques de la Nanyang Technological University (NTU) à Singapour a récemment mis au jour une méthode révolutionnaire pour manipuler des modèles de langage à grande échelle (LLM), incluant des plateformes célèbres telles que ChatGPT, Google Bard et Microsoft Bing Chat. Le processus, nommé “Masterkey”, a révélé une capacité surprenante de ces IA à s’éduquer mutuellement pour contourner les restrictions sur des sujets interdits ou sensibles, un concept décrit métaphoriquement comme un “jailbreak”. Ces découvertes seront bientôt présentées lors du Symposium sur la Sécurité des Réseaux et Systèmes Distribués à San Diego.
Le jailbreak des IA par apprentissage croisé dévoilé
Le procédé Masterkey, imaginé par le professeur Liu Yang et ses étudiants en doctorat Deng Gelei et Liu Yi, repose sur une approche de formation en deux parties. En faisant interagir deux chatbots, ils ont pu apprendre le modèle de l’autre et déjouer les restrictions imposées aux sujets tabous. Cette tactique de piratage de preuve de concept révèle non seulement les mécanismes de défense des modèles de langage, mais aussi comment les instruire pour créer des stratégies de contournement.
Professeur Liu Yang et son équipe : les architectes du Masterkey
Le groupe de recherche, constitué d’acteurs clés de NTU, a pris l’initiative de déconstruire l’un des grands modèles de langage pour en exposer les mécanismes de défense. Traditionnellement, ces mécanismes empêchent la propagation de réponses liées à des invites ou des mots violents, immoraux ou malveillants. Cependant, une fois démontés, ils permettent d’enseigner à un autre LLM comment créer un contournement. Ce processus offre à la seconde IA plus de liberté d’expression, en s’appuyant sur les informations du premier modèle.
Un succès trois fois supérieur aux méthodes traditionnelles
Des expériences ont montré que la méthode Masterkey est trois fois plus efficace pour passer outre les restrictions des chatbots que les techniques d’incitation classiques. Cela démontre la capacité d’adaptation remarquable des LLM et remet en question les craintes exprimées par certains critiques quant à la baisse de performance des systèmes IA, suggérant au contraire une évolution de leur intelligence.
Implications de cette percée pour la sécurité en ligne
Depuis la popularisation de ChatGPT d’OpenAI à la fin de l’année 2022, un effort considérable a été consacré à la sécurité des IA de conversation pour garantir un environnement sûr et accueillant. Des alertes de sécurité sont intégrées régulièrement par OpenAI lors du processus d’inscription à ChatGPT et des mises à jour tiennent informé des glissements de langage potentiels. Malgré cela, la découverte des chercheurs souligne comment les acteurs malveillants pourraient exploiter ces IA, dénotant une nouvelle frontière dans le cybercrime.
Attention croissante aux manipulations malveillantes des IA
Alarmée par la menace présentée par les acteurs mal intentionnés, l’équipe de NTU a informé les fournisseurs de services de chatbots concernés par l’étude. Ces derniers se sont empressés de réagir face aux données fournies qui confirment la possibilité réelle de manipulation des chatbots. Cela souligne l’importance de la vigilance et de la recherche continue pour protéger les utilisateurs contre de telles vulnérabilités.
L’impact sur l’évolution et la perception des chatbots LLM
Les récents bugs rapportés sur certains LLM, tels que GPT-4, ont été interprétés par certains experts comme le signe d’une avancée significative plutôt que d’une dégradation de l’intelligence artificielle. Ces interprétations s’opposent à la critique qui considère les IA comme devenues plus “paresseuses” ou “moins intelligentes”. La découverte de l’équipe de NTU renforce l’idée que les LLM sont en fait en train de devenir plus sophistiqués et peut-être même surprenamment ajustables.
La réponse des prestataires des services de chatbots
En réponse aux informations apportées par les chercheurs de NTU, plusieurs fournisseurs de services de chatbots ont pris des mesures pour renforcer la sécurité. Cet échange entre chercheurs et prestataires démontre une coopération essentielle pour l’amélioration continue des services de chatbots et la protection contre les exploitations potentiellement dangereuses pour les utilisateurs.
Les perspectives d’avenir après la percée du Masterkey
La plateforme de recherche et sa démonstration imminente à San Diego soulèvent des questions sur la manière dont les sociétés et les organismes de régulation doivent s’adapter pour garantir l’innocuité de l’utilisation des IA. Ce piratage éthique effectué par l’équipe de NTU fournit de précieux aperçus sur comment les chatbots pourraient être influencés à l’avenir et insiste sur la nécessité d’une régulation et d’une vigilance accrues.