View in

Sécurité informatique : ChatSansSeCReT

20 juin, 2023

La vie est devenue plus facile. Avant, quand vous recherchiez une information sur Internet, votre bon vieux moteur de recherche vous donnait tout un tas de réponses. Maintenant, le nouvel outil à la mode c'est « ChatGPT », qui, à partir de son vaste ensemble de données d'entraînement, concocte pour vous une seule et unique réponse, la meilleure qui soit. En manque d’inspiration pour votre candidature au CERN ? Il n’y a qu’à demander. Un formulaire d’autorisation de voyage à remplir illico presto en swahili ? Karibu*. Une lettre d'amour romantique ? Voilà, mon cœur. Un extrait de code à générer pour un logiciel ? {int return(1)}, c’est parti ! Même créer sa « propre » œuvre photographique n'a jamais été aussi simple. Et ce sera bientôt le cas pour les vidéos et la musique. De l’« hypertrucage » (ou deepfake), ça vous tente ?

La vie est bel et bien devenue plus facile... mais au détriment de la clarté. La notion de vérité se brouille face aux réponses de ChatGPT dont la qualité dépend de celle de ses ensembles de données. Il faut se méfier : vos candidatures, lettres d'amour ou codes informatiques ne répondront pas forcément en tout point à vos attentes. Pour évaluer la « vérité » dictée par ChatGPT, il faudra faire appel à votre bon sens, votre intuition et votre intelligence (lire cet article, en anglais).

ChatGPT ne pose pas seulement des problèmes sociologiques, mais aussi des problèmes relevant de la sécurité et de la vie privée. On ne peut rien lui cacher !

Visibilité des données : selon l'entité qui détient la plateforme ChatGPT que vous utilisez, il est possible que tout ce que vous écriviez se fonde dans la masse des données utilisées pour d'autres réponses, révélant ainsi potentiellement des choses confidentielles qui n'auraient pas dû se retrouver dans la sphère publique. Nous savons par exemple que certains développeurs du CERN ont soumis leurs extraits de code à ChatGPT pour que celui-ci y repère des erreurs ; seulement, ces extraits pouvaient très bien contenir des mots de passe et autres informations confidentielles.
Divulgation de données pendant l'entraînement : toutes les IA doivent être entraînées pour pouvoir fonctionner. La phase d'entraînement fait appel à une quantité considérable de données qui peuvent s'avérer sensibles ou dont l’accès peut être restreint. En l'absence de moyens de protection adéquats, lorsque l'IA mélange différents ensembles de données d'entraînement appartenant à plusieurs entités, sans séparer ces entités, il est possible que vos données tombent dans la sphère publique, entre les mains de ces autres entités ou entre celles d'autres utilisateurs très ingénieux. Ce ne serait pas la première fois que les données d'une entreprise fuitent à cause d'une mauvaise protection des données (lire cet article, en anglais).
Fuite des données : même si vous avez protégé la confidentialité de vos données d'entraînement, il y aura toujours des petits malins capables de poser les bonnes questions à ChatGPT afin d'extraire certaines informations.
Droits d’auteur : il est possible que les données d'entraînement et les résultats obtenus reposent sur des documents protégés par des droits d'auteur. Juridiquement, la question de savoir si les créations artistiques et les contenus sonores ou vidéo que vous avez obtenus grâce à ChatGPT sont sujets à des droits d'auteur, et si vous devriez verser une rétribution aux propriétaires de toutes les œuvres réemployées, est aujourd'hui encore floue (lire cet article, en anglais).
Désinformation : il arrive qu’après la manipulation des données d’entraînement par un assaillant (ou simplement un entraîneur d’IA inexpérimenté), les résultats obtenus s’avèrent incorrects ou biaisés (lire cet article et celui-ci, en anglais).

Triche : enfin, au grand dam des écoliers et des étudiants, ChatGPT est l'arme parfaite pour fournir des résultats qui ne sont pas les vôtres. Cette peinture n'est pas la vôtre. Ces devoirs ne sont pas les vôtres. Cet article n'est pas le vôtre. S’il peut être encore difficile aujourd’hui de déterminer la véritable origine d’un travail, avec le temps, nous découvrirons peut-être que certains auteurs ont fait du plagiat.

Rappelons-nous aussi que ChatGPT est, comme tout autre logiciel disponible sur le Cloud, exposé aux mêmes risques de sécurité et d'atteinte à la vie privée, et a besoin des mêmes moyens de protection (contrôle de l'accès, mises à jour et maintenance active des systèmes, cryptage et protection des données, sauvegarde et récupération des données, surveillance et identifiants de connexion, etc.).

En conclusion, ChatGPT a son lot d'avantages et pourrait bien changer la donne dans le domaine des technologies de l’information, mais, comme toute nouvelle technologie, il s'accompagne aussi de certains risques liés aux droits d'auteurs, à la vie privée et au SeCReT (voir ici, en anglais). Assurez-vous que le jeu en vaille la chandelle !

* « Karibu » : mot swahili qui correspondrait en français à « n’hésitez pas » ou « je vous en prie ».

_____

Pour en savoir plus sur les incidents et les problèmes en matière de sécurité informatique au CERN, lisez notre rapport mensuel (en anglais). Si vous souhaitez avoir plus d’informations, poser des questions ou obtenir de l’aide, visitez notre site ou contactez-nous à l’adresse Computer.Security@cern.ch.

Computer Security