Aussi stimulante que soit l’IA pour le RSSI, l’entreprise est confrontée à plusieurs défis liés à l’utilisation de l’IA au bureau. Principale préoccupation : les informations contenues dans les requêtes de GenAI deviennent partie intégrante de l’ensemble des connaissances des grands modèles de langage (LMM).
Auteur : Christophe Auberger, Cybersecurity Evangelist de Fortinet France
Parmi les autres problèmes courants figurent la violation des droits d’auteur, la divulgation d’informations personnelles identifiables, l’utilisation inconnue de données biaisées ou répréhensibles et les « hallucinations » de l’IA, qui sont des résultats désinvoltes, vraisemblables mais manifestement erronés.
De nombreuses organisations avancent avec prudence dans leur utilisation de la GenAI ; dans la plupart des cas le personnel ne comprend pas les raisons de ce rythme délibéré et ne voit pas les garde-fous numériques qui sont mis en place. Ils s’habituent à utiliser la GenAI dans leur vie privée et à l’expérimenter de manière indépendante sur le lieu de travail. La GenAI est devenue la dernière forme d’informatique fantôme à laquelle les RSSI et les DSI doivent faire face.
Bonnes pratiques en matière de GenAI
Il faut envisager de tirer parti de l’IA, mais en faisant preuve de clairvoyance. Étudier le marché et travailler avec des fournisseurs dont l’engagement en matière de sécurité correspond à ses besoins sont les deux premières étapes pour y parvenir. Les RSSI et DSI qui doivent mettre en œuvre des solutions GenAI, devraient utiliser l’une des options suivantes :
● Exécuter un modèle fondamental dans un environnement privé afin que les données d’entraînement et les résultats restent séparés, en échange d’une partie de l’étendue et de la puissance des données LMM dynamiques « en direct » et de l’assurance que vos requêtes n’exposeront pas les données sensibles de votre organisation à des personnes extérieures.
● Utiliser la génération augmentée par extraction qui utilise des données externes validées pour affiner la précision des modèles fondamentaux sans leur fournir de données d’entraînement supplémentaires. Cette approche réduit les risques en matière de sécurité et de précision.
● Appliquer la prévention de la perte de données (Data Loss Prevention – DLP) en tant que filtre sur les données introduites dans les LMM publics.
● Discuter avec son fournisseur de GenAI et adapter ses cas d’utilisation en gardant à l’esprit la sécurité des données et en examinant les paramètres de confidentialité et de sécurité. Pouvez-vous interdire l’enregistrement de vos données ? Pouvez-vous le faire manuellement ? Sur une base temporelle ? Pouvez-vous exécuter des requêtes avec des données anonymes ?
● Dans le cas d’utilisation d’applications tierces ou de fournisseurs de logiciels en tant que service (SaaS) qui ont intégré la GenAI dans leurs outils, poser les mêmes questions et déterminer comment ils protègent les données et les résultats :
- Incorporer des contrôles d’accès stricts, en limitant l’utilisation d’ensembles de données spécifiques aux utilisateurs autorisés.
- Utiliser des technologies de protection de la vie privée avec l’obscurcissement des données (ajout de « bruit » (noise) ou suppression des détails d’identification – anonymisation), le traitement crypté des données (cryptage homomorphique, calcul multipartite sécurisé), l’analyse fédérée/distribuée sur des données centralisées (les processeurs ne peuvent pas voir le contenu) et les outils de responsabilisation des données (contrôle défini par l’utilisateur).
- Examiner attentivement le volume de données : plus la quantité de données fournies est élevée, plus la probabilité de fuite est grande.
- Former l’équipe qui utilise le modèle GenAI aux bonnes pratiques, à la conformité et aux menaces.
Plusieurs écueils à éviter
L’innovation axée sur l’IA est présente dans tout le paysage technologique, et il appartient aux organisations d’en tirer parti. Alors qu’une course à l’armement en matière d’IA se déroule entre les cyberattaquants et les défenseurs, la cyberdéfense est bien positionnée. Il faut faire confiance en l’innovation qui s’impose d’elle-même, la GenAI en est un exemple concret, et tirer parti de celle-ci en respectant certains pré-requis permet d’éviter plusieurs écueils en matière de cybersécurité.
L’IA générative fait apparaître de nouvelles menaces tournées directement contre les modèles eux-mêmes. Les grands modèles de langage sont vulnérables à des attaques spécifiques (injection directe, jailBreaking, empoisonnement des données d’apprentissage lors du réglage fin, déni de service par requêtes complexes, vol du modèle, etc) qui peuvent permettre de visualiser des données internes (instructions, règles de filtrage, etc.) ou même permettre un accès aux données d’apprentissage, y compris celles personnelles. Il est donc nécessaire de protéger les modèles eux-mêmes par des approches diverses comme celles présentées ci-dessus.
J’ajouterais enfin : la sensibilisation des utilisateurs aux notions de surconfiance et de confabulation, ainsi que la mise en place d’une équipe (interne et/ou externe) de RAI (Responsible AI) assurant un rôle de contrôle et vérification du modèle par des approches de red teaming.