L'intelligence artificielle générative (IA) est extrêmement prometteuse dans de nombreux secteurs et disciplines. Cependant, comme toute nouvelle technologie puissante, elle apporte également de nouveaux risques en matière de sécurité. Prenons quelques instants pour nous plonger dans le paysage émergent des menaces liées à l'IA générative, en nous concentrant spécifiquement sur les domaines de la sécurité des données et des systèmes. Cet article de blog souligne également la manière dont les organisations peuvent adopter ces outils en toute sécurité, même en tenant compte de ces risques.
En quoi l'IA générative est-elle différente ?
Pour comprendre comment l'IA générative modifie le paysage des menaces, nous devons d'abord examiner en quoi ces nouveaux systèmes diffèrent des systèmes traditionnels qui ont constitué l'épine dorsale des systèmes de la chaîne d'approvisionnement au cours des 50 dernières années. Les cinq principales différences sont les suivantes :
- Les outils et pratiques de sécurité pour l'IA générative sont encore en cours de maturation, par rapport aux technologies déjà disponibles pour les bases de données. Les vulnérabilités en matière de sécurité des bases de données, telles que l'injection SQL, sont bien comprises, après des décennies d'attention. Les développeurs sont largement formés à ces menaces et des outils d'audit robustes sont intégrés dans les pipelines CI/CD. Cependant, l'aventure de l'IA générative ne fait que commencer, avec une modélisation des menaces et des outils encore émergents.
- L'IA générative permet d'obtenir des informations inédites, plutôt que de se contenter d'extraire des documents. Alors que les bases de données renvoient des données qu'elles ont précédemment stockées, éventuellement avec des transformations ou des calculs, l'IA générative synthétise de nouvelles données sur la base de son apprentissage. C'est un peu comme si un analyste générait des idées plutôt qu'un employé de bureau qui récupère des documents.
- Les langages de programmation formels sont prévisibles et sans ambiguïté, contrairement aux nuances et à l'ambiguïté présentes dans le langage naturel utilisé par l'IA générative. Les bases de données utilisent des langages formels, tels que SQL, qui s'appuient sur une syntaxe formelle et comprise pour accéder aux données. Une instruction SQL donnée, dans le contexte des données déjà stockées, produira toujours le même résultat. Cependant, l'IA générative utilise le langage naturel "de tous les jours" - avec toutes ses nuances et ses ambiguïtés - pour toutes les entrées et sorties. Comme deux personnes qui négocient un contrat, des malentendus peuvent survenir entre les humains et les applications d'IA. En outre, les résultats de l'IA générative ne sont pas déterministes, ce qui signifie que des entrées identiques peuvent produire des résultats différents en termes de formulation, d'énoncé ou de signification.
- L'IA générative peut manquer de traçabilité et de capacités d'audit, alors que les bases de données sont soumises à des contrôles plus stricts. Grâce aux bases de données, les utilisateurs autorisés peuvent facilement vérifier les données stockées et en retracer l'origine. En revanche, les modèles d'IA générative stockent les connaissances dans un réseau neuronal, sous une forme incompréhensible pour la plupart des gens. En outre, il n'existe actuellement aucune technique robuste permettant de vérifier les "connaissances" acquises par les modèles génératifs d'IA ou les biais potentiels de leurs données d'apprentissage.
- L'IA générative dispose actuellement de moins de contrôles d'accès aux données que les bases de données. Les bases de données sont dotées de solides contrôles d'autorisation qui régissent l'accès aux données. Toutefois, l'IA générative ne dispose pas actuellement de tels contrôles intégrés. Les utilisateurs authentifiés peuvent accéder à toutes les données.
L'examen des différences entre les systèmes traditionnels et l'IA générative révèle de nouvelles vulnérabilités en matière de sécurité et des mesures d'atténuation nécessaires, qui peuvent être classées dans trois domaines clés : La protection des données sensibles, la sécurisation des systèmes et des données contre les utilisations malveillantes, et la gestion adéquate des agents d'IA et des plug-ins.