Dans le contexte actuel axé sur les données, les données synthétiques acquièrent en pertinence. La demande grandissante à l’égard de données riches et détaillées permettant de concevoir des modèles plus précis, compte tenu notamment des avancées constantes sur le plan de la technologie et de la puissance de traitement, entre en conflit avec les contraintes liées à la confidentialité des données, à la conformité réglementaire et à la disponibilité des données dans ce secteur hautement réglementé. Les données synthétiques constituent une solution prometteuse pour combler cette lacune. Celles-ci offrent la possibilité à la fois de maintenir la confidentialité des données des titulaires de police en protégeant l’information sensible et de permettre aux actuaires de générer des ensembles de données de plus grande envergure.
En quoi consistent les données synthétiques et pourquoi sont-elles importantes?
[Traduction libre] « Les données synthétiques sont des renseignements annotés que génèrent des simulations informatiques ou des algorithmes à titre de solution de rechange aux données réelles. Bien qu’elles soient artificielles, les données synthétiques représentent les données réelles sur le plan mathématique ou statistique. »
Cet article traite du potentiel de transformation des données synthétiques générées par l’intelligence artificielle, des risques associés à leur utilisation, de leurs applications pratiques et de la façon de les créer dans le contexte actuariel. À mesure que notre secteur intègre la transformation numérique, il peut être très utile pour les professionnels et professionnelles de l’actuariat, de comprendre les données synthétiques et d’en tirer parti pour accroître l’efficacité de leurs modèles.
Considérations liées à la confidentialité
Les considérations liées à la confidentialité, qui se traduisent par des restrictions quant à la façon dont on peut utiliser ces données, constituent l’un des facteurs les plus importants incitant à recourir aux données synthétiques. À titre d’exemple, des données historiques – des renseignements personnels ou de nature délicate recueillis antérieurement – pourraient avoir été obtenues en vertu d’un consentement dont le libellé n’autorisait ni explicitement implicitement l’entraînement d’un modèle à partir de cas d’usage ou d’une loi sur la protection de la vie privée qui pourrait limiter la façon de transférer les données ou la destination du transfert.
Dans un tel cas, les ensembles de données synthétiques pourraient constituer une solution qui permettrait d’extraire la valeur des données sans devoir utiliser ni transférer les données elles-mêmes. Des ensembles de données synthétiques bien construits devraient pouvoir conserver l’essentiel des liens statistiques des ensembles de données sous-jacents tout en retirant les liens avec des sujets. Dans le cadre de certains régimes de protection de la confidentialité, ces données pourraient ne plus être considérées comme des renseignements personnels, et leur utilisation et leur transfert pourraient ainsi être assujettis à un moins grand nombre de restrictions.
Que font les compagnies d’assurance et de réassurance en matière de données synthétiques?
Les données synthétiques offrent aux assureurs une nouvelle approche à l’égard d’un problème courant, à savoir que « les données peuvent être onéreuses, déséquilibrées, indisponibles ou inutilisables en raison de la réglementation relative à la protection de la vie privée. » Pour résoudre ce problème, les compagnies d’assurance ont toujours eu recours à des techniques moins modernes. Par exemple, dans le cas d’un ensemble de données comportant des identifiants directs (p. ex., nom, adresse, coordonnées), les compagnies pouvaient simplement les retirer. Mais cette méthode, comme d’autres, moins modernes, présente le risque que les données comportent d’autres renseignements quasi identifiables.
Maintenant, les assureurs qui en possèdent les capacités techniques mettent à l’essai des méthodes faisant appel aux données synthétiques. Dans l’exemple ci-dessus, dans lequel un ensemble de données comporte des identifiants directs, certaines compagnies construiraient un nouvel ensemble de données présentant un degré de confidentialité élevé au moyen d’un générateur de données synthétiques faisant appel à l’apprentissage profond.
Il y a plusieurs raisons pour lesquelles ce ne sont pas toutes les compagnies qui le font :
- L’exécution du processus de génération de données synthétiques peut être complexe. Elle nécessite une équipe qui possède une compréhension approfondie de la programmation et de la gestion des données.
- Le processus entraîne une certaine perte de renseignements.
- La génération d’un ensemble de données viable nécessite généralement une source de données très vaste.
Outre les compagnies d’assurance et de réassurance qui agissent de manière autonome, certaines entreprises se spécialisent dans les techniques de génération de données synthétiques. MOSTLY AI, par exemple, propose une plateforme exclusive aux fins de la génération de données synthétiques et fournit aussi du code source ouvert permettant aux utilisateurs de concevoir leurs propres solutions sur mesure.
Des entreprises examinent aussi une autre catégorie de données synthétiques visant à faciliter les essais logiciels ou de canalisation de données en ayant recours à des données synthétiques plutôt qu’à des données de nature délicate. Aux fins de cas d’usage de ce genre, il est possible de générer, au moyen de progiciels, divers types de données réalistes comportant des noms, des adresses courriel et des numéros de téléphone.
La création de données synthétiques
Si les méthodes permettant de générer des données synthétiques sont nombreuses, elles font néanmoins presque toutes appel à des modèles d’apprentissage machine. Dans les cas les plus simples pour des données d’entrée structurées (c.-à-d. des données tabulaires), ces modèles apprennent les propriétés statistiques de l’ensemble de données et génèrent des articles qui les simulent sous forme agrégée. Dans le cas des types de données plus complexes, ces modèles cherchent à comprendre les liens et les structures plus profonds qui existent à même les données. Faisons un parallèle avec des images, par exemple. Un modèle utilisé pour générer des portraits humains synthétiques devrait être en mesure de comprendre la structure, la complexité et la variété des traits du visage humain.
Les images et vidéos générées de manière synthétique sont peut-être « géniales », mais pour la plupart des actuaires, les ensembles de données tabulaires ainsi générés sont applicables plus directement à des cas d’usage dans leur travail courant.
Voici quelques possibilités qui s’offrent aux actuaires qui désirent générer des ensembles de données tabulaires synthétiques. Par exemple, voici quelques progiciels (en anglais) offerts en Python et R :
Le progiciel de la SDV propose quelques méthodes permettant de générer des données tabulaires synthétiques. Le tableau ci-après présente un sommaire des méthodes courantes, ainsi que les points positifs et négatifs.
| Modèle de données synthétiques | Description | Points positifs | Points négatifs |
| Copule gaussienne | Recours à une copule gaussienne pour modéliser des distributions combinées et générer des données synthétiques réalistes. | – Rapide et intuitif – Requiert moins de ressources informatiques | – Difficile de déterminer la dépendance des queues – Difficile de déterminer les relations non linéaires |
| CTGAN (« conditional tabular generative adversarial network ») | Se sert d’un réseau antagoniste génératif (GAN), une technique d’apprentissage profond, pour générer des données synthétiques. | – Capacité de déterminer des interactions plus complexes (non linéaire, queue) – Excellent dans le traitement de types de données mixtes (numériques, catégorielles) | – Plus lent et requiert plus de ressources informatiques – Plus opaque – Pourrait être moins stable – Requiert généralement des ensembles de données plus vastes pour générer des données synthétiques de façon efficace |
| CopulaGan | Technique hybride qui fait usage à la fois des méthodes fondées sur les copules et sur les GAN. | – Plus robuste que les GAN – Moins sujette à l’instabilité pendant l’entraînement que les GAN | – Mise en œuvre et mise au point plus complexes que la méthode standard fondée sur les GAN – Complexe et exigeante sur le plan informatique |
En fin de compte, le choix de l’algorithme dépend du cas d’usage dont il est question, ainsi que de toute contrainte liée à la capacité de calcul, au temps, à la complexité et à la taille des données. On optera pour des méthodes qui reposent sur des techniques statistiques plus classiques, telles que les copules gaussiennes, en cas de contraintes computationnelles ou temporelles ou lorsque l’on recherche une plus grande interprétabilité quant aux hypothèses sous-jacentes. Lorsqu’il y a moins de contraintes quant aux capacités de calcul, que les données sont disponibles en plus grand nombre et que l’on souhaite modéliser des interdépendances plus complexes, les méthodes fondées sur les GAN ou d’autres méthodes s’appuyant sur l’apprentissage profond pourraient être mieux adaptées.
En pratique, les contraintes énoncées ci-dessus seront généralement moins évidentes et il conviendra souvent de faire l’essai de plusieurs techniques.
Les risques liés à l’utilisation de données synthétiques
Si le recours à des données synthétiques présente des avantages substantiels, il comporte également des risques importants dont doivent rigoureusement tenir compte les actuaires.
La possibilité de représentation erronée des données réelles, qui survient lorsque les données synthétiques n’arrivent pas à représenter fidèlement les relations, les dépendances ou les variabilités sous-jacentes qui y sont présentes, est l’une des principales préoccupations. Cela peut se produire lorsque le modèle simplifie les tendances, repose sur des données limitées ou de piètres qualités ou est assujetti à des contraintes computationnelles importantes, ce qui donne lieu à des données synthétiques qui généralisent de manière inadéquate ou qui produisent des résultats trompeurs. Une autre forme de représentation erronée qui est également préoccupante consiste à introduire accidentellement, au moyen de données synthétiques, des biais dans un ensemble de données, ce qui peut avoir des répercussions d’ordre éthique et réglementaire. Des biais peuvent aussi être issus des données d’origine et perpétuer ces tendances sous-jacentes par l’entremise des données générées synthétiquement.
En dépit des avantages de l’anonymisation que présentent les données synthétiques, on craint, au sein du secteur, l’éventuelle fuite de renseignements de nature délicate. Cela peut se produire en cas de conception, de révision et de validation inadéquates du processus de génération des données. Les organismes de réglementation des assurances pourraient aussi assujettir à des examens supplémentaires les modèles élaborés à partir de données synthétiques, notamment en exigeant des preuves de l’absence dans ces dernières de discrimination injuste et de biais involontaires. Selon les techniques génératives utilisées, il pourrait s’ajouter une couche de difficulté supplémentaire à l’égard de l’explicabilité et de la transparence, compliquant ainsi encore davantage des modèles issus de l’intelligence artificielle qui pourraient déjà être difficiles à expliquer.
Par conséquent, les actuaires qui envisagent de recourir à ces techniques de pointe dans le cadre de leur travail devraient adopter des cadres de validation rigoureux, être conscients des limites des données synthétiques et prendre des mesures pour atténuer ces risques de manière efficace. Certaines stratégies d’atténuation consistent à effectuer des comparaisons statistiques et des tests de vérification de la performance des modèles pour garantir la fidélité de la représentation des tendances réelles dans les données synthétiques. On peut également soumettre les données synthétiques et les modèles qui en sont issus à des audits visant les biais et l’objectivité, et maintenir la transparence en ce qui concerne les techniques de génération des données.
Quel est l’avenir des données synthétiques?
Il est difficile de prédire où nous mènera l’avenir des données synthétiques. Compte tenu des progrès réalisés dans le domaine de l’intelligence artificielle et des mégadonnées, on pourrait assister à des progrès importants à cet égard à court ou moyen terme. Cela dit, on peut raisonnablement faire les prédictions générales suivantes :
1) Il demeurera difficile de produire des données synthétiques crédibles sans disposer d’une base de données existantes.
Essentiellement, on ne peut rien produire à partir de rien. Il est difficile d’envisager un avenir dans lequel même l’intelligence artificielle la plus avancée serait en mesure de produire des données synthétiques sans s’appuyer sur des renseignements existants.
2) On pourrait utiliser des données synthétiques pour contourner (légalement ou par malveillance) des règlements ou des restrictions stricts encadrant les données.
On pourrait ainsi transférer des données à des tierces parties ou vers d’autres régions et faciliter la collaboration internationale. Cela n’est pas difficile à concevoir puisque cette application a été évoquée par des entreprises spécialisées dans le domaine des données synthétiques[1]. Sans compter que l’on recourt déjà depuis longtemps à des techniques d’anonymisation à cette fin. La grande question n’est pas de savoir « si les assureurs vont utiliser les données synthétiques », mais plutôt « quand » et « la mesure dans laquelle » ils le feront. De plus, la réglementation et les restrictions encadrant les données deviendront vraisemblablement plus strictes. À l’heure actuelle, la plupart des lois visant la protection de la vie privée (p. ex., le Règlement général sur la protection des données de l’Union européenne, ou RGPD) permettent l’utilisation des données synthétiques à condition que la réidentification soit véritablement impossible. Cela demeurera-t-il vrai en ce qui concerne les lois relatives à la protection de la vie privée?
3) Les données synthétiques seront considérées comme une possibilité pour les compagnies d’assurance de partager des données.
Les données synthétiques peuvent permettre le partage ou la mise en commun de sources de données qui, autrement, n’était pas possible (p. ex., le partage de données interorganisationnel à des fins de collaboration dans le cadre de projets). Plusieurs tentatives de partage de données, certaines fructueuses et d’autres pas, ont eu lieu au sein du secteur des assurances. Les données synthétiques permettraient l’anonymisation des renseignements personnels des assurés, ce qui contribuerait à alléger les préoccupations liées à la confidentialité. Cependant, certains facteurs pourraient toujours entraver ces initiatives. Par exemple, les grandes compagnies d’assurance pourraient considérer leurs données (anonymisées ou pas) comme un avantage concurrentiel et refuser de les partager.
Conclusion
Les données synthétiques présentent une possibilité d’innovation prometteuse pour les actuaires et les assureurs. Elles permettent en effet de créer des ensembles de données riches et respectueux de la vie privée et ainsi de résoudre les difficultés liées aux limites des données et aux contraintes imposées par les lois visant la protection de la vie privée. Si l’adoption de ces nouvelles techniques s’accompagne de risques et de complexités, elle constitue néanmoins une avenue prometteuse à explorer, sous réserve de la mise en place de mécanismes de validation et de cadres de gouvernance des risques rigoureux.
Nous croyons que les données synthétiques joueront un rôle important pour ce qui est de favoriser la collaboration en matière de données et l’innovation dans le secteur des assurances. Il importe toutefois de reconnaître que la qualité et la crédibilité des données synthétiques reposent toujours sur les ensembles de données sous-jacents et que leur utilisation demeurera façonnée suivant l’évolution du paysage réglementaire. L’intégration judicieuse des données synthétiques présente assurément des avantages substantiels pour les actuaires et pour l’ensemble du secteur des assurances.
À propos des auteurs et de l’autrice
Harrison Jones, ASA, est directeur de la gestion de portefeuille chez Ecclesiastical Insurance à Toronto. Il possède une expérience de 10 ans en actuariat et en science des données.
Bernice Lim, FICA, FSA, est directrice au sein du cabinet d’actuariat d’Oliver Wyman et compte plus de 10 ans d’expérience dans le domaine de l’assurance vie et des rentes, travaillant avec des assureurs dans des domaines tels que la modélisation actuarielle et l’analyse axée sur les données.
Tristan Walsh travaille comme scientifique des données dans l’équipe d’analytique intégrée de Munich Re pour l’Amérique du Nord, où il utilise des méthodes de science des données pour soutenir le secteur des assurances. Il possède un baccalauréat en physique de l’Université McGill et est membre de la Society of Actuaries (SOA).
Cet article présente les opinions des auteurs et autrice et ne constitue pas un énoncé officiel de l’ICA.