Newsletter juillet — Programme 10%

Programme 10% – Newsletter du mois de juillet 2023

Rejoindre le programme 10%

Lancé en 2022, le programme 10%, porté par la Dinum en lien avec l’Insee, est une collaboration inédite entre experts publics de la donnée et de l’IA sur des projets d’intérêt commun. Intégrer la communauté 10%, c’est aussi monter en compétence, échanger entre pairs et partager des moments informels autour de valeurs communes.

En 2023, 8 projets font l’objet d’une collaboration :
Transformers : une IA open-source pour l’analyse de texte par les administrations.
ChartsGouv : l’outil de datavisualisation des données de l’État.
Datanonyme : l’outil pour aider les administrations à anonymiser leurs données.
FormIAble : l’outil pour aider les administrations à extraire des informations de documents difficilement exploitables.
Cartiflette : un outil facilitant la réalisation de cartes géographiques grâce à la récupération de fonds de cartes produits par des acteurs publics.
Impact environnemental : former à l’impact environnemental et mesurer celui des projets 10%.
PoufDoc : l’outil pour aider les administrations dans leur production récurrente de rapports.
Trouver mon expert data (TED) : le moteur de recherche les experts de la data de l’État par organisations, missions et compétences.

Vous êtes un expert de la data/IA en poste au sein de l’Etat ? Vous avez envie de rejoindre un de ces projets ? Vous avez une idée de projet d’intérêt commun répliquable à d’autres ministères ?

Contactez-nous : 10pourcent.dinum@modernisation.gouv.fr
Pour en savoir plus : https://www.10pourcent.etalab.gouv.fr/

Portraits 10%

Chaque mois, la newsletter du programme 10% vous fait découvrir les parcours de participants. Serena Gruarin (photo à droite) et Nathalie Four (photo à gauche) sont data scientists au ministère de l’Europe et des Affaires étrangères. Leur mission : acculturer les agents du ministère à la data. Leur point commun : mettre leur talent au service de l’intérêt général.

Quel est votre parcours ?
Nathalie : J’ai commencé par un master d’économétrie et statistique puis un master 2 spécialisé en data science. La data science m’a tout de suite passionnée. C’était déjà un domaine en plein essor. Ce master n’a fait que confirmer mon appétence pour la data science que j’avais déjà découvert lors d’un stage à l’Institut National de la Santé et de la Recherche Médicale.

Serena : J’ai commencé mes études supérieures par une double-licence économie et droit car mon coeur balançait entre les deux. J’ai même pensé à faire l’Ecole nationale de la magistrature. Mon choix s’est fixé en L3 quand j’ai découvert l’économétrie. En me renseignant, j’ai découvert que les débouchés étaient très variés, pour quelqu’un qui ne savait pas vraiment dans quel domaine travailler, c’était une opportunité! Je me suis donc tournée vers un master économétrie statistique et c’est là que j’ai entendu pour la 1ère fois le terme de data science.

Comment êtes-vous arrivées dans le public ?
Nathalie : Le public m’a toujours attirée, j’avais déjà fait un stage dans le public. Servir l’intérêt général est ce qui a déterminé mon choix.

Serena : Mon choix s’est fait un peu par hasard, après un stage dans le domaine de l’énergie. Je suis tombée sur une offre d’apprentissage au ministère de l’Europe et des Affaires étrangères. Cette offre d’apprentissage a attiré mon attention, la plupart des offres étaient proposées dans les secteurs de la banque ou des assurances. Pouvoir travailler sur des données publiques avec tous leurs enjeux, c’était un vrai challenge. Nathalie avait besoin d’un apprenti et m’a recruté. Après une année, j’ai intégré le ministère en tant que contractuel.

C’est quoi le quotidien d’un data scientist au Ministère de l’Europe et des Affaires étrangères ?
Nathalie : L’intégration des data scientists au MAE en est encore à ses prémices. Notre mission est essentielle : faire connaitre la data science aux agents du ministère, montrer l’étendue des possibles, bien identifier les besoins. Nous sommes les deux seules data scientists.

Serena : Nous avons intégré le bureau en charge du SIRH à un moment où la DRH a eu la volonté d’exploiter justement les nombreuses données qui s’y trouvent. Un grand challenge au quotidien réside dans le fait d’acculturer nos collègues aux données et de récolter leur besoin qui pourraient éventuellement être comblés par la data science. Nous sommes entourés et travaillons au quotidien auprès des agents dits du « métier ».

Quel est le projet sur lequel vous travaillez actuellement en interne ?
Serena : Depuis début janvier, je travaille sur un projet qui s’éloigne de la data science « pure »mais qui me permet de découvrir un rôle qui se rapproche d’un MOE et d’un data engineer ce qui est très intéressant. Au sein du bureau du dialogue social, je travaille à la construction d’une base de donnée sociale. L’idée est de récupérer les données puis les mettre en forme pour pouvoir calculer des indicateurs RH.

Nathalie : De mon côté, je travaille à développer une filière donnée au sein du ministère avec l’objectif de montrer aux agents l’étendue des possibilités ouvertes en matière de donnée. Des projets de valorisation de données sont également en cours à travers des tableaux de bord RH à destination des directions.

Qu’est-ce vous aimez dans votre métier ?
Nathalie : Faire parler les données, c’est tout l’intérêt de mon métier. Les données donnent un état des lieux qui est indispensable à toute réflexion. Par ailleurs, parler avec une multiplicité d’interlocuteurs, directement travailler avec les métiers c’est enrichissant.

Serena : Dans la data science en général, le fait que ce soit un métier pluridisciplinaire. Ayant toujours eu peur de la routine, le fait que ce métier puisse s’exercer dans différents secteurs m’a également beaucoup attiré.

Pourquoi avez-vous rejoint le programme 10% ?
Nathalie : Nous sommes seulement deux au MAE. Le programme 10%, c’était pour nous l’occasion de rencontrer d’autres data scientists issus de différents ministères, maintenir nos compétences data et découvrir de nouveaux outils comme le SSP cloud qui nous est directement utile.

Serena : Quand on a entendu parlé de ce programme, on a tout de suite été très enthousiastes. Notre manager nous a également beaucoup encouragé à rejoindre cette communauté. Pour ma part, avec mon projet en interne qui s’éloigne de la data science, le programme 10%, c’est l’opportunité pour moi de ne pas perdre en compétence.

Quel est le projet auquel vous participez dans le programme 10 % ?
Nathalie : Nous travaillons sur le projet « Génération de documents word ». L’idée est de produire des rapports de manière automatique. Actuellement, la production de rapport word est très chronophage pour les administrations. Le but du projet est de leur permettre de mettre à jour leurs données par un simple clic.

Serena : Pour illustrer le projet par un cas concret, on peut prendre l’exemple du rapport social unique que les ministères doivent élaborer chaque année. D’une année à l’autre, les données changent et donc les graphiques, mais le format reste identique. Grâce au projet, on pourra facilement actualiser le rapport et rendre le métier autonome.
Par ailleurs, l’équipe 10% est intéressante car on a une pluralité de profils (dev, data analyst, data scientists) et de ministères (DITP, Ministère de la justice, MAE).

Vous êtes deux femmes dans un univers de data scientists majoritairement masculin, quel est votre regard sur la place des femmes dans la data ?
Serena : Ce n’est pas pas forcément une difficulté. Les choses évoluent positivement et le monde de la data s’ouvre de plus en plus. Quand j’étais en L3 et que je regardais les promotions précédentes de mon master, il y avait 3 femmes sur 30 élèves. Aujourd’hui, les femmes représentent 50% des effectifs.

Nathalie : Au MAE, on est les 2 seules femmes data scientists, autant dire un taux de 100% de représentation féminine !

Zoom sur un projet 10% : Datanonyme

Rédaction : Lucie Clemot, participante 10% au projet datanonyme

Dans le contexte actuel de multiplication de jeux de données contenant des éléments à caractère sensible, l’Etat cherche à diffuser plus de données. Ceci semble paradoxal, mais ne l’est pas en réalité : ces jeux de données représentent des leviers clés pour encourager l’exploitation et la réutilisation par une pluralité d’acteurs, ainsi que pour favoriser la transparence de l’action publique. Cependant, la publication de ces bases de données ne peut être possible que si elles sont anonymes. On entend ici anonyme selon la définition de la CNIL, qui assure une protection complète des données sensibles aux individus.

Les trois critères d’anonymisation selon la CNIL sont les suivants : la non-individualisation, la non-inférence, et la non-corrélation.

Le premier, la non-individualisation, est à l’incapacité d’un attaquant à identifier un individu parmi le jeu de données, ou à retrouver à quel individu une ligne du jeu de donnée correspond. Le deuxième, la non-inférence, représente l’incapacité d’un attaquant à prédire un attribut d’un individu présent dans la base de données. Le troisième, la non-corrélation, représente un risque lié aux jeux de données disponibles en ligne ou en vente auprès de courtiers en donnée. Il s’agit de l’incapacité d’un attaquant, en exploitant ces données externes, à réidentifier un individu du jeu initial, ou à inférer un attribut d’un de ces individus.

L’enjeu d’être capable de bien anonymiser les données est double. D’abord, les usagers, à travers des plateformes telles que data.gouv.fr, pourront bénéficier d’une plus grande diversité de jeux de données et sauront que leurs données personnelles sont mieux protégées.

Cet enjeu est aussi au cœur des préoccupations des administrations. En effet, certains acteurs du service public portent au sein de leurs engagements le partage de données en toute sécurité, tandis que d’autres manipulent des données sensibles en interne et souhaiteraient pouvoir opter pour la version anonymisée de ces données.

C’est dans ce contexte et pour répondre à cet enjeu double que l’idée est arrivée de consacrer un projet du programme 10 % à la question de l’anonymisation. Ce projet, depuis appelé datanonyme, avait initialement pour vocation de créer un outil capable d’anonymiser n’importe quel jeu de données tabulaire. L’ambition de ce projet a depuis évolué dans une direction plus ad-hoc : il s’agit maintenant de co-construire un outil adapté aux besoins respectifs de tous les participants du projet et de leurs administrations respectives.

Il existe déjà des solutions techniques pour répondre au besoin décrit, cependant, elles sont parfois onéreuses, souvent des boîtes noires, et répondent à des cas d’usages trop spécifiques. Cependant, il existe des outils qui quantifient la qualité d’une anonymisation, avec entre autres deux outils libres qui ont été approuvés par la CNIL : anonymeter et querysnout.

D’un point de vue technique, l’outil se constitue de deux volets. Le premier correspond à l’anonymisation en tant que telle, et le deuxième en une approche adverse, qui en tentant de défaire l’anonymisation (en utilisant les critères de la CNIL), vient quantifier la performance(soit la qualité) de l’anonymat. En réunissant ces deux volets, nous chercherons à optimiser la qualité de la donnée statistique tout en maintenant le secret statistique.

Il existe un certain nombre de méthodes d’anonymisation qui ont fait leurs preuves mathématiques. Dans l’ensemble, la stratégie consiste à prendre du recul sur les données (il y a donc nécessairement une perte d’information), tout en conservant une diversité suffisante des attributs des points de données (pour éviter que l’inférence sur un nouvel individu soit trop simple). Lorsqu’il s’agit de données numériques, il existe de nombreuses stratégies pour bruiter les données. Enfin, des modèles plus sophistiqués basés sur les probabilités existent aussi pour protéger des données.

Nous avons étudié différentes idées pour implémenter l’approche adverse sur les trois critères de la CNIL. Entre autres, l’étude des points trop particuliers (appelés outliers) permet d’estimer le risque d’identification. De plus, la performance de modèles de classification ou de régression de variable sensible entraînés sur la donnée brute d’une part et anonymisée d’autre part permet de révéler un axe de comparaison pour le critère d’inférence. Le critère de corrélation, lui, est plus dur à étudier de manière systématique.

Pour les membres du projet Datanonyme, l’intérêt de ce projet est multiple. Tout d’abord, nous avons tous et toutes à y gagner en terme d’expertise sur le sujet. De plus, développer un outil libre représente une réelle occasion de rattraper le retard du service public sur les problématiques d’anonymisation.

L’administration recrute !

L’ecolab recherche 3 profils data sciences :
– Un(e) data analyst.
– Un(e) Lead Data analyst.
– Un(e) Data ingénieur(e) confirmé(e).
La direction centrale de la police judiciaire recherche un data scientist.
Le ministère de l’Intérieur recherche un chef de projet data analyst.
La DGFIP recherche un data scientist sur les données fiscales.
La DGCCRF recherche un data scientist.
La direction numérique des ministères sociaux recherche un data manager.

Le coin lecture

Une série de guides produits par Etalab pour tous ceux qui sont amenés à produire, collecter ou utiliser des données, codes sources de logiciel ou algorithmes.
L’Inspection générale des finances, conjointement avec le Conseil général de l’économie a rendu public le rapport relatif aux RH de l’Etat dans le numérique Il propose 5 actions :
👉 Un choc de simplification du recrutement, avec 3 500 postes à créer en 5 ans
👉 Un choc d’attractivité pour les jeunes, y compris les apprentis et stagiaires
👉 Un choc de fidélisation pour faciliter les parcours de carrière au sein du numérique public
👉 Un choc de mutualisation avec la création de centres de compétences de haut niveau
👉 Un choc dans l’organisation du travail pour offrir des conditions attractives correspondant aux attentes

Appel à idées ?

Pour la prochaine newsletter du programme 10%, nous faisons appel à vous !
Vous avez un projet data et IA au sein de la sphère publique à valoriser, une formation utile à la communauté, un événement, des actus, des conseils de lecture … Faites-nous le savoir : 10pourcent.dinum@modernisation.gouv.fr

Pour recevoir les prochaines newsletter du programme 10%, inscrivez-vous ici