Skip links

Datafid – Saison 2, épisode 1

De septembre à décembre 2021, Numéricité est intervenu aux côtés d’Expertise France et de la Direction générale du Trésor pour initier les travaux d’un chantier ambitieux réalisé avec plusieurs pays-pilotes (Côte d’Ivoire, Mauritanie, Niger et Togo) : Datafid.

L’objectif : tirer partie des opportunités liées à l’accroissement des données dans les domaines fiscal et douanier afin d’en améliorer les politiques publiques.


Après la réalisation d’une analyse des cadres juridiques liés aux données, à l’économie numérique et la mobilisation des données, ainsi qu’une première immersion auprès d’administrations de ces 4 pays (voir notre article sur le sujet), une nouvelle étape a été lancée au printemps 2022. L’approche : favoriser l’utilisation des données par les administrations fiscales et douanières en renforçant leurs compétences et capacités en matière de sciences des données. Explorez avec nous les contours du projet et les premières réalisations !


Datafid : pourquoi valoriser les données des administrations fiscales et douanières ?


Datafid, c’est le nom donné à un programme d’ampleur : “DATA pour les Administrations Fiscales et Douanières”. Il se compose de 3 axes stratégiques (voir la fiche projet d’Expertise France pour plus détails) :

  • Axe 1 : mieux mesurer l’économie numérique (statistiques)
  • Axe 2 : Identifier et cerner le potentiel fiscal du numérique (fiscalité)
  • Axe 3 : Mieux valoriser les données disponibles grâce à un usage accru de la science des données

C’est sur l’axe 3 que la suite de notre intervention se concentre. Avec les Instituts nationaux de la statistique, les ministères chargés de l’économie numérique, les Directions générales des douanes et les Directions générales des impôts de la Côte d’Ivoire, de la Mauritanie, du Niger et du Togo, nous identifions les meilleures conditions dans lesquelles il est possible de mener des projets de data-science dans ces administrations et construisons pas à pas les premières solutions. Deux chantiers sont menés en parallèle :

  • La construction de modules de formation autour de la statistique et la science de données, réalisé par la FERDI (Fondation pour les études et les recherches sur le développement international),
  • L’identification de cas d’usage de data-science en vue de développer des premiers prototypes et d’outiller techniquement les administrations : allier compétences techniques et expertise métier, c’est ce que Numéricité maîtrise en matière d’egov !


💡Qu’est-ce que la data-science ou science des données ?

La data-science est une “discipline” qui consiste à produire de la connaissance à partir d’informations, de données, qu’elles soient brutes ou plus structurées. Il s’agit d’utiliser des méthodes mathématiques, statistiques et informatiques pour récupérer des données, les nettoyer, réaliser des traitements multiples (calculs, visualisation, apprentissages) et exploiter les résultats de ces traitements. Il existe aujourd’hui de nombreux métiers liés à la data-science, pour construire des outils de traitement des données, pour optimiser le traitement, le stockage et la circulation des données, pour développer des algorithmes ou des modèles d’apprentissage, et bien sûr pour aider à la décision.

Dans la sphère publique, on détecte assez simplement les bénéfices de cette discipline : mieux connaître le territoire, optimiser la distribution de ressources, décider de l’installation d’infrastructures, détecter des cas de fraudes, etc.

Anecdote : on raconte parfois que la data-science est “née” en Angleterre, lorsque John Snow (à ne pas confondre avec le célèbre héros de Games of Thrones Jon Snow), physicien, a voulu comprendre l’origine de l’épidémie de choléra. En cartographiant l’évolution de l’épidémie à Londres, il s’est rendu compte qu’il existait un lien fort entre les nouveaux cas et leur proximité avec des points d’eau. Ce qui a permis ensuite de mettre en place une politique de santé publique consistant à séparer les infrastructures d’eau (entre consommation et évacuation). En savoir plus par ici.

 

Revenons aux cas de la fiscalité et de la douane.

Ces deux politiques publiques sont productrices et consommatrices de multiples données, par exemple : enregistrement de cargaisons arrivant dans un port, suivi de marchandises, déclarations fiscales, contrôles, etc. Elles sont également sources de revenus pour des États, et de souveraineté, dans la mesure où les recettes fiscales et douanières permettent de financer les actions d’un gouvernement.

Ce sont enfin des domaines dans lesquelles la fraude, la corruption, l’optimisation (voire l’évasion dans le cas de la fiscalité) sont extrêmement présentes. En 2015, un rapport de la Cédéao (Communauté économique des États de l’Afrique de l’Ouest) montrait que la fraude fiscale en Afrique de l’Ouest était supérieure au montant de l’aide au développement reçu. Depuis, la numérisation de certaines procédures a permis d’améliorer et d’augmenter la récupération de recettes.

Afin de poursuivre ces avancées, un investissement plus fort dans le renforcement des capacités des administrations fiscales et douanières a été impulsé. Nous avons initié ce chantier à l’occasion d’une séminaire de 2 jours, qui s’est tenu à Lomé en mai 2022.

 

Retour sur le séminaire 2022 : un temps d’inspiration pour identifier des cas d’usage data auprès des pays bénéficiaires

Les 23 et 24 mai 2022, une quarantaine d’agents des administrations fiscales et douanières de la Côte d’Ivoire, de la Mauritanie, du Niger et du Togo a été réunie à Lomé. En réunissant ce que nous appelons désormais la “communauté Datafid”, l’idée était d’identifier des problématiques communes sur l’accès, la circulation et la valorisation des données, afin d’initier une réflexion sur des cas d’usages concrets en vue de concevoir ensuite des prototypes de premières solutions techniques et méthodologiques pour mettre la donnée au service des recettes fiscales et douanières.

Durant ces deux jours, plusieurs ateliers étaient organisés, en suivant une méthodologie plutôt éprouvée par Numéricité :

  • Un premier temps d’inspiration collective : chacun des participants pouvait décrire, dans l’idéal, ce dont dont elle ou il souhaiterait disposer pour améliorer son quotidien, en lien avec son métier et les données, bien sûr. Cette émulation peut paraître simpliste, mais lorsqu’on décrit ce que l’on souhaite “dans un monde idéal”, cela permet de mieux objectiver l’existant et les problématiques rencontrées. A l’issue de cet atelier, nous avons pu identifier des premiers axes de projets, autour par exemple de la question de l’optimisation du contrôle, de l’amélioration du ciblage de la fraude, et également autour d’outils et de capacités techniques pour valoriser les données.

  • Un deuxième temps d’inspiration extérieure : afin de rebondir sur les problématiques et souhaits de projets identifiés par les participants, nous avons organisé une session de partage d’expérience. Plusieurs projets ont été présentés :
    • La Direction générale des finances publiques (France) a témoigné sur la mise en place de son système (infrastructures et projets) pour valoriser les données fiscales, et lutter contre la fraude
    • La Direction générale des impôts et des douanes du Sénégal a présenté son projet de datalake pour partager et exploiter les données
    • Numéricité a présenté plusieurs projets portés par différentes administrations en France (stratégie API, cadastre minier, détection d’entreprises en difficulté) afin de partager non seulement sur la nature du projet, mais aussi sur les méthodes et les ressources mobilisées pour qu’il crée de l’impact.

La DGID du Sénégal présente son projet de datalake.

  • Un troisième temps d’approfondissement de cas d’usage : les 2 ateliers d’inspiration ont permis de fournir aux participants de la matière pour leur permettre, ensuite, de phosphorer sur des cas d’usage concrets. Nous les avons approfondis durant une matinée, afin de formuler le problème rencontré, identifier l’existant, lister les jeux de données existants ou nécessaires, et commencer à détailler les étapes nécessaires et les éventuels défis techniques. Merci à nos camarades de la Fing, car nous avons utilisé la méthode de la liste des données idéales issue du programme Infolabs pour animer l’atelier !

4 cas d’usage types ont été retenus pour cette séance de travail : prévisibilité des recettes, ciblage de la fraude, échange de données, veille statistique.

En approfondissant ces cas d’usages, nous avons aussi pu parler plus concrètement de sujets techniques : qualité des bases de données, données manquantes, fluidité des outils, compétences nécessaires, etc.

 

La suite pour Datafid ? Mettre en place les conditions techniques et méthodologiques pour développer des cas d’usage data

Grâce au séminaire DATAFID, nous avons pu organiser une forme de convergence entre les administrations, et ces temps d’inspiration et de “prototypage” ont permis aux participants de préparer le terrain pour la suite. En effet, après une analyse plus approfondie des cas d’usages, il nous a alors été possible d’identifier les conditions de faisabilité des projets identifiés, non seulement sur le plan technique (dispose-t-on des outils, infrastructures, ressources nécessaires ?) et sur le plan méthodologique (comment initier des travaux qui seront les plus utiles ?).

La suite ? Nous initions dès l’été une tournée Datafid : des équipes d’experts vont s’immerger dans chacun des 4 pays pour installer du matériel supplémentaire et nécessaire à des projets data-science et pour prototyper des premières briques d’outils d’analyse des données. Le clin d’œil qui nous tient particulièrement à cœur : nous continuons de tisser des ponts entre les administrations francophones, puisqu’il est possible que nous réutilisions certaines briques d’un projet open source, mené par des Entrepreneurs d’intérêt général au Ministère de l’Economie.


Nous vous en dirons plus au prochain épisode, en attendant, si comme nous vous êtes curieux de découvrir la data-science au service des douanes, retrouvez un article passionnant sur des projets menés en France publié sur WCO News


🔗Ressources utiles

 

fr_FRFR