Valoriser les données des administrations fiscales dans un contexte de transformation numérique : l’exemple de la Mauritanie
La République Islamique de Mauritanie est engagée depuis 2017 dans une réforme profonde des finances publiques. Pour cela, la Direction générale des impôts (DGI) de Mauritanie est accompagnée par le Programme d’Appui à la Gouvernance Financière et Administrative (PAGFAM), financé par l’Union européenne et mis en œuvre par Expertise France.
Quelles sont les bonnes pratiques data à mobiliser pour moderniser l’administration fiscale ? Comment le projet DATAFID a-t-il aussi contribué à ce projet de coopération internationale antérieur et a permis d’accélérer la montée en compétences de la DGI ?
Retour sur l’accompagnement croisé d’experts en transformation numérique et data intervenant sur le programme PAGFAM et le projet DATAFID depuis 2021.
1. Moderniser les pratiques de l’administration fiscale mauritanienne par le déploiement du numérique et la formation des agents
En 2021, l’entrée en vigueur de la loi organique relative aux lois de finances (LOLF) a introduit des notions de performance et de résultats en matière de gestion des finances publiques et de mobilisation des recettes fiscales. Ceci a engagé la Direction générale des impôts (DGI) dans la mise à niveau de son outil de travail et la pleine exploitation des données dont elle dispose pour en tirer tout le potentiel : mieux piloter son activité, connaître les segments d’usagers, gérer les recettes, détecter la fraude, anticiper l’évolution de l’assiette, etc.
Cette dynamique de modernisation de la DGI est soutenue depuis plusieurs années par différents programmes financés par l’Union européenne et la France. Le PAGFAM, mis en œuvre par Expertise France, est le dernier en date (voir ci-après pour plus d’informations sur les programmes).
Le PAGFAM a autorisé la tenue de plusieurs audits pour servir les objectifs de modernisation. Les experts mandatés dans ce cadre ont notamment analysé les domaines fonctionnels supportés par le système d’information (SI) de la DGI mauritanienne, et identifié dans ce cadre le potentiel des données gérées en son sein. Le SI repose sur l’outil Jibaya, une solution propriétaire dédiée aux missions d’une DGI et qui a pu être expérimentée dans différents pays africains. Déployée dans les différents services, elle permet à la DGI de remplir une très grande partie de ses missions opérationnelles depuis la gestion des contribuables, jusqu’au recouvrement en passant par la déclaration. Certaines fonctions sont disponibles en ligne ou en cours de mise en oeuvre (télédéclaration, quittance, télépaiement, etc).
Outre la nécessaire modernisation technique du SI, l’étude a souligné l’importance d’une vision centrée sur la data. La DGI a été encouragée à la développer, notamment avec l’élaboration d’un tableau de bord de suivi des activités et d’aide à la décision. La construction de cet outil doit privilégier une approche souveraine en s’appuyant sur l’utilisation de briques open-source aisément maintenables par l’équipe DSI.
Dans ce contexte, un premier constat s’est rapidement imposé. La construction d’un tableau de bord de pilotage de l’activité de l’administration fiscale impose de déployer une culture de la donnée au sein de la DGI.
Au regard du projet piloté par Expertise France, l’enjeu est de permettre à chaque direction d’identifier et mettre en forme les indicateurs pertinents, en adéquation avec leurs objectifs métiers spécifiques. En d’autres termes, il s’agit de passer d’une logique rigide et peu évolutive (production de rapports périodiques et incomplets à partir de l’outil Jibaya) à une approche étendue et dynamique reposant sur la co-construction d’un outil de pilotage avec les équipes de la DGI.
Par ailleurs, dans le cadre du projet DATAFID, les équipes de la DGI ont été amenées à suivre des modules de formation dispensés autour des outils et techniques de data-science. L’objectif était de transmettre aux agents la culture de la data afin qu’ils soient autonomes dans l’exploitation et l’alimentation du tableau de bord. Ils ont pour cela été formés à la mise en qualité et au traitement des données grâce au langage Python et à la visualisation des données via l’outil Apache Superset, disponible sur le datalab DATAFID. Les experts ont également exploré plusieurs cas d’usages avec la DGI, avec une attention particulière portée au suivi des recettes et à l’orientation des contrôles fiscaux grâce à des modèles d’analyse-risques basés sur les techniques de datascience acquises lors des formations.
Pour en savoir plus sur les formations et travaux pratiques assurés dans le cadre du projet DATAFID, prenez connaissance de la datastory sur le sujet : https://datalab.datafid.world/article/datastory_formations_tp
Le contexte DGI, aiguillé par le projet DATAFID et le programme PAGFAM, est donc aujourd’hui extrêmement favorable à une approche centrée sur la data. Cette dernière repose sur le développement d’outils et méthodes basés sur le traitement des données et la datavisualisation, et cela à des fins de pilotage stratégique et d’aide à la décision.
💡 Quel est l’intérêt de tester l’orientation par une approche cas d’usage ? L’exemple de l’élaboration d’un tableau de bord
L’élaboration d’un tableau de bord est un exercice pratique qui met en valeur différents concepts :
- indicateurs : entre données brutes, données calculées, indicateurs ultimes, il convient d’identifier et mettre à disposition les différentes dimensions qui ont une valeur opérationnelle ou stratégique et qui pourront servir à piloter efficacement l’activité en regard d’objectifs concrets ;
- datavisualisation : à travers un “tableau de bord”, il s’agit de mettre en relief les indicateurs clefs selon une forme adaptée et synthétique pour les différents publics et faciliter la prise de décision. Ici, au sein de la DGI, on pourra mieux suivre l’activité des départements à travers certaines informations structurantes telles que les obligations fiscales des contribuables (gel de NIF des contribuables, avis à tiers détenteurs, délai de traitement des contentieux, etc.), les déclarations (taux de déclaration, types de déclaration, montant global sur une période donnée, etc.) ou encore les recettes (taux de recouvrement, etc.) et ce, au regard des objectifs définis dans la loi de finance (ces objectifs concernent à la fois les seuils de recettes à atteindre, mais aussi l’amélioration des relations entre la DGI et les contribuables).
- science des données : la science des données vient appuyer les tableaux de bord et porte en corollaire des objectifs d’analyse et de “reporting” pour une communication ciblée à l’intention des décideurs. Il s’agit d’affirmer la vision et d’assurer la prise de décision.
2. Assurer la souveraineté du système d’information de la DGI en s’appuyant sur une solution open-source
En coopération avec les différentes directions métiers, les experts PAGFAM ont souhaité mettre en place une première version d’un tableau de bord afin de démontrer la faisabilité de l’approche et son intérêt pour les services de la DGI. Pour cela, ils ont procédé en plusieurs étapes :
Définition du périmètre d’étude et récolte des données
Les données disponibles dans Jibaya ont tout d’abord été collectées sur une profondeur d’un an (2022), anonymisées et agrégées afin de de disposer d’un socle de données de test. Sur cette base, il était convenu de construire un prototype, première version d’un outil de pilotage, ayant vocation à être mis à l’épreuve des métiers et permettant de se projeter dans une utilisation régulière d’un tableau de bord.
Co-définition des indicateurs avec les directeurs des services
Une série d’entretiens menés avec les différents secteurs de la DGI ont permis de comprendre leurs besoins et attentes en matière d’indicateurs et d’envisager les possibilités d’améliorer leur travail au quotidien. Il s’agissait également de recueillir leurs premières impressions sur les notions d’indicateurs, de tableaux de bord et de reporting. Cette étape était utile pour affiner la visualisation des données à une échelle plus stratégique.
Présentation de la démarche au Directeur Général
Une “version Béta” du tableau de bord a été soumise à l’appréciation du DGI avec pour objectif d’échanger sur l’utilité des indicateurs et d’assurer la faisabilité de la démarche d’un pilotage “data centric” basé sur des données réelles et disponibles au sein de l’institution. Concernant la mise en place des tableaux de bord, une double approche était adoptée :
- stratégique : un outil à destination du directeur général et du directeur général adjoint, permettant d’avoir une visibilité objective et quantifiée de l’activité et basée sur des indicateurs structurants (tels que le suivi des immatriculations des entreprises ou le taux de conformité fiscale par exemple) ;
- opérationnelle : des outils pratiques à destination des métiers leur permettant de piloter leur activité en tenant compte de leurs spécificités. Secteur par secteur, il s’agit notamment de suivre le parcours des contribuables, depuis leur immatriculation jusqu’au paiement des impôts. Les indicateurs sont précis (suivi des recettes collectées par rapport aux déclarations, taux de recouvrement des sommes dues, suivi des avis de mise en recouvrement, etc.) et “objectivés” en regard des attentes de la DGI. Ils permettent d’orienter les actions à mener en matière de contrôle et de recouvrement notamment.
Amendement du tableau de bord dans une logique itérative
Une version évoluée du tableau de bord a été construite, fondée sur des exports partiels de jeux de données issus de Jibaya sur la période 2019-2022, et contenant des informations sur :
- les différents segments de contribuables concernés (NIF, direction de rattachement, chiffre d’affaire, etc.)
- les déclarations effectuées (montants, types d’impôts, date de déclaration, date d’échéance)
- les (avis de) mises en recouvrement
- les recours contentieux et amiables et les décisions qui en ont découlé (dégrèvement, majoration, pénalité supplémentaire)
- les quittances
Dans le cadre de l’activité exposée ci-dessus pour assurer la faisabilité de la démarche de pilotage par les données, l’ensemble des données collectées a été nettoyé, mis en qualité et croisé pour produire les indicateurs définis collégialement. Démarche agile oblige, les indicateurs ont été revus et amendés pour répondre aux enjeux métiers de la DGI. À cette fin, un travail a été mené avec les statisticiens de la DGI pour réaliser les analyses et jointures adéquates. Pour exemple, joindre les données autour des numéros de recours (déclarations faisant l’objet d’un recours d’une part et informations liées aux recours en eux-mêmes) permet de pousser les analyses un cran plus avant. En pratique, ceci est réalisé grâce à la fonctionnalité de “tables virtuelles” proposée par l’instance Superset, déployée sur le datalab DATAFID. Ceci illustre les interactions possibles entre DATAFID et PAGFAM, chacune des initiatives venant enrichir l’autre. À titre d’exemple, les données issues de Jibaya peuvent être récupérées en temps réel par Superset pour être automatiquement et virtuellement mises à jour sans altérer les données initiales et en respectant ainsi les schémas créés par les experts PAGFAM après jointures.
Pour en savoir plus sur le datalab, infrastructure open source adaptée aux besoins des pays partenaires de DATAFID, ouverte à de multiples usages et permettant la collaboration et l’apprentissage, prenez connaissance de la datastory sur le sujet : https://datalab.datafid.world/article/datastory_infrastructure_opensource
Dans ce contexte de “test and learn” (apprentissage et amélioration par l’usage), l’adoption d’une approche open-source évite toute dépendance coûteuse et partiellement inadaptée vis à vis d’une solution propriétaire. C’est un moyen d’assurer tout à la fois l’acculturation des différents métiers aux techniques de pilotage par la data et la montée en compétences des équipes, et ainsi assurer une grande autonomie sur cette composante “data analyse” devenue essentielle et partie intégrante des missions de la DGI.
3. Développer un prototype d’intelligence artificielle générative pour la rédaction automatisée de rapports d’analyse et l’interrogation des données
Lors de la présentation de la version bêta du tableau de bord au DGI, celui-ci a émis le besoin d’une fonction supplémentaire consistant en la génération automatique de rapports venant compléter et enrichir les différents indicateurs du tableau de bord. Pour répondre à cette demande, les experts PAGFAM ont développé deux prototypes d’agents conversationnels : Reporter et FileBot.
- ReporterGPT génère de manière automatisée des rapports d’analyse basés sur les indicateurs issus de leur tableau de bord. Il s’agit en quelque sorte de commenter de manière pertinente les valeurs exposées et d’apporter des analyses permettant d’expliciter les données présentées ;
- Le FileBot permet quant à lui d’interroger directement des jeux de données et de faciliter l’analyse pour les agents. L’enjeu principal est d’augmenter l’autonomie des agents dans leurs tâches quotidiennes et leur permettre de les réaliser plus rapidement.
Les experts faisaient face à une double problématique : celle du système permettant de résoudre le problème, c’est-à-dire de répondre à la commande de l’utilisateur, et celle du choix du LLM. La véritable valeur ajoutée de ces prototypes est la création des instructions à fournir au grand modèle de langage (Large Langage Model, LLM) et la transposition des analyses des dashboard en Python (avec la librairie Pandas), utiles pour la résolution de problèmes. Dès lors, les bots pourraient théoriquement être connectés à n’importe quel LLM.
Compte tenu du temps disponible pour développer le prototype, le LLM d’OpenAI, GPT.4, a été retenu. Le système établi permet de procéder à du remote code execution : des instructions et des métadonnées sont fournies au LLM. En réponse, le LLM fournit le code nécessaire pour l’analyse et l’exécuter en local. Ainsi, aucune données fiscales – donc sensibles – ne sont envoyées à OpenAI.
GPT.4 d’OpenAI est une solution temporaire qui a permis de proposer des prototypes fonctionnels en passant outre l’étape d’entraînement et de développement du modèle. Ce n’est pas une solution optimale étant donné qu’il s’agit d’un modèle états-unien qui ne peut être contrôlé. De plus, GPT.4 n’est pas open-source, il est donc impossible de l’héberger sur les serveurs de la DGI. Cette solution ne permet pas non plus de procéder à son fine-tuning (affinage du mode d’apprentissage du modèle). Cependant, cela a permis de répondre au cahier des charges qui était de démontrer la faisabilité d’une telle solution pour répondre aux besoins de la DGI.
💡Qu’est-ce que le fine-tuning d’un LLM ?
Lors de l’utilisation du modèle, des hyperparamètres sont définis. En fonction de ceux-ci, le modèle ne se comportera pas de la même manière. Cela a permis de définir un comportement souhaité.
ReporterGPT et le FileBot sont de véritables proof of concept (POC) servant de base à une étude préalable avant de développer un modèle d’intelligence artificielle générative. Dans l’optique d’une utilisation courante des bots, il sera nécessaire d’opter pour un LLM open-source hébergé sur les serveurs de la DGI, garantissant ainsi la souveraineté de la solution. CodeLlama 70B est une des pistes envisagées et pourrait être facilement fine-tuned après une révision des instructions à lui fournir. Cette solution pourrait ensuite être déployée en complément des tableaux de bord, voire possiblement être mise à disposition sur le datalab DATAFID.
💡Quelles suites pour l’élaboration du tableau de bord ?
Le déploiement de ce premier tableau de bord fait l’objet d’un développement test auprès de deux directions de la DGI qui ont activement contribué à sa mise en place et à la compréhension des enjeux pour les services opérationnels : la Direction des Moyennes Entreprises (DMEN) et la Direction des Grandes Entreprises (DGE).
Après validation de la démarche, le tableau de bord pourra être amendé et élargi à de nouvelles directions, voire à l’ensemble de la DGI, en suivant le même processus : recueil des besoins, co-construction et développement des indicateurs. Sous réserve de faisabilité technique, le tableau de bord pourrait être à l’avenir hébergé sur les serveurs de la DGI et sortir du datalab DATAFID.
Les synergies créées entre deux projets de coopération internationale, PAGFAM et DATAFID, ont permis d’assurer une montée en compétence rapide des agents et le déploiement efficace de solutions fonctionnelles en mesure de répondre aux attentes de la DGI.