key: cord-0807775-ccox3yoc authors: Djidjou-Demasse, Ramsès; Selinger, Christian; Sofonea, Mircea T. title: Épidémiologie mathématique et modélisation de la pandémie de Covid-19 : enjeux et diversité date: 2020-10-31 journal: Rev Francoph Lab DOI: 10.1016/s1773-035x(20)30315-4 sha: 670d9d308c2766df8e6ff8593f8f1764a4cad72c doc_id: 807775 cord_uid: ccox3yoc During the COVID-19 pandemic, the field of mathematical epidemiology experienced an exceptional production and media coverage of its work. Even though data and knowledge on the emerging disease were patchy, a wide variety of models were developed and applied in unprecedented timeframes, with the aim of estimating the reproduction number, the starting date of the epidemic or the cumulative incidence, but also to explore different scenarios of non-pharmaceutical interventions. Their results have made a major contribution to epidemiological surveillance and informed public health policy decisions. Fin décembre 2019, un cluster de cas de pneumonies atypiques d'étiologie inconnue est détecté à Wuhan, en Chine centrale. En l'espace d'un mois, non seulement l'agent pathogène, le coronavirus Sars-CoV-2, sera identifié et séquencé [1, 2] mais les cinétiques relatives à l'histoire naturelle de la maladie respiratoire qu'il cause, telle la période d'incubation, seront-elles aussi estimées [3] . Dans le même temps, des approches statistiques essayant d'inférer la taille de l'épidémie à partir du nombre limité de cas détectés sont mises en ligne [4] . Deux mois plus tard, à la mi-mars 2020, alors que l'Organisation mondiale de la Santé vient de qualifier de pandémique la propagation planétaire de la Covid-19, des simulations portant sur les leviers comportementaux de limitation de la transmission -qualifiées d'interventions non pharmaceutiques -explorent des scénarios d'incidence et de mortalité au Royaume-Uni avec un horizon de près de deux ans [5] . L'impact scientifique, politique et médiatique de ces modèles est sans précédent dans l'histoire de l'épidémiologie des maladies infectieuses [6] . L'histoire occidentale des sciences fait habituellement remonter l'emploi de modèles mathématiques comme réponse à une question de santé publique au travail du médecin/physicien/mathématicien suisse Daniel Bernoulli (1700 -1782) sur la variolisation [7] . Cette pratique importée d'Asie, où elle est attestée plusieurs siècles auparavant, consistait en l'inoculation prophylactique de la variole prélevée sur des cas peu sévères. Avec une espérance de vie à l'époque de moins de 27 ans, et une létalité de la variole estimée à 8 %, il n'était pas trivial que la variolisation systématique au jeune âge, non dénuée de risque, puisse présenter un bénéfice collectif substantiel. En utilisant une approche rigoureuse combinant la théorie, alors jeune, des équations différentielles et des données issues de la cohorte de Halley, Daniel Bernoulli estima un gain moyen de plus de trois années d'espérance de vie, apportant ainsi un argument quantitatif étayé dans un débat jusqu'alors essentiellement verbal et formulant au passage le souhait « que dans une question qui regarde de si près le bien de l'humanité, on ne décide rien qu'avec toute la connaissance de cause qu'un peu d'analyse et de calcul peut fournir ». À l'image de cet exemple fondateur, l'épidémiologie mathématique contemporaine fournit un cadre de raisonnement adapté, manipulable et réfutable pour l'étude de la propagation des maladies infectieuses, là où l'intrication des différents processus (physiopatholo-gie, transmission, politiques sanitaires) est un obstacle à l'intuition et à l'argumentation qualitative. En outre, elle permet d'apporter des éléments de réponse à des problèmes pour lesquels les approches empiriques courantes (par exemple : tests in vitro, essais contrôlés) sont limitées (par le temps, l'espace, l'éthique), sinon impossibles. Tout comme ces dernières, qui y parviennent par contrainte ou randomisation, une approche par modélisation doit, pour être significative et pertinente, maximiser la part expliquée de la variance d'un système qui présente intrinsèquement de nombreux degrés de libertés. C'est pourquoi tout modèle est par essence une simplification arbitraire du phénomène étudié dont le choix est gouverné par la ou les questions auxquelles il est censé répondre. Elles relèvent généralement d'un des trois grands objectifs suivants : ◗ la description, ◗ la compréhension ◗ la prévision. Pour les illustrer dans le contexte des travaux portant sur la Covid-19, citons respectivement ◗ l'estimation de sa létalité [8] , ◗ l'existence de cas antérieurs au début de la vague épidémique [9] , ◗ la dynamique d'une hypothétique seconde vague selon différents scénarios de contrôle [10] . Une typologie plus détaillée des objectifs des modèles peut être caractérisée au moyen de deux axes, ainsi que représenté en figure 1. Le premier porte sur la Toute analyse statistique est l'application d'un modèle. L'omniprésence de ces approches dans la littérature biomédicale explique peut-être pourquoi la modélisation qui sous-tend les tests d'hypothèse ou l'estimation de risques relatifs ne connaît pas la même réticence que les modèles dynamiques évoqués dans les prochaines sections. Pourtant, les régressions appliquées à des données longitudinales, reposent tout autant sur des hypothèses d'ordre mécanistique ou cinétique, comme les risques proportionnels (indépendants du temps) dans la régression de Cox classique. De la même façon, afin de s'affranchir d'hypothèses trop stringentes et potentiellement non vérifiées, des généralisations sont possibles, à condition de disposer de suffisamment de signal pour identifier des paramètres supplémentaires. Dans la pandémie de Covid-19, les analyses statistiques ont été décisives dans l'inférence précoce -malgré la qualité hétérogène des données et leur nombre limitédes paramètres qui régissent la dynamique épidémiologique : le temps d'incubation [11] , l'intervalle sériel [12] , le nombre de reproduction de base [3] , la létalité (stratifiée en âge) [8] , sont pour certains d'un intérêt clinique immédiat (par exemple en identifiant la population pédiatrique à moindre risque de complications respiratoires) [13] , mais sont aussi indispensables à la calibration des autres classes de modèles, sans quoi ces derniers seraient purement qualitatifs. Cette dépendance accorde un rôle pionnier et central à la modélisation statistique et rappelle l'enjeu majeur que représente le recueil de données exhaustives, indépendantes et non biaisées, dans les premières semaines de propagation d'une maladie infectieuse émergente. Citons deux exemples d'analyses statistiques impliquées dans l'estimation de paramètres clés dans la pandémie de Covid-19. Tout d'abord, sa létalité (IFR, infection fatality ratio) stratifiée en âge : plusieurs études [8, 14, 15] se sont par exemple basées sur la mortalité observée parmi les personnes à bord de la croisière du Diamond Princess (en février 2020, au Japon), données qu'il fallait à ce moment-là corriger pour le fait que l'issue de la maladie (guérison ou décès) n'était pas encore connue pour tous les cas. L'autre exemple est le médiatique nombre de reproduction, noté R. Ce nombre moyen de cas secondaires par cas primaire, qui quantifie le potentiel de propagation de l'épidémie, a été notamment estimé par l'algorithme EpiEstim [16, 17] . Cette méthode repose sur la maximisation de la probabilité d'observer autant de nouveaux cas connaissant l'incidence passée, sous l'hypothèse que R soit resté constant sur la période estimée. Sa définition prospective a l'avantage de pouvoir détecter les changements récents dans le régime de transmission d'une épidémie encore en cours (pour laquelle le nombre de cas causés par la dernière cohorte d'infectés n'est pas encore connu L'étude de la dynamique épidémique de la Covid-19 nécessite de faire appel à une ou plusieurs variables structurantes : le temps absolu, l'âge des hôtes, l'âge de leurs infections, leur statut immunologique, etc. Le temps est essentiel puisqu'il soustend la description des variations continues de ces systèmes appelés dynamiques, majoritairement formalisés sous forme d'équations différentielles ordinaires (EDO) [18] . Plus rarement, le temps peut être considéré discontinu (à l'instant des données quotidiennes), le système prenant alors la forme de suites récurrentes [10] . L'un des processus clés dans la propagation d'une épidémie est la force d'infection (la vitesse à laquelle un hôte sensible devient infecté). Dans sa modélisation la plus simple, dite SIR, de Kermack et McKendrick [19] , la population d'hôte est répartie en trois compartiments : les individus sains susceptibles d'être infectés S, les individus infectés contagieux I et les retirés R (guéris immunisés ou décédés). Hors maladie vectorielle, on suppose que l'infection se propage par contact direct entre individus sains du groupe S et individus infectés du groupe I, et que l'incidence résultante est proportionnelle au produit des deux densités : c'est la loi d'action de masse. Ne nécessitant que deux paramètres, cette approche a pu s'ajuster avec succès sur des données d'incidence telles que celles de la peste à Bombay entre 1905 et 1906 [19] . La contagiosité d'un individu atteint du Sars-CoV-2 affecte la propagation épidémique et varie en fonction d'un autre âge, celui de l'infection, c'est-à-dire du temps écoulé depuis que cet individu est infecté [20] . Cette variable permet de prendre en compte la « mémoire » d'une infection chez une personne infectée, par opposition aux modèles dits markoviens (comme celui de Bernoulli et une grande partie des modèles encore produits actuellement), dont la probabilité par unité de temps de survenue d'un événement (c'est-à-dire un taux, au sens strict du terme), par exemple une guérison, est indépendante du temps déjà écoulé. Dans le cas de l'épidémie de Covid-19 en France, la prise en compte de cet effet a notamment permis de capturer relativement tôt la dynamique piquée de la première vague [10] , un aspect qui peut s'avérer opportun dans la gestion des capacités hospitalières. Cette mémoire de l'infection peut être prise en compte suivant deux formalismes. Le premier est un formalisme discret qui consiste à stratifier la progression de l'infection chez un individu en plusieurs compartiments successifs [10, 15] . Le second est un formalisme continu qui consiste à considérer l'âge de l'infection comme une variable structurante continue [21] , le système dynamique est alors régi par des équations aux dérivées partielles (EDP). L'apparition du Sars-CoV-2 dans une population sans immunité préexistante a conduit de nombreux pays à appliquer des mesures sanitaires (confinement, port du masque, dépistage et traçage de contact) afin de contenir l'épidémie le temps du déploiement d'une solution pharmaceutique. Les premiers modèles mécanistiques ont exploré les meilleures stratégies d'implémentation de contrôle sanitaire [22, 23] . Ces modèles faisaient l'hypothèse d'une population homogène -par exemple sans prise en compte d'une structure d'âge de la population -et ne prenaient pas explicitement en compte la mémoire de l'infection comme dans certains modèles développés par la suite [10, 15, 21] . Les modèles dynamiques déterministes, qu'ils reposent sur des équations différentielles ou aux dérivées partielles, sont faciles à simuler. Leur souplesse autorise l'exploration d'une grande diversité de scénarios, tandis que de nombreux outils théoriques et numériques permettent de les exploiter à des fins analytiques (trouver une formule permettant d'exprimer le nombre de reproduction en fonction des autres paramètres en présence) et statistiques ( Le processus de contagion est de nature aléatoire à toutes les échelles. De la liaison d'une particule virale à la surface d'une cellule humaine au conditionnement de l'information génétique répliquée, de l'excrétion de nouveaux virions à la transmission d'un second individu, du comportement individuel à la mobilité dans une population, tous ces facteurs privilégiant l'émergence d'une épidémie sont le fruit d'une longue chaîne d'événements aléatoires, de probabilités variables et plus ou moins indépendants de la survenue des autres. Les modèles mathématiques en épidémiologie se sont pendant longtemps intéressés davantage à la valeur moyenne de ces facteurs, négligeant leurs fluctuations. Pourtant, l'approche stochastique offre deux avantages majeurs. D'abord, elle permet d'intégrer les informations relatives à la variabilité des paramètres Le nombre de reproduction R représente le nombre moyen d'infectés secondaires qu'un cas contamine au cours de sa période de contagiosité. Il est souvent dit « de base » et désigné par R 0 en début d'épidémie, en absence de mesure sanitaire et lorsque l'ensemble de la population est immunologiquement naïve pour la maladie considérée. L'épidémie est en croissance si et seulement si R est supérieur à 1. Dans le cas général, l'estimation de R au jour t se fait par le ratio de l'incidence du jour, c t , par les incidences des jours précédents, c t-s , pondérés rétrospectivement par leur intervalle sériel w s. Ce dernier peut être vu comme la contribution relative de chaque jour post-infection au potentiel total de contagiosité sur toute la durée infectieuse, soit Cette expression est particulièrement pratique en épidémiosurveillance dans la mesure où elle ne nécessite pas de modéliser explicitement l'histoire naturelle de la maladie et s'applique aussi lorsque la trajectoire épidémique n'est pas exponentielle (par exemple lorsque de nouvelles mesures sanitaires sont mises en place). En revanche, cet estimateur est sensible aux variations de l'effort de détection des cas sur la période considérée. Une autre relation remarquable impliquant le nombre de reproduction est issue du modèle classique SIR, qui suppose une durée de contagiosité distribuée exponentiellement et de moyenne D. Si T est le temps de doublement, c'est-à-dire la durée au bout de laquelle l'incidence double, alors Cette relation formalise le fait qu'à durée de contagiosité constante et connue, le nombre de reproduction permet aussi d'estimer la cinétique de l'épidémie. On notera en particulier que la relation inversement proportionnelle entre l'écart à 1 du nombre de reproduction et le temps de doublement implique que l'arrivée d'un pic épidémique peut être considérablement repoussée par une baisse modeste du nombre de contacts, pour les maladies infectieuses de nombre de reproduction proche de 1. À l'inverse, un léger relâchement collectif de mesures préventives ayant maintenu jusqu'alors une épidémie sous contrôle peut engendrer un rebond rapide. Le cas de la circulation de la Covid-19 en France au cours de l'été 2020 est une illustration de cet effet. Deux expressions remarquables du nombre de reproduction basés sur les processus de branchement ont été mis en avant pour étudier l'efficacité du traçage et de l'isolement au début de l'épidémie, quand l'évènement de branchement n'est pas limité par un manque d'individus susceptibles [27] . En particulier, ces modèles suggèrent que le traçage électronique nécessiterait une fraction importante d'utilisateurs pour que l'épidémie devienne sous-critique. L'approche stochastique est particulièrement indiquée lorsqu'un paramètre clé du processus infectieux (tel le nombre de reproduction individuel) présente une forte variance parmi les cas et que l'on souhaite quantifier l'impact de cette hétérogénéité sur la dynamique épidémiologique, en particulier dans les contextes où les effectifs sont faibles (initiation ou extinction de l'épidémie, propagation locale). Le développement de modèles à compartiments (systèmes dynamiques) préconise une sous-division de la population étudiée par catégorie de contribution épidémiologique équivalente (selon le statut infectieux, selon l'âge, le sexe… ◗t La modélisation fournit un cadre de raisonnement formel, manipulable et réfutable pour l'étude de la propagation des maladies infectieuses. ◗t Les enjeux de la modélisation résident dans la compréhension des épidémies passées, la quantification d'une dynamique en cours, et l'anticipation de la trajectoire à venir. ◗t La modélisation statistique constitue la pierre angulaire de l'épidémiologie mathématique d'une maladie infectieuse émergente, sur les lesquelles reposent les autres méthodes (dynamiques déterministes, probabilistes, individus-centrés). ◗t Le dialogue permanent entre les modèles et le terrain stimule la recherche en maladies infectieuses en orientant le recueil de données et en suggérant de nouvelles hypothèses à tester. ◗t La modélisation permet d'explorer des scénarios inaccessibles à l'expérience et peut ainsi éclairer la prise de décision en santé publique, sous réserve d'une multiplicité de résultats indépendants compatibles avec les données empiriques. A new coronavirus associated with human respiratory disease in China The species Severe acute respiratory syndrome-related coronavirus : classifying 2019-nCoV and naming it SARS-CoV-2 Early Transmission Dynamics in Wuhan, China, of Novel Coronavirus -Infected Pneumonia Estimating the potential total number of novel Coronavirus cases in Wuhan City, China. imperial.ac.uk/mrcglobal-infectious-disease-analysis/covid-19/covid-19-reports/;2020 janv Impact of nonpharmaceutical interventions (NPIs) to reduce COVID-19 mortality and healthcare demand. imperial.ac.uk/mrc-global-infectious-disease-analysis/covid-19/covid-19-reports/; 2020 p Special report : The simulations driving the world's response to COVID-19 Essai d'une nouvelle analyse de la mortalité causée par la petite Vérole, et des avantages de l'Inoculation pour la prévenir Estimates of the severity of coronavirus disease 2019 : a model-based analysis Stochasticity and heterogeneity in the transmission dynamics of SARS-CoV-2 Epidemiological monitoring and control perspectives : application of a parsimonious modelling framework to the COVID-19 dynamics in France. medRxiv Incubation Period and Other Epidemiological Characteristics of 2019 Novel Coronavirus Infections with Right Truncation : A Statistical Analysis of Publicly Available Case Data Serial interval of novel coronavirus (COVID-19) infections Intensive care management of coronavirus disease 2019 (COVID-19) : challenges and recommendations Estimating the infection and case fatality ratio for COVID-19 using age-adjusted data from the outbreak on the Diamond Princess cruise ship Estimating the burden of SARS-CoV-2 in France A New Framework and Software to Estimate Time-Varying Reproduction Numbers During Epidemics Improved inference of time-varying reproduction numbers during infectious disease outbreaks Modeling infectious diseases in humans and animals Contributions to the mathematical theory of epidemics, part 1 Quantifying SARS-CoV-2 transmission suggests epidemic control with digital contact tracing Age-structured non-pharmaceutical interventions for optimal control of COVID-19 epidemic. medRxiv Optimal COVID-19 epidemic control until vaccine deployment Optimal control of the COVID-19 pandemic with non-pharmaceutical interventions Inferring R 0 in emerging epidemics-the effect of common population structure is small Early dynamics of transmission and control of COVID-19 : a mathematical modelling study Beyond R0 : Heterogeneity in secondary infections and probabilistic epidemic forecasting. medRxiv A model of COVID-19 propagation based on a gamma subordinated negative binomial branching process : A tool for decision making with small populations Impact of non-pharmaceutical interventions (NPIs) to reduce COVID19 mortality and healthcare demand. 2020 mars A stochastic agent-based model of the SARS-CoV-2 epidemic in France Covasim : an agent-based model of COVID-19 dynamics and interventions. medRxiv An agent-based epidemic model REINA for COVID-19 to identify destructive policies | medRxiv COVID-ABS : An agentbased model of COVID-19 epidemic to simulate health and economic effects of social distancing interventions Designing social simulation to (seriously) support decision-making : COMOKIT, an agent-based modelling toolkit to analyse and compare the impacts of public health interventions against COVID-19 Limited containment options of COVID-19 outbreak revealed by regional agent-based simulations for South Africa. ArXiv200405513 Phys Q-Bio