key: cord-0291263-tqwu223j authors: Baudoin, Lesya; Glanard, Anne; Maddi, Abdelghani; Mescheba, Wilfriedo; Sachwald, Fr'ed'erique title: Analyse scientom'etrique du domaine de l'infectiologie de 2000 `a 2020 date: 2022-02-15 journal: nan DOI: 10.4000/hrc.6620 sha: 6bc0d965e082ced068e421a73ea9ac72622c1f15 doc_id: 291263 cord_uid: tqwu223j Research on infectious diseases constitutes a transversal scientific field. A specific corpus is designed by combining a controlled language (Medline MeSH thesaurus) and the categorization of journals (Web of Science). From this global corpus, the article characterizes the publications from the top 20 countries publishing in the field and evolutions between 2000 and 2020. Topic maps show the research themes within the field of infectious diseases both in the world and in France. The explosion of publications on Covid-19 in 2020 has a quite visible impact on the topic map in infectious diseases and changes the position of some countries in this field of research. The conclusion points to issues for further research as more complete data will become available on the Covid-19 period. L'infectiologie constitue un domaine particulièrement intéressant à étudier avec les outils de la scientométrie au moment où la recherche y connaît une croissance extraordinaire du fait de la pandémie de Covid-19. Cet article construit un corpus mondial des publications en infectiologie sur la période 2000-2020 afin de mesurer la croissance des publications dans le domaine de l'infectiologie, d'analyser sa structure thématique interne et de comparer les principaux pays producteurs à partir de différents indicateurs. Le cas de la France est plus particulièrement analysé. De Louis Pasteur aux découvreurs du VIH, la recherche française en infectiologie compte de nombreux chercheurs dont l'apport scientifique a été remarquable. Dotée d'institutions renommées renforcées par des investissements à travers des Labex et Equipex, ainsi que de réseaux de la recherche hospitalière développés, la France possède d'importantes ressources scientifiques dans le domaine. Ses publications dans le champ des recherches sur l'immunité et l'infection représentent une part relativement importante du total de ses publications scientifiques en comparaison de la part de ce domaine dans les publications mondiales (OST 2021) . Il apparaît donc intéressant de comparer l'évolution des publications françaises à celles d'autres pays en réponse à la pandémie de Covid-19. L'infectiologie est un domaine de recherche transversal : il se nourrit des recherches en microbiologie, virologie, immunologie et génétique. Dans les domaines cliniques, au-delà de la spécialité « maladies infectieuses et tropicales », l'infectiologie est notamment très présente dans les soins critiques, la chirurgie et l'oncologie. La pharmacologie et la vaccinologie sont également étroitement liées à l'infectiologie. La constitution d'un corpus du domaine de l'infectiologie présente ainsi un enjeu méthodologique qui est abordé dans la première partie consacrée aux données et aux méthodes déployées dans l'article. La deuxième partie cartographie les principales thématiques présentes au sein du domaine de l'infectiologie et leur évolution en 2020. Le profil thématique du corpus des publications françaises est plus particulièrement analysé. La troisième partie compare la dynamique et les caractéristiques des publications en infectiologie des principaux pays producteurs depuis 2000. La conclusion revient sur les principaux résultats et sur les approfondissements qui paraissent utiles. Le corpus est constitué en combinant deux sources de données. La première source, PubMed/Medline, met en oeuvre un vocabulaire contrôlé organisé, le thésaurus MeSH (Medical Subject Headings). Les termes MeSH sont des mots-clés normalisés liés par des relations sémantiques ; ils sont attribués manuellement par les indexeurs pour décrire le contenu des articles 1 . Les descripteurs MeSH sont organisés en 16 catégories 2 , chacune étant divisée en sous-catégories. Au sein de chaque sous-catégorie, les descripteurs sont organisés hiérarchiquement du plus général au plus spécifique jusqu'à treize niveaux. Le moteur de recherche de PubMed dispose d'une fonctionnalité qui identifie automatiquement tous les termes situés plus bas dans la hiérarchie MeSH. Cette fonctionnalité, appelée « explosion », permet d'optimiser les requêtes. Il est cependant nécessaire de s'assurer que tous les termes plus fins entrent dans le champ d'analyse. Par ailleurs, la recherche PubMed permet de pondérer les termes MeSH. Elle distingue les sujets majeurs de l'article, généralement obtenus à partir du titre et/ou de l'énoncé des objectifs, des sujets ayant une moindre importance dans l'article. La seconde source de données mobilisée est la base de publications OST-WoS, version enrichie du Web of Science de Clarivate Analytics. Cette base de données indexe les publications scientifiques et leurs 1 Voir, https://www.adbs.fr/langages-documentaires#th%C3%A9saurus 2 https://meshb.nlm.nih.gov/treeView citations à l'échelle mondiale ; il s'agit de la source de données la plus ancienne et l'une des plus utilisées en scientométrie. Les plus de 20 000 revues indexées sont classées en 254 spécialités (WoS categories), qui, comme toutes les classifications basées sur des revues, n'est pas particulièrement spécifique. En outre, cette base ne dispose pas d'un vocabulaire normalisé et doit être interrogée en langage naturel, ce qui rend difficile la constitution de corpus thématiques précis. Le domaine de l'infectiologie étant transversal, la construction d'un corpus de publications représentatif demande une méthode adaptée. Un équilibre doit être trouvé entre couverture du domaine d'une part et précision ou pertinence d'autre part. La méthode retenue ici combine les avantages des deux sources de données mobilisées. Les articles pertinents ont été extraits de Medline en utilisant l'équation de recherche (1). Equation (1) Le repérage des publications est effectué sur l'ensemble de la base OST-WoS, c'est-à-dire pour tous les types de documents sur le périmètre des index suivants du WoS : SCI-Science Citation Index Expanded, SSCI-Social Sciences Citation Index, A&HCI-Arts & Humanities Citation Index, CPCI-Conference Proceedings Citation Index (S et SSH). L'analyse est ensuite réalisée en ne retenant que les contributions scientifiques représentées par les types de publication suivants : les articles originaux (Article) y compris ceux des actes de colloques (Proceedings Paper), les synthèses (Reviews) et les lettres (Letters). Les documents pour lesquels manque une partie des métadonnées (adresse, catégorie WoS) ne sont pas pris en compte ; les publications rétractées sont également exclues. L'année de publication la plus récente disponible dans la version d'avril 2021 de la base est 2020, date pour laquelle les données ne sont pas tout à fait complètes. De ce fait, les indicateurs pour 2020 ne sont pas définitifs. En plus du nombre de publications, deux indicateurs sont calculés : l'indice de spécialisation et l'indice d'impact normalisé 4 . Le premier mesure l'activité des pays dans une discipline/thématique donnée ; il est obtenu en rapportant la part de la discipline dans l'ensemble des publications du pays à la même part au niveau du monde. Le deuxième mesure l'intérêt suscité par les publications de l'acteur au sein de la communauté scientifique. L'impact normalisé par domaine de recherche d'un pays est défini par le nombre moyen de citations des publications du pays d'une année donnée, normalisé par la moyenne mondiale des citations obtenues par les publications de ce domaine la même année. Ces indicateurs sont indépendants de la taille des pays et permettent des comparaisons internationales. Description générale du corpus L'équation de recherche (1) Profil thématique de la France en infectiologie La carte thématique des publications contenant au moins une adresse française a été superposée sur la carte mondiale afin de positionner les thématiques de la recherche française en infectiologie. Des indices d'activité par terme permettent d'identifier les thématiques où la recherche française connait une activité relativement intense. Dans un premier temps, le poids relatif de chaque terme est calculé dans la carte de la France et dans celle du monde. Dans un second temps, le poids du terme pour la France est rapporté à son poids dans le monde. La figure 2 cartographie les thématiques de spécialisation de la France à partir de ces indices relatifs. Les termes présents sur la carte signalent des liens de cooccurrence au moins 50% plus élevés pour les publications françaises que pour l'ensemble mondial. Par exemple, le terme « africa » est 2,5 fois plus présent dans les mots-clés des publications françaises que dans celles du monde. Cela signifie que l'Afrique occupe une place beaucoup plus importante dans les publications de la France en infectiologie que dans l'ensemble des publications mondiales. Des dynamiques nationales variées Le nombre de publications en infectiologie a été multiplié par plus de deux en vingt ans, avec une progression moindre que celle de l'ensemble des publications scientifiques entre 2000 et 2019 6 ( Figure 3 ). L'année 2020 constitue donc une rupture : le nombre de publications mondiales en infectiologie fait un bond pour atteindre 118 148, alors que le recueil des publications parues en 2020 est encore incomplet. Entre 2019 et 2020, le nombre de publications en infectiologie a progressé de près de 40%, ce qui représente une augmentation spectaculaire dans la base de données pour un domaine de recherche. Les publications dédiées au Covid-19 contribuent fortement à cette augmentation, mais ne l'expliquent pas à elles toutes seules (Figure 3 ). Source : Base OST, Web of Science, calculs OST Au total, la figure 4 suggère que l'explosion des publications en infectiologie en 2020 due à l'émergence de la pandémie de Covid résulte d'une mobilisation variable des systèmes de recherche sur ce thème émergent. Le profil thématique des pays au sein du domaine de l'infectiologie contribue à expliquer la mobilisation plus ou moins forte et rapide des systèmes de recherche sur le nouveau sujet qu'a été le Covid à partir de 2020. Le degré de spécialisation de la France en infectiologie est assez élevé (1,3) parmi les pays à revenus élevés : proche de celui de la Suisse, de la Belgique et des Pays Bas sur l'ensemble de la période. La France est ainsi plus spécialisée en infectiologie que les Etats-Unis, le Royaume Uni ou l'Allemagne (non spécialisée). Les pays à hauts revenus, souvent les plus spécialisés en biologie fondamentale et en recherche médicale (OST 2021) ne sont donc pas toujours spécialisés en infectiologie. Plusieurs pays augmentent légèrement leur spécialisation en infectiologie en 2020 par rapport à 2015-19 : la Chine, le Royaume Uni ou la France notamment. L'Italie connaît une augmentation beaucoup plus forte de sa spécialisation, avec un indice qui croît de 60% pour dépasser 1,6. Cette évolution est liée au doublement du nombre de publications italiennes en infectiologie (Figure 4 ). La figure 6 souligne la mobilisation rapide de certains pays sur le thème du Covid-19. Le grand nombre de publications de l'Italie dès le début de la pandémie se lit dans l'indice de spécialisation sur le thème du Covid-19, près de deux fois plus élevé que son indice de spécialisation en infectiologie. A l'inverse, la recherche en Afrique du Sud, très spécialisée en infectiologie, n'apparaît pas s'être mobilisée sur le Covid-19. Le cas de l'Italie peut s'expliquer en partie par le fait que le pays a été durement touché dès le début de la pandémie. A ce stade précoce, les nombreuses publications portaient surtout sur des observations cliniques et la prise en charge des malades (Odone et al. 2020 , Turatto et al. 2021 . Outre l'Italie, la Turquie et la Chine sont plus spécialisés sur le thème du Covid qu'en infectiologie en général. La France n'est pas plus spécialisée sur le thème du Covid que sur l'ensemble du domaine de l'infectiologie. Sur la première année de la pandémie, les données de publications disponibles suggèrent que la recherche française s'est pas mobilisée au-delà de sa structure déjà spécialisée en infectiologie. Ce constat très partiel à ce stade pourrait être dû en partie au fait que la France a été touchée plus tard que l'Italie, la Chine ou l'Espagne et que les premières descriptions cliniques avaient déjà été publiées. Les analyses ultérieures ont demandé la mise en place d'études plus approfondies et le recrutement de patients. Or, de ce point de vue, si la France a rapidement débloqué des financements, la coordination des recherches a été insuffisante, ce qui a pu allonger les délais, voire menacer l'aboutissement de certains travaux (IGESR 2021, Cour des comptes 2021). Impact scientifique des publications des principaux pays producteurs L'impact normalisé par domaine de recherche d'un pays est défini par le nombre moyen de citations des publications du pays d'une année donnée, normalisé par la moyenne mondiale des citations obtenues par les publications de ce domaine la même année. L'indice est normalisé : il est calculé au niveau de chaque spécialité composant les disciplines afin de tenir compte de la structure disciplinaire des publications des pays. La valeur neutre de l'indice est 1 et un indice supérieur à 1 signifie que les publications du pays ont un impact supérieur à la moyenne mondiale. La mobilisation de plusieurs outils d'analyse scientométrique a permis d'étudier la dynamique des publications mondiales dans le domaine de l'infectiologie de 2000 à 2020. La prise en compte de l'année 2020 a permis d'inclure les premières publications sur le Covid-19 et d'analyser l'impact de ce thème émergent sur la recherche en infectiologie en général et dans certains pays en particulier. L'analyse du corpus mondial a souligné que les principaux pays publiant en infectiologie ne sont pas tous les mêmes que les principaux pays publiant toutes disciplines confondues. En effet, outre plusieurs pays à hauts revenus spécialisés en recherche médicale et des nouvelles puissances scientifiques telles que la Chine, l'Inde ou le Brésil, y figurent l'Afrique du Sud, Taiwan et la Turquie. La particularité de la recherche en l'infectiologie est la forte demande sociétale dans les pays où les maladies infectieuses constituent un lourd fardeau économique et social. Les pays spécialisés en infectiologie connaissent des contextes de recherche très différents : recherche médicale importante et industrie pharmaceutique développée (Suisse, Royaume Uni, Etats-Unis), infections persistantes représentant des enjeux majeurs de santé publique (Afrique du Sud, Inde, Brésil), héritage historique avec des recherches développées en lien avec des pays fortement touchés par des maladies infectieuses (France, Belgique, Espagne, Pays Bas). L'analyse des publications parues en 2020 a montré que la pandémie de Covid-19 a très rapidement bouleversé le paysage mondial de la recherche en infectiologie. L'intensité et la rapidité de la production scientifique sur le sujet ont été spectaculaires. La réactivité a été particulièrement forte dans certains pays, comme l'Italie dont les publications en infectiologie ont connu une augmentation inouïe. Dans le cas de la France, la spécialisation dans le domaine du Covid n'apparaît pas différente de la spécialisation en infectiologie en général. C'est le cas pour la majorité des principaux pays publiant dans le domaine, à l'exception de l'Italie et, dans une moindre mesure, de la Chine, de la Turquie et de l'Espagne. La pandémie a suscité une réponse inédite des communautés scientifiques, mais aussi du monde de l'édition. L'accélération de la communication s'est accompagnée d'un grand nombre de publications de faible qualité scientifique, avec des résultats non confirmés, voire erronés (Whitmore, et al. 2021 ). L'analyse approfondie de ces phénomènes ne pourra être menée que progressivement en fonction des données qui deviendront disponibles. L'analyse de la réponse de la communauté scientifique à la pandémie devrait aussi s'appuyer sur l'examen des co-publications internationales afin de voir dans quelle mesure les collaborations internationales ont pu contribuer à accélérer les travaux de recherche et à renforcer leur contribution scientifique. En effet, si les premières descriptions cliniques ont donné lieu à des contributions par des équipes locales (Aviv-Reuven et Rosenfeld 2021), les études plus ambitieuses tendent à mobiliser des collaborations internationales se traduisant par des co-publications internationales (Haghani, Bliemer, 2021) . Il existe deux grands modes de constitution de corpus thématiques : à l'aide des requêtes textuelles, en langage naturel ou avec un langage contrôlé (index, thésaurus) par sélection d'éléments à partir d'une classification prédéfinie. Le recours à une nomenclature existante est plus simple mais moins performant pour circonscrire des périmètres thématiques complexes. Les requêtes textuelles en langage naturel sont lourdes à construire et sont à la fois imprécises et non exhaustives. Mais les bases citationnelles utilisées pour les analyses scientométriques ne possèdent pas de vocabulaire contrôlé. Pour pallier l'absence d'un vocabulaire contrôlé dans la base WoS, cette étude s'est appuyée sur celui de Medline pour construire l'équation de recherche. L'analyse a montré que dans le domaine de l'infectiologie le recouvrement entre la base OST-WoS et Medline est de 83%. L'absence de 17% des publications de Medline dans la base OST-WoS peuvent être multiples : des revues non indexées dans le WoS, des défauts d'appariement entre les deux bases, la fraicheur de la mise à jour, etc. Cette question n'a pas été étudiée et pourrait constituer un approfondissement en vue d'une amélioration de la méthode. Les cartes thématiques construites à partir des cooccurrences de mots clés dans les publications ont permis d'identifier 7 clusters au sein du corpus global des publications en infectiologie. L'analyse a ensuite mis en évidence les thématiques qui distinguent les publications françaises. Elles sont plus concentrées sur deux des clusters du corpus mondial, Infections opportunistes et secondaires d'une part et Zoonoses, maladies à transmission vectorielle et maladies tropicales d'autre part. Symétriquement, les publications françaises traitent relativement moins que le monde les thématiques Mécanismes fondamentaux de l'infection et interactions hôte-pathogène d'une part et Maladies infectieuses à transmission directe et santé publique d'autre part. En 2020, la France est apparue presque aussi spécialisée sur le thème du Covid-19 que sur l'infectiologie en général, ce qui ne suggère pas une orientation forte des recherches en faveur de ce thème. Le profil thématique de la France au sein de l'infectiologie demandera à être confirmé sur une période d'observation plus longue. Avec plus de recul, il pourrait en outre être possible d'analyser d'éventuels liens entre les difficultés de coordination identifiées au sein du système de recherche dans les débuts de la pandémie et les publications scientifiques issues des travaux sur le Covid-19. Dans cette perspective plus générale, il sera aussi utile de confronter les données de publications avec celles des essais cliniques. Publication patterns' changes due to the COVID-19 pandemic: a longitudinal and short-term scientometric analysis Phylomemetic Patterns in Science Evolution-The Rise and Fall of Scientific Fields Cour des comptes 2021 Covid-19 pandemic and the unprecedented mobilisation of scholarly efforts prompted by a health crisis: Scientometric comparisons across SARS, MERS and 2019-nCoV literature The runaway science: a bibliometric analysis of the COVID-19 scientific literature La position scientifique de la France dans le monde et en France, Hcéres Visualizing Bibliometric Networks', Measuring Scholarly Impact A Systematic Review and Bibliometric Analysis of the Scientific Literature on the Early Phase of COVID-19 in Italy Changes in medical scientific publication associated with the COVID-19 pandemic Annexes Fig.A1. Cartographie temporelle des liens du mot-clé Covid-19 avec le reste du corpus Le dégradé de couleur permet de visualiser la concentration des termes en fonction des années. Ainsi, plus la couleur de la bulle est jaune, plus le terme et la thématique liée à ce dernier sont récents la recherche sur le Covid-19 est fortement concentrée sur les deux dernières années, contrairement aux recherches sur le SARS dont la couleur apparait en violet foncé. L'intérêt d'une telle représentation dans le cas du Covid-19 est qu'elle permet de visualiser, d'une part, les thématiques qui y sont liées (analyser les différents prismes sous lesquels la question est traitée) Cela témoigne de l'étendu des recherches engagées sur le sujet au sein de toutes les communautés de recherche en infectiologie. Néanmoins, force est de constater que le cluster 4 « Maladies infectieuses à transmission directe et santé publique » (où se trouve le terme « Covid-19 » par ailleurs) représente une part importante des liens de cooccurrence Covid-19 » est associé avec des termes dont la présence est relativement plus forte dans les années avant 2012. Il s'agit par exemple des termes « computer tomography », « infection », « inflammation