key: cord-1000928-w8y46sqg authors: Fiedler, Jochen; Moritz, Christian P.; Feth, Sascha; Speckert, Michael; Dreßler, Klaus; Schöbel, Anita title: Ein mathematisches Modell zur Schätzung der Dunkelziffer von SARS-CoV-2-Infektionen in der Frühphase der Pandemie am Beispiel Deutschland und Italien date: 2021-07-23 journal: Bundesgesundheitsblatt Gesundheitsforschung Gesundheitsschutz DOI: 10.1007/s00103-021-03384-z sha: fa70afd5028c44ab75eb593eb2477b4dbd456493 doc_id: 1000928 cord_uid: w8y46sqg BACKGROUND: Especially in the early phase, it is difficult to obtain reliable figures on the spread of a pandemic. The effects of the COVID-19 pandemic and the associated comprehensive but incomplete data monitoring provide a strong reason to estimate the number of unreported cases. AIM: The aim of this paper is to present a simple mathematical model that allows early estimation of the number of unregistered cases (underreporting). MATERIAL AND METHODS: Prevalences of reported infections in different age groups are combined with additional assumptions on relative contact rates. From this, a corrected prevalence is derived for each age group, which can then be used to estimate the number of unreported cases. RESULTS: Our model derives for Germany in mid-April 2020 about 2.8 times more total infections than registered cases. For Italy, the model results in a factor of 8.3. The case mortalities derived from this are 0.98% for Germany and 1.51% for Italy, which are much closer together than the case mortalities of 2.7% and 12.6% derived purely from the number of reports available at that time. CONCLUSION: The number of unreported SARS-CoV-2-infected cases derived from the model can largely explain the difference in observations in case mortalities and of conditions in the early phase of the COVID-19 pandemic in Germany and Italy. The model is simple, fast, and robust to implement, and can respond well when the reporting numbers are not representative of the population in terms of age structure. We suggest considering this model for efficient and early estimations of unreported case numbers in future epidemics and pandemics. Hintergrund und Hypothese COVID-19 isteine hochinfektiöse Krankheit, die durch das neuartige Coronavirus SARS-CoV-2 verursacht wird. Die andauernde COVID-19-Pandemie wurde von der Weltgesundheitsorganisation (WHO) zur gesundheitlichen Notlage internationaler Tragweite erklärt [1, 2] . Die Pandemie wird weltweit mit mehr als 3,5 Mio. Todesfällen (Stand: 08.06.2021) in Verbindung gebracht und verursacht gesellschaftliche Probleme durch schwerwiegende Konsequenzen für Gesundheitswesen, Sozialwesen und Wirtschaft. Die Symptome der Krankheit sind unspezifisch und stark heterogen [3] , weshalb sie kaum zur Diagnose herangezogen werden können. Stattdessen erfolgt die Diagnostik mithilfe molekularer Tests über die reverse Transkriptionspolymerasekettenreaktion (RT-PCR), bei derdas Virusüberseine RNA identifiziert wird [4] . Die kontinuierlich veröffentlichten offiziellen COVID-19-Fallzahlen werden größtenteils über diesen Test ermittelt. Es wird jedoch angenommen, dass diese Anzahl von SARS-CoV-2-Fällen deutlich unterschätzt wird, hauptsächlich aufgrund nicht gemeldeter (weil nicht entdeckter) Fälle durch asymptomatische Krankheitsformen und/oder begrenzter diagnostischer Kapazitäten [5, 6] . Die resultierende Dunkelziffer schwankt hypothetisch stark zwischen Ländern in Abhängigkeit von lokalen Teststrategien und -kapazitäten. Infolgedessen ist die Gesamtzahl der infizierten Fälle als der wesentliche Schlüsselwert für das Verständnis des Krankheitsfortschrittes derzeit nicht bekannt. Insbesondere zu Beginn einer Pandemie ist dies aber meistens der Fall. Die Schätzung der Gesamtzahl infizierter Fälle ist wichtig, um 1) die Ausbreitung der Pandemie zu verfolgen, 2) die Sterblichkeitsrate zu berechnen und 3) die fortschreitende Ausbreitung einer potenziellen Herdenimmunität abzuschätzen. Somit wirkt sich die Schätzung der Dunkelziffer auch auf die mathematische Modellierung aus, wie in dem Artikel von Priesemann et al. zur Rolle epidemiologischer Modelle bei der Beschreibung des Ausbruchsgeschehens in diesem Themenheft genauer untersucht wird. Daher sind Methoden erforderlich, mit deren Hilfe die Anzahl unentdeckter Fälle abgeschätzt werden kann. Beispielsweise wurden serologische Antikörperdetektionstests etabliert [7] . Diese sind in der frühen Phase einer Pandemie allerdings noch nicht verfügbar oder führen zu umstrittenen Schlussfolgerungen aufgrund unzureichender oder unbekannter Sensitivität und Spezifi-tät der Test-Assays, nichttransparenter Studiendesigns [8] [9] [10] und unklarer zeitlicher Stabilität der Seroprävalenz [11] . Als komplementäre Methode zu Antikörper-Assays schlagen wir ein mathematisches Modell vor, das insbesondere in der Frühphase einer Pandemie angewendet werden kann. Das Modell haben wir im Rahmen der COVID-19-Pandemie entwickelt und erprobt, allerdings ist seine Anwendbarkeit nicht auf diese beschränkt. Das Modell macht starken Gebrauch von nach Altersgruppen aufgelösten Daten, anders als andere mathematische Modelle zur direkten Schätzung der tatsächlichen Infektionszahlen [12, 13] Background. Especially in the early phase, it is difficult to obtain reliable figures on the spread of a pandemic. The effects of the COVID-19 pandemic and the associated comprehensive but incomplete data monitoring provide a strong reason to estimate the number of unreported cases. Aim. The aim of this paper is to present a simple mathematical model that allows early estimation of the number of unregistered cases (underreporting). Material and methods. Prevalences of reported infections in different age groups are combined with additional assumptions on relative contact rates. From this, a corrected prevalence is derived for each age group, which can then be used to estimate the number of unreported cases. Results. Our model derives for Germany in mid-April 2020 about 2.8 times more total infections than registered cases. For Italy, the model results in a factor of 8.3. The case mortalities derived from this are 0.98% for Germany and 1.51% for Italy, which are much closer together than the case mortalities of 2.7% and 12.6% derived purely from the number of reports available at that time. Conclusion. The number of unreported SARS-CoV-2-infected cases derived from the model can largely explain the difference in observations in case mortalities and of conditions in the early phase of the COVID-19 pandemic in Germany and Italy. The model is simple, fast, and robust to implement, and can respond well when the reporting numbers are not representative of the population in terms of age structure. We suggest considering this model for efficient and early estimations of unreported case numbers in future epidemics and pandemics. Weil nicht jede Infektion zuverlässig erkannt und gemeldet wird, ist die tatsächliche Prävalenz unbekannt. Bestimmt man die Prävalenz auf Basis der gemeldeten Infektionszahlen, so liegt damit eine untere Abschätzung der wahren Prävalenz vor. Diese untere Abschätzung wollen wir im Weiteren als gemeldete Prävalenz bezeichnen. Um die Lücke zwischen wahrer und gemeldeter Prävalenz rechnerisch zu schließen, bestimmen wir die Unterschiede in den Infektionspotenzialen für die verschiedenen Altersgruppen und vergleichen diese mit den Unterschieden in den gemeldeten Prävalenzen. Dazu muss das altersabhängige Infektionspotenzial (bedingt durch Anzahl sozialer Kontakte, Empfänglichkeit für das Virus) aus den Prävalenzen herausgerechnet werden. Was allerdings schätzungsweise verfügbar ist, sind Kontaktzahlen innerhalb einer Gruppe. Die Anzahl der Kontakte korreliert nun stark mit den sozioökonomischen Faktoren, von denen sehr viele in der Praxis nicht hinreichend bekannt sind. Ein Faktor, für den dies bekannt und gut untersucht ist, ist das Alter (siehe [19] und [20]). Unser Modell bezieht sich auf die Frühphase einer Pandemie, in der die untersuchten und modellierten Kontaktzahlen noch nicht oder weniger stark von sanitären und sozialen Maßnahmen beeinflusst werden. Zu dem von uns betrachteten Zeitpunkt waren allerdings sowohl in Italien als auch in Deutschland solche Maßnahmen in Kraft, was sicherlich einen Einfluss auf die absoluten Kontaktzahlen hatte. Allerdings gehen wir für die beobachteten Zeiträume davon aus, dass sich die Maßnahmen relativ gesehen auf alle Altersgruppen eher gleichmäßig ausgewirkt haben. Damit nehmen wir an, dass sich die relativen Verhältnisse zwischen den Kontaktzahlen der verschiedenen Altersgruppen auch durch die Maßnahmen nicht stark geändert haben. Da die Ergebnisse unseres Modells nur von diesen relativen Unterschieden abhängen und nicht auf absolute Kontaktzahlen angewiesen sind, bedeutet diese Annahme auch keine großen Änderungen in unseren Ergebnissen. Im Folgendenbezeichne P reg,i = F reg,i /B i die Prävalenz der registrierten Fälle in der Altersgruppe i, wobei Freg,i die Anzahl der registrierten Fälle in Altersgruppe i und Bi die Größe der zugehörigen Bevölkerungsgruppe ist. Mit Ki bezeichnen wir die zugehörigen relativen Kontaktzahlen, als deren Grundlagen uns die Ergebnisse aus [19] dienen, die in . Tab. 1 zu finden sind. Wir modifizieren die relativen Kontaktzahlen für Kinder unter 10 Jahren, indem wir die zugehörigen Werte aus . Tab. 1 durch den Faktor 2 teilen, um die angenommene geringere Infektionsempfänglichkeit von Kindern unter 10 Jahren zu berücksichtigen [21] . Weil die Aufteilung der Altersgruppen der registrierten Fälle für Deutschland und Italien nicht mit der aus . Tab. 1 übereinstimmt, interpolieren wir die relativen Kontaktzahlen linear und erhalten damit insgesamt für jede Altersgruppe i der registrierten Fälle eine relative Kontaktzahl Ki. Um zu bestimmen, welche Altersgruppe die Referenz für die Prävalenz darstellt, bilden wir im ersten Schritt die normalisierten (gemeldeten) Prävalenzen P norm,i = P reg,i /K i für alle Altersgruppen. Die normalisierte Prävalenz modelliert daher einen Zustand, in Beim dritten Schritt multiplizieren wir diese einheitlichen Werte für jede Altersgruppe i wieder mit der zugehörigen relativen Kontaktzahl Ki und erhalten eine vorläufige Schätzung der wahren Präva-lenzP i = P norm,max ⋅ K i . Final berücksichtigen wir im vierten Schritt, dass viele Fälle aufgrund fehlender Symptome nicht auffallen. Da wir die Rate a i = a dieser asymptomatischen Fälle für alle Altersgruppen als gleich annehmen, erhalten wir die (finale) Schätzung der wahren Prävalenz: Sobald Daten vorliegen, mit denen der Anteil der asymptomatischen Fälle besser nach Altersgruppen aufgelöst werden kann, sollte das im Modell berücksichtigt werden. Die angepassten Fallzahlen berechnen sich hieraus, indem wir wieder mit den dazugehörigen Bevölkerungszahlen multiplizieren. Um eventuelle Verteilungsunterschiede zwischen den Geschlechtern nicht zu übersehen, führen wir dieses Verfahren für Männer und Frauen getrennt durch und erhalten somit für beide Geschlechter eine angepasste Zahl an Infektionen. Multiplizieren wir die bei allen Altersgruppen gleichgesetzten Referenzwerte des vorigen Abschnitts mit den zugehörigen relativen Kontaktzahlen und berücksichtigen wir die Rate der asymptomatischen Fälle, so erhalten wir die vorläufige Schätzung der wahren Prävalenzen. Für die Rate der asymptomatischen Fälle nehmen wir einen Wert von 22,2 % an, welchen wir aus den Ergebnissen der Studie von Streeck und Kollegen entnehmen [22] . Berechnen wir mithilfe der Bevölkerungszahlen die entsprechenden Infektionszahlen, so erhalten wir die Ergebnisse in . Tab. 3. Dort ergibt sich der Wert für Kinder im Alter von 5-14 Jahren in Deutschland dadurch, dass wir einmal die Rechnung für Jungen und Mädchen separat durchführen und die Werte addieren. Für Mädchen sieht die Rechnung wie folgt aus: Der Referenzwert von 0,282 % wird erst mit der interpolierten relativen Kontaktzahl von 1,575 multipliziert, was eine Prävalenz von 0,444 % ergibt. Anschließend multiplizieren wir diesen Wert mit 0,75, um die halb so große Infektionsempfänglichkeit bei Kindern unter 10 Jahren zu berücksichtigen. Dieser Wert ergibt sich, da wir vereinfacht annehmen, dass die Altersgruppe 5-14 jeweils zur Hälfte aus Kindern unter und über 10 Jahren besteht. Danach multiplizieren wir weiter mit 3.637.732, der Anzahl der Mädchen in dieser Altersgruppe, und teilen durch 0,77, was die asymptomatischen Fälle berücksichtigt, und erhalten als finale Schätzung für die Zahl der infizierten Mädchen in dieser Altersgruppe 15.580. Addieren wir darauf die Fälle für die Jungen, welche auf gleiche Weise berechnet werden, so erhalten wir den Wert von 31.923 aus . Tab. 3. Für Deutschland bedeuten unsere Schätzungen, dass die Zahl aller Infektionen etwa 2,8-mal so groß ist wie die Zahl der registrierten. Für Italien be-Abb. 3 Unser Modell lässt sich prinzipiell immer dann bei einer Epidemie anwenden, wenn folgende Aspekte angenommen werden können: Die Ausbreitung erfolgt proportional zu den Kontaktzahlen, die Fallzahlen sind für verschiedene Altersgruppen bekannt und die relativen Kontaktzahlen für diese Altersgruppen können hinreichend gut ermittelt werden. Ändern sich die relativen Kontaktzahlen aufgrund der Auswirkung dieser Epidemie sehr stark (z. B. durch kontakteinschränkende Maßnahmen, spezifisch für ältere Menschen), so sollten die Kontaktzahlen möglichst in Echtzeit ermittelt werden. Die Annahme, dass die Ausbreitung proportional zu den Kontaktzahlen erfolgt, bedeutet, dass die Wahrscheinlichkeit einer Übertragung nicht stark vom Lebensalter abhängig ist. In unserem Fall haben wir lediglich eine geringere Übertragungswahrscheinlichkeit bei Kindern [16] dadurch korrigiert, dass wir mit modifizierten Kontaktzahlen rechnen. Dies lässt sich auch prinzipiell bei anderen Epidemien anwenden: Ist bekannt, dass verschiedene Altersgruppen das Virus aufgrund eben ihres Alters unterschiedlich stark weitergeben, dann lassen sich so wieder modifizierte Kontaktzahlen bestimmen, welche dann von unserem Modell genutzt werden können, was eine hohe Anpassungsfähigkeit bedeutet. Unser Modell ist in der Lage, gerade in der Frühphase einer Epidemie bei einer unklaren Datenlage quantitativ gut abzuschätzen, wie stark sich ein Erreger schon verbreitet hat. Die bessere Kenntnis der Dunkelziffer kann als Handlungsgrundlage genutzt werden, um geeignete Maßnahmen einzuleiten. Die in diesem Artikel enthaltenen Bilder und sonstiges Drittmaterial unterliegen ebenfalls der genannten Creative Commons Lizenz, sofern sich aus der Abbildungslegende nichts anderes ergibt. Sofern das betreffende Material nicht unter der genannten Creative Commons Lizenz steht und die betreffende Handlung nicht nach gesetzlichen Vorschriften erlaubt ist, ist für die oben aufgeführten Weiterverwendungen des Materials die Einwilligung des jeweiligen Rechteinhabers einzuholen. Weitere Details zur Lizenz entnehmen Sie bitte der Lizenzinformation auf http://creativecommons.org/ licenses/by/4.0/deed.de. A novel coronavirus from patients with pneumonia in China Clinical features of patients infected with 2019 novel coronavirus in Wuhan Clinical characteristics of coronavirus disease 2019 in China Diagnosing COVID-19: the disease and tools for detection Substantial undocumented infection facilitates the rapid dissemination of novel coronavirus Estimating the asymptomatic proportion of coronavirus disease 2019 (COVID-19) cases on boardtheDiamondPrincesscruiseship Developing antibody tests for SARS-CoV-2 Scientific brief: advice on the use of point-of-care immunodiagnostic tests for COVID-19 Antibody surveys suggesting vast undercount of coronavirus infections may be unreliable How (not) to do an antibody survey for SARS-CoV-2 Clinical and immunological assessment of asymptomatic SARS-CoV-2 infections Spotlight on the dark figure: exhibiting dynamics in the case detection ratio of Covid-19 infections in Germany Estimating the unreported number of novel coronavirus (2019-nCoV) cases in China in the first half of January 2020: a data-driven modelling analysis of the early outbreak COVID-19 integrated surveillance: key national data Johns Hopkins University COVID-19 data repository by the center for systems science and engineering (CSSE) at Johns Hopkins University An interactive webbased dashboard to track COVID-19 in real time Social contacts and mixing patterns relevant to the spread of infectious diseases Inferring the structure of social contacts from demographic data in the analysis of infectious diseases spread Spread of SARS-CoV-2 in the Icelandic population Infection fatality rate of SARS-CoV-2 infection in a German community with a super-spreading event Primi risultati dell'indagine di sieroprevalenza sul SARS-CoV-2. Istituto Nazionale di Statistica COVID-19 and lombardy: TESTing the impact of the first wave of the pandemic