Die ökonomischen Konsequenzen des Coronavirus – Die Dunkelziffer

Um die Dunkelziffer aller am Coronavirus erkrankten Österreicherinnen und Österreicher abzuschätzen, wurde eine Zufallsstichprobe von 2000 Menschen in Österreich durchgeführt, wovon in etwa 1500 mitgemacht haben. Diese hat einen Prozentsatz von 0,33%, sprich 5 coronaviruskranken Personen gefunden. Aufgrund dieses Ergebnisses kann man ein 95%iges Konfidenzband, von etwa 10.200 bis 76.400 für die tatsächlich an Coronavirus Erkrankten in Österreich bestimmen. Ich berufe mich hier auf die Zahlen laut Kurier.

Für diese Konfidenzintervallsberechnung werden ausschließlich die Daten aus dieser Stichprobe verwendet. Mein Vater, Helmut Kuzmics, hat mich gefragt, ob das nicht etwas seltsam ist und ob man das, gegeben das ganze andere Wissen, das man hat, nicht vielleicht stärker einschränken könnte? Oder könnte man nicht vielleicht die Stichprobe anders wählen, um zum Beispiel dem gerecht zu werden, dass in Ischgl viel mehr Fälle bekannt sind als in einer ähnlich großen Gemeinde im Burgenland? Mit einer allgemeinen Stichprobe dieser Art ist es ja leicht möglich, dass keine Person in Ischgl überhaupt in ihr enthalten ist.

Mein Vater hat recht. Man kann das besser machen, wenn man weiß, wie man das Wissen, das man schon hat, nutzen kann. Wie das funktionieren soll, erkläre ich hier anhand eines Gedankenexperiments.  Ich habe für diesen Blogeintrag auch von Diskussionen mit Michael Greinecker profitiert.

 

Man könnte das Problem von vielen Seiten aus angehen. Sehr eignen würde es sich, hier einen (echten) Bayesianischen Statistikzugang zu verfolgen. BayesianerInnen hätten eine Vermutung über die Dunkelziffer sowie über die generelle geografische Verteilung von Coronakranken in Form eines sogenannten “priors” (einer Wahrscheinlichkeitsverteilung über all diese Dinge), die mit den schon bestehenden Daten sowie einem Verständnis der epidemiologischen Modelle konsistent wäre. Es wäre allerdings ein wenig mühsam, den Bayesianischen Zugang  hier gut und knapp zu erklären. Ich kann das Problem aber auch sehr gut anhand der klassischen Statistik erklären, und zwar so, dass es, glaube ich, nachvollziehbarer ist.

Nun gleich zum Gedankenexperiment. Ich sollte vorher aber noch eine wichtige Unterscheidung machen. Ich spreche im weiteren Verlauf von zwei verschiedenen Verfahren mit denen man feststellt, ob eine Person den Coronavirus hat. Zum einen gibt es das, was ich die gängige Methode nenne, und zum anderen die Stichprobe. Die gängige Methode ist die, wie eine Person zurzeit zu den gemeldeten „positiv Getesteten“ (wie zum Beispiel auf dieser ORF Webseite) dazugezählt wird. Ich weiß nicht genau, wie diese gängige Methode funktioniert, aber ich stelle sie mir in etwa wie folgt vor: Zuerst muss man wohl 1450 anrufen. Dann beschreibt man die Symptome, die man hat, und wo man in letzter Zeit war und so weiter. Daraufhin wird entschieden, ob man überhaupt medizinisch getestet wird. Wenn ja und wenn dann der medizinische Test positiv ist, wird man schlussendlich als „positiv getestet“ gezählt. Die Stichprobe funktioniert anders. Hier wird man zufällig ausgewählt (oder halt nicht) und dann, egal was man für Symptome usw. hat, wird man medizinisch getestet.

Nun kann ich tatsächlich mit meinem Gedankenexperiment beginnen. Angenommen, wir wüssten, dass die gängige Methode bisher in allen Regionen nach den gleichen Richtlinien durchgeführt wurden (nach der Art der Symptome, der Anzahl der Kontakte, und so weiter). Aus dieser Annahme würde sich ergeben, dass die Dunkelziffer proportional zu den gemeldeten Coronakranken wäre, und zwar mit demselben Proportionalitätsfaktor für alle Regionen. Das ist übrigens auch eine Annahme, die man grundsätzlich empirisch überprüfen kann. Und wenn das nun so wäre, dann wäre es tatsächlich sinnvoller, eine Stichprobe in der Region zu machen, die die meisten gemeldeten Fälle hat, anstatt eine große österreichweite Stichprobe zu ziehen.

Ich finde das auch intuitiv recht einleuchtend, aber richtig erklären, also eigentlich beweisen, kann ich das nur anhand von ein bisschen Mathematik.

Nennen wir die Wahrscheinlichkeit, dass eine Person in einer bestimmten Region am Coronavirus erkrankt ist,  p. Nennen wir die Wahrscheinlichkeit, dass dieselbe Person durch die gängige Methode als coronakrank identifiziert wird,  q. Natürlich muss  q \le p , denn nur echt Kranke können auch also solche identifiziert werden. Ich gehe hier der Einfachheit halber davon aus, dass die medizinischen Tests perfekt sind. Das stimmt wahrscheinlich nicht ganz, aber das könnte man dann auch berücksichtigen.

Nun schreiben wir  p=\mu q. Das heißt,  \mu ist der Proportionalitätsfaktor, der in allen Regionen (aufgrund unseres Wissens) als gleich angenommen werden kann. Man könnte das so sehen: Die Wahrscheinlichkeit, dass eine Person durch die gängige Methode als krank ausgewiesen wird, ist gleich der Wahrscheinlichkeit, dass diese Person krank ist mal der Wahrscheinlichkeit, dass die Person in der gängigen Methode tatsächlich getestet wird. Der Faktor  \mu  ist dann  1 durch diese letzte Wahrscheinlichkeit. Also ist  q  in verschiedenen Regionen unterschiedlich,  \mu  ist überall gleich. Nun haben wir noch dazu, aufgrund der Resultate der gängigen Methode, eine sehr gute Schätzung für die regionenspezifischen  q Werte. Wir müssen also nur noch den Proportionalitätsfaktor  \mu  schätzen. Die Frage ist nun, in welcher Region wir eine Stichprobe erheben wollen. In einer Region mit einem hohem oder einem niedrigen  q ? Oder ist es egal?

Also sagen wir, wir führen eine Stichprobe von  n  Menschen in einer Region mit einem bekannten  q  durch. Unser Schätzer für  p  wäre dann einfach die Proportion aller Kranken in der Stichprobe, nennen wir diesen  \hat{p}=\frac{X}{n}, wobei  X die Anzahl der Kranken in der Stichprobe ist. Daraus ergibt sich ein (übrigens maximum likelihood) Schätzer für  \mu  von  \hat{\mu}=\frac{\hat{p}}{q}. Dieser Schätzer ist erwartungstreu, sprich der erwartete Wert für den Schätzer (bevor man schätzt) ist genau das, was er schätzen soll, nämlich  \mu. Das ist nun für alle Regionen gleich, hängt also nicht von  q ab. Besonders interessiert uns aber die Varianz des Schätzers, die ja die Grundlage für ein Konfidenzintervall für  \mu  ist. Die rechnet sich wie folgt aus, wobei wir nutzen, dass  X  (ex-ante) binomialverteilt ist und eine Varianz von  np(1-p)  hat:

 \begin{array}{lcl} \mathbb{V}\left[\hat{\mu}\right] & = & \mathbb{V}\left[\frac{\hat{p}}{q}\right] \\ & = & \mathbb{V}\left[\frac{X}{nq}\right] \\ & = & \frac{1}{n^2q^2} \mathbb{V}\left[X\right] \\ & = & \frac{1}{n^2q^2} n p(1-p) \\ & = & \frac{1}{n^2q^2} n \mu q (1- \mu q) \\ & = & \frac{\mu (1- \mu q)}{nq} \end{array}

 

Diese Varianz hängt nun von  q  ab, und zwar so, dass je höher  q, umso geringer die Varianz: Der Nenner wird kleiner und der Zähler grösser, wenn  q  größer wird. Da  q  ja generell in Österreich sehr klein ist, könnten wir die Varianz auch noch gut approximieren, indem wir  (1- \mu q) \approx 1  setzen. Dann ist die Varianz ungefähr gleich  \frac{\mu}{nq}.

Vergleichen wir zum Beispiel zwei Regionen, eine mit  q = \frac{1}{50} (Landeck) und eine mit  q = \frac{1}{600} (ein bisschen unter dem österreichischen Schnitt momentan). Nehmen wir eine Stichprobe von  n = 1500 Menschen. Sagen wir, das echte  \mu  wäre 3 (aber Sie können sich das selber mit anderen Parameterwerten durchspielen – die Formel haben Sie ja). Dann bekämen wir für eine  q=\frac{1}{600} Region eine Varianz von in etwa  \frac{3}{1500 \frac{1}{600}} \approx 1,20, und damit einen Standardfehler für  \hat{\mu} von in etwa 1,10 und ein grobes 95%iges Konfidenzband von in etwa 0,81 bis 5,19 (wenn  \hat{\mu}=3  rauskäme). Das würde einer Hochrechnung für alle Infizierten in Österreich (bei jetzt in etwa 13000 gemeldeten Fällen) von 10518 bis 67482 entsprechen, was auch recht gut dem oben genannten Konfidenzband (aus der tatsächlich durchgeführten Stichprobe) entspricht.

Wenn wir das Ganze stattdessen für die Region(en) mit  q=\frac{1}{50} gemacht hätten und denselben Schätzwert  \hat{\mu}=3 bekommen hätten, bekämen wir eine Varianz von etwa  \frac{3}{1500 \frac{1}{50}} = 0,10 daher einen Standardfehler von 0,32. Das würde ein grobes 95%-Konfidenzband für  \mu  von in etwa 2,37 bis 3,63 liefern und daher eine Hochrechnung für die Gesamtinfizierten im Land von 30778 bis 47222; das hier gewonnene Intervall wäre also doch um einiges kleiner als das zuerst gefundene.

Man könnte das auch noch statistisch etwas sauberer machen. Ich habe zum Beispiel ignoriert, dass man weiß, dass  \mu \ge 1 sein muss. Ich sollte außerdem vielleicht nochmals betonen, dass ich hier Annahmen getroffen habe, die in einer Hinsicht ziemlich sicher nicht ganz stimmen. Es wird nicht der Fall sein, dass man bei 1450-Anrufen in allen Regionen gleich vorgeht. Ich vermute, dass man in Krisenregionen schneller testet als in weniger betroffenen Regionen. Ich will hier eben nur aufzeigen, dass man, wenn man zusätzliche Informationen (in Daten- oder auch Theorieform) über das was ich hier die gängige Methode genannt habe und generell über den Coronavirus hat, man diese benutzen kann, um genauere Schätzungen der Dunkelziffer zu bekommen. Wichtig hierfür wäre es auch genau zu wissen, wie die Regeln aussehen, die dazu führen, dass man nach einem 1450-Anruf auch wirklich getestet wird.

7 thoughts on “Die ökonomischen Konsequenzen des Coronavirus – Die Dunkelziffer

  1. Man kann den “Dunkelzifferfaktor” (p/q) auch so schätzen:
    X = Anzahl der wahren Infizierten vor 18 Tagen = Anzahl der an Corona gestorbenen heute / Mortalitätrate
    Y = Anzahl der offiziell Infizierten for 18 Tagen
    (p/q) = X/Y. Der Unsicherheitsfaktor bei dieser Schätzung kommt 1. vom Schätzfehler der Mortalitätsrate und 2. vom Schätzfehler der durchschnittlichen Zeit zwischen Infektion und Tod.

  2. Sicher. Wenn man über die Mortalitätsrate in Österreich etwas wüsste, sowie auch über die Verteilung der Zeit zwischen Infektion und Tod, könnte man das auch mit einbeziehen, um noch genauere Schätzungen der Dunkelziffer zu bekommen.
    Ich denke allerdings, dass es eher umgekehrt ist: dass wir aus einer guten Schätzung der Dunkelziffer dann eine gute Schätzung der Mortalitätsrate bekommen.

  3. Pingback: Coronavirus-Dunkelziffer: alternative Schätzung | Graz Economics Blog

  4. Pingback: Die ökonomischen Konsequenzen des Coronovirus – ein genauerer Schätzer der Dunkelziffer | Graz Economics Blog

  5. Pingback: Estimating the proportion of Corona cases with a random sample | Graz Economics Blog

  6. Pingback: Estimating the proportion of Corona cases with a random sample – The Game Theory of Everyday Life

Leave a comment