Die ökonomischen Konsequenzen des Coronovirus – ein genauerer Schätzer der Dunkelziffer

Es geht hier nochmal um die Dunkelziffer der Coronaviruskranken in Österreich und darum, wie man diese aus der von SORA durchgeführten Stichprobe schätzen kann. Wie schon in meinem vorigen Blogeintrag zu dem Thema erkläre ich hier wieder, wie man die zusätzliche Information, die man über die Coronaerkrankten hat, zu einem genaueren Schätzer nutzen kann. Der Vorteil in diesem Blogeintrag ist der, dass ich genauere Schätzungen bekomme, ohne neue Daten zu erheben. Ich nutze hier etwas mehr von der Information, die SORA in ihrem Bericht geliefert haben.

 

Wie in meinem vorigen Blogeintrag zu dem Thema ist  p=\mu q   die Wahrscheinlichkeit, dass eine Person am Coronavirus erkrankt ist, wobei  q   die Wahrscheinlichkeit ist, dass eine Person durch die gängige Methode als coronakrank klassifiziert wurde und  \mu  der Multiplikatorfaktor von coronagemeldet zu echt coronakrank (also der Dunkelzifferfaktor) ist. Den Faktor  \mu kann man auch wie folgt erklären:  \frac{1}{\mu} ist die Wahrscheinlichkeit, dass eine Person durch die gängige Methode als coronakrank deklariert wird, gegeben, dass diese Person den Coronavirus tatsächlich hat. Die Wahrscheinlichkeit  q  ist bekannt und lag zum Zeitpunkt der Stichprobe (ich nehme den 3. 4.) in Österreich in etwa bei 1/758 (bei zu dem Zeitpunkt 8,636.364 geschätzten Menschen in Österreich und 11383 gemeldeten Fällen). Für die Analyse, die ich hier vornehme, ist es nicht notwendig anzunehmen, dass die gängige Methode, wie es zu einer Coronakrankmeldung kommt, in allen Regionen Österreichs gleich ist. Wenn die Stichprobe zufällig ist, ist das ausreichend. Die echte Stichprobe war etwas gewichtet, was leichte Probleme macht, die ich hier aber ignoriere.

Wir nehmen also eine Zufallsstichprobe mit  n  Menschen in Österreich, wobei in der tatsächlichen Stichprobe  n= 1544. Eigentlich sollte ich auch einen Blogeintrag zu den 456 Menschen in der 2000 großen Stichprobe schreiben, die nicht teilgenommen haben, um die potentiell dadurch entstehende Verzerrung zu diskutieren. Das werde ich aber nicht machen. Von den  n  Befragten sei nun  X  die Anzahl der Coronakranken und  Y \le X  die Anzahl derer in der Stichprobe, die schon gemeldet waren. Laut SORA’s Bericht waren das  X=5 (wenn man, wie SORA es tat, die Gewichtung berücksichtigt) und  Y = 3 in der Stichprobe (ungewichtet, weil es so angegeben ist und ich die Gewichtung selbst nicht kenne).

Nennen wir  \hat{\mu}_S = \frac{X}{nq} den Standardschätzer für  \mu . Ich schlage hier nun einen alternativen Schätzer vor, der, unter den gegebenen Annahmen, bessere Eigenschaften hat:  \hat{\mu}_A = 1+\frac{X-Y}{qn}. Man kann zeigen, dass dieser Schätzer eine für unsere Fälle recht gute Approximation des maximum-likelihood Schätzers ist. Genau wie der Standardschätzer ist der alternative Schätzer erwartungstreu:  \mathbb{E}\left[\hat{\mu}_A\right]=1+\frac{n\mu q - nq}{qn} = \mu.

Nun können wir die Varianzen der beiden Schätzer vergleichen:

 \mathbb{V}\left[\hat{\mu}_S\right] = \frac{\mu(1-\mu q)}{nq} \approx \frac{\mu}{nq},

und, da  X-Y binomialverteilt ist mit Wahrscheinlichkeit  \mu q \left(1-\frac{1}{\mu}\right),
 \mathbb{V}\left[\hat{\mu}_A\right] = \frac{(\mu-1)(1-q(\mu-1))}{nq} \approx \frac{\mu-1}{nq}.

Daher ist (bei kleinem  q) das Verhältnis der beiden Varianzen
 \frac{\mathbb{V}\left[\hat{\mu}_A\right]}{\mathbb{V}\left[\hat{\mu}_S\right]} = \frac{\mu-1}{\mu} < 1.

Speziell bei relativ kleinem  \mu  (wie es im österreichischem Coronavirusfall wohl ist) ist der alternative Schätzer um einiges genauer. Der alternative Schätzer hat auch den Vorteil, dass er nie unter 1 sein kann. Es kann also nicht vorkommen, dass die prognostizierte Anzahl der Coronakranken unter der zu dem Zeitpunkt gemeldeten Zahl Coronakranker liegt.

Man kann nun ein 95% Konfidenzintervall für  \mu  (und dadurch auch für die Dunkelziffer aller Coronakranken in Österreich am 3.4.2020) angeben. Ich verwende hier nun, wie im Bericht SORA’s, die Clopper-Pearson Methode, die recht genau ist. Da ich die Gewichtung nicht genau kenne, gebe ich die alternative Schätzung für beide Fälle  Y=2  und  Y=3  an. Vermutlich sollte man die beiden Fälle in etwa mitteln, wobei ich eben nicht genau weiß wie, um das richtigste Intervall zu bekommen.

 \begin{array}{c|ccc} & \hat{\mu}_S & \hat{\mu}_A (Y=3) & \hat{\mu}_A (Y=2) \\ \hline \mbox{Sch\"atzung f\"ur } \mu & 2,46 & 1,98 & 2,47 \\ \mbox{untere Grenze f\"ur } \mu & 0,87 & 1,12 & 1,30 \\ \mbox{obere Grenze f\"ur }\mu & 5,72 & 4,54 & 5,30 \\ \mbox{untere Grenze Coronakranke } & 9.866 & 12.738 & 14.845 \\ \mbox{gesch\"atzte Zahl Coronakranke } & 27.968 & 22.570 & 28.164 \\ \mbox{obere Grenze Coronakranke } & 65.126 & 51.726 & 60.331 \end{array}

 

Wie man sieht, sind die Konfidenzintervalle, basierend auf dem etwas genaueren alternativen Schätzer, um einiges kleiner.

 

3 thoughts on “Die ökonomischen Konsequenzen des Coronovirus – ein genauerer Schätzer der Dunkelziffer

  1. Ein Problem mit diesen Schätzungen ist, dass sie implizit einen perfekten Test unterstellen, insbesondere dass es keine Fehler 1. Art (falsche Positiv-Ergebnisse) und 2. Art (falsche Negative) gibt.

    Solange die Prävalenz gering ist, also sagen wir im niedrigen einstelligen Prozentbereich, liefert selbst ein sehr guter Test nur sehr uninformative Daten. Sagen wir die Spezifität des Tests ist 99% (d.h. die Wahrscheinlichkeit eines Fehlers 1. Art is 1%). Dann kann man erwarten, dass in einer Zufallsstichprobe von 1500 Personen 15 positiv sind, selbst wenn in Wahrheit niemand infiziert ist. D.h. die 5 positiven Personen in der SORA-Stichprobe sind konsistent mit der Nullhypothese, dass niemand infiziert ist. Ich finde keine konkreten Angaben wie hoch die Spezifität der Tests in Österreich ist, aber ich wäre erstaunt, wenn sie höher als 99% ist. D.h. das Konfidenzintervall für die wahre Infektionszahl sollte viel breiter sein als oben und sollte 0 inkludieren.

    Die obigen Konfidenzintervalle berücksichtigen nur eine Quelle der Unsicherheit: sampling error. Die Ungenauigkeit der Tests ist aber eine mindestens gleich große Unsicherheitsquelle. Meine Bottom Line ist: genaue Angaben zur tatsächlichen Infektionszahl sind derzeit einfach nicht möglich.

  2. Pingback: Estimating the proportion of Corona cases with a random sample | Graz Economics Blog

  3. Pingback: Estimating the proportion of Corona cases with a random sample – The Game Theory of Everyday Life

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s