Daten & Statistik — Klausur-Lösungen

Daten & Statistik

KLAUSUR-LÖSUNGEN & ERKLÄRUNGEN · 7 AUFGABEN

Diese Seite erklärt sieben Klausuraufgaben aus Daten und Statistik Schritt für Schritt — anfängergerecht, mit Formeln und Grafiken. Das Kürzel KI steht hier durchgehend für Konfidenzintervall, nicht für künstliche Intelligenz.

Hinweis zu Frage 5: Die Aussagen a) und c) sind konventionsabhängig — ihre Richtigkeit hängt von den genauen Definitionen im Skript ab. Diese Stellen sind transparent als „Wenn-Dann" gekennzeichnet.

Frage 1

Eigenschaften des Konfidenzintervalls für p̂

Das KI für p̂ (Skript, Kapitel 4.2 — richtige Antworten bitte ankreuzen) …

Option a) — FALSCH

„… zeigt, dass der wahre Parameter p mit mindestens (1−α)·100%-iger Wahrscheinlichkeit außerhalb des KIs liegt."

Genau umgekehrt: Der wahre Parameter liegt mit dem Konfidenzniveau (1−α)·100% innerhalb des Intervalls — bzw. das Konstruktionsverfahren überdeckt den wahren Wert in (1−α) aller gedachten Wiederholungen.

Option b) — FALSCH

„… zeigt, dass man ein 99%-KI mit Länge 0,02 (also l = 0,01) realisieren kann, indem n circa auf den Wert 1500 gesetzt wird."

Der nötige Stichprobenumfang (konservativ, Worst-Case $p(1-p)=\tfrac{1}{4}$) beträgt $n = \!\left(\dfrac{z \cdot 0{,}5}{l}\right)^{\!2}$ mit $z \approx 2{,}576$ (99‑%) und $l = 0{,}01$, das ergibt $n \approx 16\,588$ — also weit mehr als 1500.

Option c) — RICHTIG

„… beruht auf der Normalapproximation der Binomialverteilung und ist somit nur für n gegen unendlich genau."

Das Wald-KI nutzt die Normalapproximation der Binomialverteilung. Diese ist nur asymptotisch (n → ∞) exakt; für kleine n ist sie nur eine Näherung.

Option d) — RICHTIG (triviale Eigenschaft)

„… zeigt, dass p̂ immer im KI liegt, weil dieses symmetrisch um den Punktschätzer konstruiert ist."

Das Wald-KI hat die Form $\hat{p} \pm \text{Margin}$, ist also symmetrisch um p̂ zentriert. Damit liegt p̂ zwangsläufig stets im Intervall — logisch wahr, aber eine eher triviale Konsequenz der Bauweise.

Option e) — RICHTIG

„… zeigt, dass man viermal so viele Daten benötigt, wenn man doppelt so genau (also halbe Länge des KI) schätzen möchte."

Da $n \propto 1/l^2$ gilt: Halbiert man die (halbe) Länge $l \to l/2$, so vervierfacht sich der nötige Stichprobenumfang $n \to 4n$.

Richtig: c), d), e)

Für Einsteiger: Was ist ein Konfidenzintervall?

Man zieht eine Stichprobe und berechnet einen Bereich (Intervall), in dem der unbekannte wahre Wert $p$ mit hoher Wahrscheinlichkeit liegt. „95%-KI" heißt: Würde man das Experiment sehr oft wiederholen und jedes Mal ein Intervall berechnen, wären 95 % dieser Intervalle so gebaut, dass sie $p$ enthalten. Der wahre Wert ist fix — das Intervall ist zufällig.

Was ist p̂? Das ist die beobachtete relative Häufigkeit von Erfolgen in der Stichprobe — der Punktschätzer für die unbekannte Erfolgswahrscheinlichkeit $p$. Das Wald-KI baut darauf auf:

$$\hat{p} \pm z_{1-\alpha/2} \cdot \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}$$

Die Länge $l$ und der Stichprobenumfang: Mit der Notation $l$ für den halben Abstand (Margin) gilt im konservativen Worst-Case ($p(1-p) \leq \tfrac14$):

$$n = \left(\frac{z \cdot 0{,}5}{l}\right)^{\!2}$$

Weil $n$ mit $l^{-2}$ skaliert, verdoppelt man die Genauigkeit (halbiertes $l$) nur durch Vervierfachung des Aufwands. Das ist Aussage e).

wahrer Wert p verfehlt! überdeckt p verfehlt p ≈ (1−α) der Intervalle

Grafik A — 9 von 10 Intervallen überdecken den wahren Wert p (schematisch für 90%-Niveau)

l (halbe KI-Länge / Margin) n (Stichprobenumfang) l₀ n₀ l₀/2 4n₀ l halbieren → n vervierfacht sich n ∝ 1/l²

Grafik B — Halbierung der Genauigkeit l₀ → Vervierfachung des Stichprobenumfangs

Frage 2

Welche Methode für welche Fragestellung?

Bei welchen der folgenden Fragestellungen verwenden Sie welche Herangehensweise? Ordnen Sie richtig zu.
Fragestellung / Szenario Richtige Methode
Wahrscheinlichkeit von mehr als zwei Feuerwehreinsätzen innerhalb eines Tages; Daten = Einsatzzahlen eines ganzen Jahres. Poisson-Verteilung anpassen und daraus die gesuchte Wahrscheinlichkeit ableiten.
Illustration der Verteilung der Feinstaubbelastung; Daten = Tageswerte eines ganzen Jahres. Daten geeignet in Klassen einteilen und ein Histogramm erstellen.
Wahrscheinlichkeit, dass ein gefangener Hecht ≥ 70 cm lang ist; Daten = Längen der letzten 30 Hechte. Normalverteilung anpassen und daraus mithilfe der CDF die gesuchte Wahrscheinlichkeit berechnen.

Für Einsteiger: Die drei Faustregeln

  • Anzahl seltener Ereignisse pro Zeit (Feuerwehr, Anrufe, Treffer) → Poisson-Verteilung
  • Stetige Messgröße + Wahrscheinlichkeit eines Bereichs (Länge, Gewicht, Temperatur) → Normalverteilung + Verteilungsfunktion (CDF)
  • Nur darstellen, wie die Daten verteilt sind (kein Modell gefragt) → Histogramm

Beim Hecht-Beispiel sucht man $P(X \ge 70)$. Man passt eine Normalverteilung an (Mittelwert und Standardabweichung aus den 30 Messwerten schätzen) und berechnet:

$$P(X \ge 70) = 1 - F(70) = 1 - \Phi\!\left(\frac{70 - \mu}{\sigma}\right)$$
x = 70 P(X ≥ 70) = 1 − F(70) μ (Mittelwert)

Grafik C — Schattierte Fläche rechts von x = 70 entspricht P(X ≥ 70) = 1 − F(70)

0–10 10–20 20–30 30–40 40–50 50–60 60–70 rel. Häufigkeit Feinstaubbelastung (µg/m³)

Grafik D — Schematisches Histogramm: Feinstaubwerte in Klassen eingeteilt

Frage 3

Poisson-Verteilung an Daten anpassen

Eine Poissonverteilung soll an Daten angepasst werden. (richtige Antworten ankreuzen)

Option a) — RICHTIG

„Man prüft zunächst mögliche Argumente für die Verteilungshypothese (Poissonverteilung) anhand deren Eigenschaften: die Daten sollen z. B. Anzahlen von 'Erfolgen' bei einem Experiment mit jederzeit möglichem Eintreten von Erfolg bei konstanter Rate sein."

Bevor man eine Verteilung anpasst, prüft man, ob die Eigenschaften des Modells zum Sachverhalt passen (Anzahlen pro Zeit-/Raumeinheit, konstante Rate, Unabhängigkeit). Das ist gute statistische Praxis.

Option b) — FALSCH

„Man ermittelt den Wert des Parameters als Summe der Daten dividiert durch Stichprobengröße minus eins, $\frac{1}{n-1}\sum x_i$."

Der korrekte Maximum-Likelihood-Schätzer für λ ist der gewöhnliche Stichprobenmittelwert: $\hat\lambda = \frac{1}{n}\sum x_i$. Der Ausdruck $\frac{1}{n-1}\sum x_i$ ist nicht der richtige Schätzer (er ist leicht verzerrt nach oben). Hinweis: In Frage 6c wird dieser Ausdruck wieder auftauchen — er ist asymptotisch erwartungstreu, aber eben nicht der korrekte λ-Schätzer.

Option c) — FALSCH

„Das geht nur dann, wenn die Daten — wie die Poissonverteilung — auch unendlich hohe Werte haben."

Reale Daten sind immer endlich begrenzt. Die Poisson-Verteilung hat zwar einen unbeschränkten Träger (alle nichtneg. ganzen Zahlen), aber das ist keine Forderung an die Daten. Man passt das Modell trotzdem an.

Option d) — RICHTIG

„Dabei plottet man das Histogramm der Daten (relative Häufigkeiten) gegen die Wahrscheinlichkeiten der Verteilung, wobei man bei letzterer den Schätzwert des Parameters verwendet."

Genau dieser visuelle Vergleich (Daten-Histogramm vs. Poisson-PMF mit geschätztem $\hat\lambda$) ist der klassische Anpassungs-Gütecheck.

Option e) — RICHTIG

„Man kann das Modell mit dem geschätzten Parameter verwenden, um Vorhersagen für das Auftreten von Ereignissen zu machen — etwa die Wahrscheinlichkeit für besonders große, seltene Werte."

Das ist der Hauptnutzen des angepassten Modells: Interpolation und Extrapolation zu Wahrscheinlichkeiten, die in den Rohdaten vielleicht gar nicht vorkommen.

Richtig: a), d), e)

Für Einsteiger: Was ist die Poisson-Verteilung?

Die Poisson-Verteilung beschreibt, wie oft ein Ereignis innerhalb eines festen Zeit- oder Raumintervalls auftritt — vorausgesetzt, die Ereignisse treten unabhängig voneinander mit konstanter Rate λ auf. Typische Beispiele: Feuerwehreinsätze pro Tag, Anrufe pro Stunde, radioaktive Zerfälle pro Sekunde.

Der richtige λ-Schätzer: Bei der Poisson-Verteilung gilt $E[X] = \lambda$ und $\text{Var}(X) = \lambda$. Der beste (unverzerrte) Schätzer für λ ist einfach der Stichprobenmittelwert:

$$\hat{\lambda} = \bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_i$$

Brückenschlag zu Frage 6c

Option b) schlägt $\frac{1}{n-1}\sum x_i$ vor — das ist falsch als Schätzer. Aber in Frage 6c wird gezeigt: Dieser Ausdruck ist asymptotisch erwartungstreu, weil $E\!\left[\frac{1}{n-1}\sum x_i\right] = \frac{n\lambda}{n-1} \to \lambda$ für $n \to \infty$. Für endliches n ist er leicht zu groß — und eben nicht korrekt.

0 1 2 3 4 5 6 Anzahl k rel. Häufigkeiten (Daten) Poisson-PMF mit λ̂ rel. Häufigkeit / P(X=k)

Grafik E — Vergleich Daten-Histogramm vs. Poisson-PMF mit geschätztem λ (schematisch)

Frage 4

Konfidenzintervalle für den Mittelwert — Schützenfisch

Ein Schützenfisch kann mehrere Meter weit „spucken". Messungen (in Metern): 2,1 • 3,5 • 1,9 • 2,7 • 2,9. Ordnen Sie die Antworten richtig zu (alle Angaben mit 4 Nachkommastellen).

Vorberechnete Größen

$n = 5$,  $\bar{x} = \frac{2{,}1 + 3{,}5 + 1{,}9 + 2{,}7 + 2{,}9}{5} = \frac{13{,}1}{5} = 2{,}62$
$s = \sqrt{\frac{1}{n-1}\sum(x_i - \bar x)^2} = 0{,}6419$  (Stichproben-Std., ddof = 1)

Standardabweichung bekannt = 0,65 — Länge eines 95%-KI (oberes minus unteres Ende)

= 1,1395

$L = 2\,z_{0{,}975}\,\dfrac{\sigma}{\sqrt{n}} = 2 \cdot 1{,}95996 \cdot \dfrac{0{,}65}{\sqrt{5}} \approx 1{,}1395$

Standardabweichung unbekannt — Länge eines 90%-KI (t-Verteilung)

= 1,2239

$L = 2\,t_{0{,}95,\,4}\,\dfrac{s}{\sqrt{n}} = 2 \cdot 2{,}13185 \cdot \dfrac{0{,}6419}{\sqrt{5}} \approx 1{,}2239$

Punktschätzer für den Erwartungswert

= 2,6200

Das ist einfach der Stichprobenmittelwert $\bar x = 2{,}62$.

Wichtig: Wann z, wann t?

σ bekannt (explizit gegeben = 0,65): Man verwendet die Standard-Normalverteilung (z-Wert). Das KI ist schmäler, weil keine Unsicherheit über σ besteht.

σ unbekannt (nur Stichproben-Std. s verfügbar): Man verwendet die t-Verteilung (df = n − 1 = 4). Die t-Verteilung hat breitere Enden als die Normalverteilung — das KI wird breiter, um die Unsicherheit über σ zu berücksichtigen.

Für Einsteiger: Was ist die „Länge" eines KI?

Ein KI sieht so aus: $[\bar x - \text{Margin},\; \bar x + \text{Margin}]$. Die Länge ist der Abstand zwischen den Enden: $L = \text{oberes Ende} - \text{unteres Ende} = 2 \cdot \text{Margin}$. Die Distraktoren 0,5697 und 0,6120 entsprechen den halben Längen (den Margins) — Achtung, Falle!

Für das 95%-KI mit bekanntem σ gilt $z_{0{,}975} = 1{,}95996$ (z-Quantil), für das 90%-KI mit unbekanntem σ (df=4) gilt $t_{0{,}95,\,4} = 2{,}13185$ (t-Quantil, der wegen kleiner Stichprobe und Unsicherheit über σ größer ist).

$$L_{95\%,\,\sigma\text{ bekannt}} = 2 \cdot 1{,}95996 \cdot \frac{0{,}65}{\sqrt{5}} \approx \mathbf{1{,}1395}$$ $$L_{90\%,\,\sigma\text{ unbekannt}} = 2 \cdot 2{,}13185 \cdot \frac{0{,}6419}{\sqrt{5}} \approx \mathbf{1{,}2239}$$

Beachte: Obwohl 90% < 95%, ist das zweite KI länger — weil der t-Quantil bei df=4 deutlich größer ist als z, und weil σ unbekannt ist. Ab großen Stichproben nähern sich z und t an.

1,5 2,0 2,5 3,0 3,5 Spuckweite (m) 1,9 2,1 2,7 2,9 3,5 x̄=2,62 95%-KI (σ bekannt, z): L = 1,1395 90%-KI (σ unbek., t, df=4): L = 1,2239

Grafik F — Schützenfisch: 5 Datenpunkte, Mittelwert x̄ = 2,62 und die zwei KIs

Frage 5

Eigenschaften von Schätzern

Welche der folgenden Aussagen sind richtig? (richtige Antworten ankreuzen)
?

Option a) — Konditional / skriptabhängig

„Schätzer sind entweder parametrisch oder — wie im Falle der Schätzung des Erwartungswertes — nicht-parametrisch."

Wenn-Dann: Falls das Skript diese Dichotomie genauso einführt (parametrisch = setzt Verteilungsannahme voraus; nicht-parametrisch = ohne), dann ist die Aussage in dieser Lesart richtig — der Stichprobenmittelwert schätzt $E[X]$ ohne Verteilungsannahme und ist in dem Sinne nicht-parametrisch. Skript-Definition prüfen!

Option b) — FALSCH

„Ein Schätzer ist erwartungstreu, wenn er — auf Daten angewendet — den richtigen Wert des Parameters zurückgibt."

Das ist falsch. Erwartungstreue bedeutet $E[\hat\theta] = \theta$ — der Erwartungswert des Schätzers (gemittelt über alle möglichen Stichproben) stimmt mit dem wahren Wert überein. Es ist nicht gefordert, dass eine einzelne konkrete Anwendung (eine Realisation) exakt den wahren Wert trifft.

?

Option c) — Konditional / skriptabhängig

„Das Quadrat der empirischen Standardabweichung ist ein erwartungstreuer, nicht-parametrischer Schätzer für die Varianz einer beliebigen Zufallsvariable mit endlicher Varianz."

Wenn-Dann:
Richtig, falls das Skript „empirische Standardabweichung" mit Vorfaktor $\frac{1}{n-1}$ definiert — dann ist $s^2 = \frac{1}{n-1}\sum(x_i-\bar x)^2$ erwartungstreu für $\text{Var}(X)$ bei beliebiger ZV mit endlicher Varianz.
Falsch/verzerrt, falls das Skript den Faktor $\frac{1}{n}$ meint — dann unterschätzt das Maß die Varianz systematisch. Skript-Definition prüfen!

Option d) — RICHTIG

„Schätzer sind Zufallsvariable und haben deshalb eine Verteilung. Wendet man den Schätzer auf konkrete Daten an, erhält man eine Realisation, also einen Wert."

Korrekt. Ein Schätzer $\hat\theta(X_1,\ldots,X_n)$ ist eine Funktion von zufälligen Stichprobenvariablen — damit selbst eine Zufallsvariable mit eigener Verteilung (z. B. Stichprobenverteilung des Mittelwerts). Der konkrete berechnete Zahlenwert (z. B. $\bar x = 2{,}62$) ist eine Realisation dieser ZV.

Option e) — RICHTIG

„Ein Schätzer, der mit zunehmender Versuchszahl immer seltener (mit immer geringerer Wahrscheinlichkeit) um mehr als 1 % vom wahren Wert abweicht, ist konsistent."

Das ist genau die Definition der schwachen Konsistenz (für $\varepsilon = 0{,}01$, aber das Prinzip gilt allgemein): $P(|\hat\theta_n - \theta| > \varepsilon) \to 0$ für alle $\varepsilon > 0$.

Sicher richtig: d), e)  |  Sicher falsch: b)  |  Konditional (Wenn-Dann): a), c)

Für Einsteiger: Was ist ein Schätzer?

Ein Schätzer ist eine Rechenvorschrift, die aus Daten einen Wert für einen unbekannten Parameter berechnet. Zum Beispiel: $\bar x = \frac{1}{n}\sum x_i$ schätzt den unbekannten Erwartungswert $\mu$. Weil die Daten zufällig sind, ist auch das Ergebnis des Schätzers zufällig — verschiedene Stichproben geben verschiedene Schätzwerte.

Erwartungstreue ($E[\hat\theta] = \theta$): Im Durchschnitt (über alle möglichen Stichproben) trifft der Schätzer den wahren Wert. Kein Einzelresultat muss exakt passen. Beispiel: $\bar x$ ist erwartungstreu für $\mu$.

$$E[\bar{X}] = \frac{1}{n}\sum_{i=1}^{n} E[X_i] = \mu \quad \checkmark$$

Konsistenz: Mit wachsendem Stichprobenumfang wird der Schätzer immer genauer — die Wahrscheinlichkeit einer großen Abweichung geht gegen null.

$$\text{Konsistenz: } P\!\left(|\hat\theta_n - \theta| > \varepsilon\right) \xrightarrow{n \to \infty} 0 \quad \text{für alle } \varepsilon > 0$$

Achtung: a) und c) hängen vom Skript ab

Falls in der Klausur a) oder c) gefordert ist: Schau in die Skript-Definitionen. Diese Seite kann keine bindende Aussage machen, da die Klassifikation (parametrisch/nicht-parametrisch) und die Definition der „empirischen Standardabweichung" (Nenner n vs. n−1) lehrstuhlspezifisch sind.

Frage 6

Asymptotische Erwartungstreue

Welche der folgenden Schätzer sind zumindest asymptotisch erwartungstreu (diese bitte ankreuzen)? Hinweis: Ein Schätzer ist (siehe Skript) asymptotisch erwartungstreu, wenn der Erwartungswert des Schätzers für steigende Stichprobengröße gegen den wahren Wert konvergiert.

Option a) — RICHTIG

„Die relative Häufigkeit von Erfolgen als Schätzer für den Parameter p einer Bernoulli-Verteilung."

$E[\hat p] = p$ (exakt für alle n, weil $\hat p = \bar x$ bei 0/1-Daten und $E[X_i] = p$). Damit ist $\hat p$ sogar exakt erwartungstreu — erst recht asymptotisch erwartungstreu.

Option b) — FALSCH (subtile Falle!)

„Der Kehrwert des Mittelwerts der Daten ($1/\bar x$) als Schätzer für den Erwartungswert der geometrischen Verteilung."

Das ist eine subtile Falle. Bei der geometrischen Verteilung gilt $E[X] = 1/p$. Der Mittelwert $\bar x$ konvergiert gegen $E[X] = 1/p$, also konvergiert $1/\bar x$ gegen $p$ — also gegen den Parameter p, nicht gegen den Erwartungswert $1/p$. Als Schätzer für den Erwartungswert ist $1/\bar x$ falsch; er ist ein (asymptotisch erwartungstreuer) Schätzer für p.

Option c) — RICHTIG

„Die Summe der Daten dividiert durch die Stichprobengröße minus 1 ($\frac{1}{n-1}\sum x_i$) als Schätzer für den Parameter λ einer Poissonverteilung."

$E\!\left[\frac{1}{n-1}\sum x_i\right] = \frac{n\lambda}{n-1}$. Für $n \to \infty$ gilt $\frac{n}{n-1} \to 1$, also konvergiert der Erwartungswert des Schätzers gegen λ. Damit ist er asymptotisch erwartungstreu. (Für endliches n ist er leicht nach oben verzerrt — das ist 3b aus Frage 3.)

Richtig: a), c)

Für Einsteiger: Asymptotische Erwartungstreue

Ein Schätzer muss nicht für alle n perfekt sein. Es reicht, wenn er im Grenzfall (große Stichprobe) im Mittel den richtigen Wert liefert: $E[\hat\theta_n] \to \theta$ für $n \to \infty$. „Asymptotisch" bedeutet: gilt erst für große n, nicht unbedingt für kleine.

$$E\!\left[\frac{1}{n-1}\sum_{i=1}^{n} x_i\right] = \frac{n\lambda}{n-1} \xrightarrow{n\to\infty} \lambda$$

Verbindung zu Frage 3b

In Frage 3 war $\frac{1}{n-1}\sum x_i$ als λ-Schätzer falsch — denn der korrekte (unverzerrte) Schätzer ist $\frac{1}{n}\sum x_i$. Hier in Frage 6 ist derselbe Ausdruck richtig — weil die Frage nur nach asymptotischer Erwartungstreue fragt, und die gilt. Beide Aussagen sind konsistent und ergänzen sich.

Warum ist b) falsch? Geometrische Verteilung: $P(X=k) = (1-p)^{k-1}\!p$, $E[X] = 1/p$. Wenn $1/\bar x$ für $p$ konvergiert, dann konvergiert er gegen das Inverse des Erwartungswertes — nicht gegen den Erwartungswert selbst. Man würde daher $\bar x$ (nicht $1/\bar x$) als Schätzer für $E[X] = 1/p$ nehmen.

Frage 7

Konfidenzintervalle & Stichprobenumfang für Anteile — Brieflose

Die Chance, in einem Brieflos einen Gewinn vorzufinden, soll ermittelt werden. Dazu werden Brieflose gekauft und geöffnet. Ordnen Sie richtig zu und bedenken Sie, dass Konfidenzintervalle für p̂ auf Werte im Intervall [0,1] beschränkt werden — also z. B. keine negativen Werte enthalten, da auch p keine solchen Werte annehmen kann.

Konservatives KI — Worst-Case-Annahme

Diese Aufgabe verwendet das konservative Konfidenzintervall: Statt $p(1-p)$ mit dem geschätzten $\hat p$ zu berechnen, nimmt man den Worst-Case-Wert $p(1-p) \le \tfrac{1}{4}$ (Maximalwert bei $p=0{,}5$). Der Margin ist dann: $$M = z \cdot \frac{0{,}5}{\sqrt{n}}$$ Der Vorteil: Das Intervall ist sicher breit genug, egal wie $\hat p$ ausfällt.

Gewinnwahrscheinlichkeit mit 95%-iger Sicherheit auf ±1 % einschätzen ⇒ so viele Lose kaufen:

= 9604

$n = \left(\dfrac{z \cdot 0{,}5}{l}\right)^{\!2} = \left(\dfrac{1{,}95996 \cdot 0{,}5}{0{,}01}\right)^{\!2} = 97{,}998^2 \approx 9604$  (auf die nächste ganze Zahl aufgerundet)

15 Lose, 4 Gewinne90%-KI: Margin (konservativ)

= 0,2123

$M = z_{0{,}95} \cdot \dfrac{0{,}5}{\sqrt{15}} = 1{,}64485 \cdot \dfrac{0{,}5}{\sqrt{15}} \approx 0{,}2123$  (Distraktor 0,4246 = volle Länge = 2·Margin!)

10 Lose, 2 Gewinne90%-KI, unterer Rand

= 0

$\hat p = 2/10 = 0{,}2$. Naiver unterer Rand: $0{,}2 - 1{,}64485 \cdot \dfrac{0{,}5}{\sqrt{10}} = 0{,}2 - 0{,}2601 = -0{,}0601$. Da $p \in [0,1]$, wird auf 0 geclippt. Distraktor −0,0601 = nicht-geclippter (falscher) Wert.

Für Einsteiger: Margin vs. Länge vs. Rand

  • Margin (= halbe Länge) $M = z \cdot 0{,}5/\sqrt{n}$: der Abstand vom Mittelpunkt zum Rand.
  • Länge $L = 2M$: Abstand unteres → oberes Ende.
  • Unterer Rand $= \hat p - M$ (aber nie < 0).
  • Oberer Rand $= \hat p + M$ (aber nie > 1).

Clipping auf [0,1]: Wenn der rechnerische Rand negativ wird (wie hier −0,0601), ist das physikalisch sinnlos — Wahrscheinlichkeiten sind nie negativ. Daher setzt man den unteren Rand auf max(0, unterer Rand) = 0.

$$\text{Unterer Rand} = \max\!\left(0,\; \hat{p} - z \cdot \frac{0{,}5}{\sqrt{n}}\right) = \max(0,\; -0{,}0601) = \mathbf{0}$$
0 1 p̂=0,2 −0,0601 (ungültig) 90%-KI (geclippt) = [0 ; 0,4601] Clipping bei 0

Das rohe KI ragt unter 0 (rot gestrichelt) — es wird auf den gültigen Bereich [0,1] geclippt (grün)

Warum z0,95 = 1,64485? Beim zweiseitigen 90%-KI verteilen sich die 10 % auf beide Seiten: je 5 % oben und unten. Daher nimmt man das 95%-Quantil der Standardnormalverteilung.

Notebook

Jupyter-Notebook: Daten_und_Statistik_KIs.ipynb

Das Notebook notebook/Daten_und_Statistik_KIs.ipynb berechnet die konkreten Konfidenzintervalle und Stichprobenumfänge der Klausur (Fragen 1, 4 und 7) und gibt die Ergebnisse zur Selbstkontrolle aus. Es wird nicht auf dieser Seite beschrieben — die Erklärungen stehen in den Fragen-Sektionen oben.

Abschnitt A — Mittelwert-KI (Frage 4)

Eingabe: daten = [2.1, 3.5, 1.9, 2.7, 2.9], sigma_bekannt = 0.65, Konfidenzniveaus (95 % für bekanntes σ, 90 % für unbekanntes σ). Berechnet: Mittelwert, Stichproben-Std. (ddof = 1), KI bei bekanntem σ (z-Wert) und bei unbekanntem σ (t-Wert, df = n−1 = 4). Ausgabe: Länge, Margin, Intervall, Punktschätzer.

Abschnitt B — Anteils-KI & Stichprobenumfang (Fragen 7 & 1)

Eingabe: erfolge, versuche, Konfidenzniveau, gewünschte Genauigkeit l. Berechnet konservativen Margin $z \cdot 0{,}5/\sqrt{n}$, clipped auf [0,1], sowie Stichprobenumfang $n = \lceil (z \cdot 0{,}5 / l)^2 \rceil$.

Alle austauschbaren Eingaben sind mit einem Kommentarblock # ===== HIER WERTE ÄNDERN ===== markiert: Daten-Liste, bekannte Standardabweichung σ, Konfidenzniveau, erfolge/versuche, gewünschte Genauigkeit l. Einfach nur diese Blöcke anpassen und die Zelle neu ausführen.

# ===== HIER WERTE ÄNDERN ===== daten = [2.1, 3.5, 1.9, 2.7, 2.9] sigma_bekannt = 0.65 niveau_bekannt = 0.95 # für σ bekannt niveau_unbekannt = 0.90 # für σ unbekannt (t-Test) # ============================== n = len(daten) x_bar = np.mean(daten) s = np.std(daten, ddof=1) z = stats.norm.ppf(1 - (1 - niveau_bekannt) / 2) L_z = 2 * z * sigma_bekannt / np.sqrt(n) # → 1.1395 t = stats.t.ppf(1 - (1 - niveau_unbekannt) / 2, df=n-1) L_t = 2 * t * s / np.sqrt(n) # → 1.2239

Erwartete Ergebnisse

  • Frage 4 — Länge 95%-KI (σ bekannt): 1,1395
  • Frage 4 — Länge 90%-KI (σ unbek., t): 1,2239
  • Frage 4 — Punktschätzer x̄: 2,6200
  • Frage 7 — Stichprobenumfang (±1%, 95%): 9604
  • Frage 7 — Margin (15 Lose, 90%, konservativ): 0,2123
  • Frage 7 — Unterer Rand (10 Lose, 2 Gewinne, 90%): 0

Benötigt: Python mit numpy und scipy. Starten mit Jupyter (jupyter notebook) oder direkt in VS Code (Jupyter-Extension). Alle Pakete per pip install numpy scipy installierbar.