---
fontsize: 8pt
format:
  beamer:
    include-in-header: ../ALM_Header.tex
bibliography: ../ALM_Referenzen.bib
---


# {.plain}
<!-- Vorlesungstitel -->
\center
```{r, echo = F, out.width = "20%"}
knitr::include_graphics("../OvGU_Logo.png")
```

\vspace{2mm}
\huge
Allgemeines Lineares Modell

\vspace{6mm}
\large
BSc Psychologie, SoSe 2026

\vspace{5mm}
Joram Soch


<!-- Sitzung 6: Parameterschätzung -->
# {.plain}

\vfill
\center
\huge
\textcolor{black}{(6) Parameterschätzung}
\vfill


<!-- Überblick: Naturwissenschaft -->
#

\large
Naturwissenschaft

\vspace{8mm}
```{r, echo = F, out.width = "90%", fig.align = "center"}
knitr::include_graphics("Abbildungen/wissenschaft.pdf")
```


<!-- Überblick: Modellformulierung, Modellschätzung, Modellevaluation -->
#

\vspace{1mm}
\large

Modellformulierung
\vspace{-1mm}

\begin{equation}
y = X\beta + \varepsilon, \quad
\varepsilon \sim N(0_n,\sigma^2I_n)
\end{equation}
\vspace{1mm}

Modellschätzung

\begin{equation}
\hat{\beta} = (X^\mathrm{T} X)^{-1} X^\mathrm{T} y, \quad
\hat{\sigma}^2 = \frac{1}{n-p} (y-X\hat{\beta})^\mathrm{T} (y-X\hat{\beta})
\end{equation}
\vspace{1mm}

Modellevaluation

\begin{equation}
T = \frac{c^\mathrm{T} \hat{\beta} - c^\mathrm{T} \beta_0}{\sqrt{\hat{\sigma}^2 c^\mathrm{T}(X^\mathrm{T} X)^{-1} c}}, \quad
F = \frac{(\hat{\varepsilon}_0^\mathrm{T} \hat{\varepsilon}_0 - \hat{\varepsilon}^\mathrm{T} \hat{\varepsilon})/p_1}{\hat{\varepsilon}^\mathrm{T} \hat{\varepsilon}/(n-p)}
\end{equation}


<!-- Überblick: Standardprobleme Frequentistischer Inferenz -->
#

Standardprobleme Frequentistischer Inferenz

\small
\vspace{2mm}
\noindent (1) Parameterschätzung

Ziel der Parameterschätzung ist es, einen möglichst guten Tipp für wahre, aber unbekannte, Parameterwerte oder Funktionen dieser abzugeben, typischerweise mithilfe von Daten.

\vspace{2mm}
\noindent (2) Konfidenzintervalle

Ziel der Bestimmung von Konfidenzintervallen ist es, basierend auf der angenommenen Verteilung der Daten eine quantitative Aussage über die mit Schätzwerten assoziierte Unsicherheit zu treffen.

\vspace{2mm}
\noindent (3) Hypothesentests

Ziel des Hypothesentestens ist es, basierend auf der angenommenen Verteilung der Daten in einer möglichst zuverlässigen Form zu entscheiden, ob ein wahrer, aber unbekannter Parameterwert in einer von zwei sich gegenseitig ausschließenden Untermengen des Parameterraumes liegt.


<!-- Überblick: Standardprobleme Frequentistischer Inferenz -->
#

\center
```{r, echo = F, out.width = "100%"}
knitr::include_graphics("Abbildungen/frequentistische_inferenz.pdf")
```

\center
\footnotesize
$\theta := (\beta,\sigma^2)$, \quad
$\Theta := \mathbb{R}^p \times \mathbb{R}_{>0}$, \quad
$\mathbb{P}_\theta(y) := \mathbb{P}_{\beta,\sigma^2}(y)$ \quad
mit WDF \quad
$p_{\beta,\sigma^2}(y) := N(y;X\beta,\sigma^2I_n)$


<!-- Standardannahmen Frequentistischer Inferenz -->
#

\small
Standardannahmen Frequentistischer Inferenz

\footnotesize
\setstretch{1.2}
Gegeben sei das Allgemeine Lineare Modell. Es wird angenommen, dass ein vorliegender Datensatz eine der möglichen Realisierungen der Daten des Modells ist. Aus Frequentistischer Sicht kann man unendlich oft Datensätze aus einem Modell generieren und zu jedem Datensatz Schätzer oder Statistiken auswerten, z.B. den Betaparameterschätzer:

\vspace{1mm}
\begin{itemize}
\item[] Datensatz (1) : $y^{(1)} = \left(y_1^{(1)}, y_2^{(1)}, ...,y_n^{(1)}\right)^\mathrm{T}$ mit $\hat{\beta}^{(1)} = (X^\mathrm{T} X)^{-1}X^\mathrm{T} y^{(1)}$
\item[] Datensatz (2) : $y^{(2)} = \left(y_1^{(2)}, y_2^{(2)}, ...,y_n^{(2)}\right)^\mathrm{T}$ mit $\hat{\beta}^{(2)} = (X^\mathrm{T} X)^{-1}X^\mathrm{T} y^{(2)}$
\item[] Datensatz (3) : $y^{(3)} = \left(y_1^{(3)}, y_2^{(3)}, ...,y_n^{(3)}\right)^\mathrm{T}$ mit $\hat{\beta}^{(3)} = (X^\mathrm{T} X)^{-1}X^\mathrm{T} y^{(3)}$
\item[] Datensatz (4) : $y^{(4)} = \left(y_1^{(4)}, y_2^{(4)}, ...,y_n^{(4)}\right)^\mathrm{T}$ mit $\hat{\beta}^{(4)} = (X^\mathrm{T} X)^{-1}X^\mathrm{T} y^{(4)}$
\item[] Datensatz (5) : $y^{(5)} = ...$
\end{itemize}

\vspace{1mm}
Um die Qualität statistischer Methoden zu beurteilen betrachtet die Frequentistische Statistik die Wahrscheinlichkeitsverteilungen von Schätzern und Statistiken unter Annahme der Datenverteilung. Was zum Beispiel ist die Verteilung von $\hat{\beta}^{(1)}$, $\hat{\beta}^{(2)}$, $\hat{\beta}^{(3)}$, $\hat{\beta}^{(4)}$, ..., also die
Verteilung der Zufallsvariable $\hat{\beta} := (X^\mathrm{T} X)^{-1}X^\mathrm{T} y$? Wenn eine statistische Methode im Sinne der Frequentistischen Standardannahmen "gut" ist, dann heißt das also, dass sie bei häufiger Anwendung "im Mittel gut" ist. Im Einzelfall, also im Normalfall nur eines vorliegenden Datensatzes, kann sie auch "schlecht" sein.


<!-- Inhaltsverzeichnis -->
#

\large
\setstretch{2}
\vfill

Allgemeine Theorie

Unabhängige und identisch normalverteilte Zufallsvariablen

Einfache lineare Regression

Chi-Quadrat-Zufallsvariablen

Frequentistische Schätzerverteilungen

Selbstkontrollfragen

\vfill


<!-- Abschnitt 1: Allgemeine Theorie -->
#

\large
\setstretch{2}
\vfill

**Allgemeine Theorie**

Unabhängige und identisch normalverteilte Zufallsvariablen

Einfache lineare Regression

Chi-Quadrat-Zufallsvariablen

Frequentistische Schätzerverteilungen

Selbstkontrollfragen

\vfill


<!-- Theorem: Betaparameterschätzer -->
# Allgemeine Theorie

\footnotesize
\begin{theorem}[Betaparameterschätzer]

\justifying
\normalfont
Gegeben seien das ALM
\begin{equation}
y = X\beta + \varepsilon 
\quad \mbox{mit} \quad
\varepsilon \sim N(0_n,\sigma^2 I_n)
\end{equation}

und der \textit{Betaparameterschätzer}
\begin{equation}
\hat{\beta} := \left(X^\mathrm{T} X\right)^{-1}X^\mathrm{T} y.
\end{equation}

Dann gilt, (1) dass $\hat{\beta}$ die Summe der Abweichungsquadrate minimiert,
\begin{equation}
\hat{\beta} = \argmin_{\tilde{\beta}} (y-X\tilde{\beta})^\mathrm{T} (y-X\tilde{\beta}),
\end{equation}
(2) dass $\hat{\beta}$ ein Maximum-Likelihood-Schätzer und (3) dass $\hat{\beta}$ ein unverzerrter Schätzer von $\beta \in \mathbb{R}^p$ ist.

\end{theorem}

Bemerkungen
\vspace{-2mm}

* Das Theorem gibt eine Formel an, um $\beta$ anhand von Designmatrix und Daten zu schätzen.
* Da $\hat{\beta}$ die Summe der Abweichungsquadrate minimiert, heißt $\hat{\beta}$ auch Kleinste-Quadrate-Schätzer (KQ-Schätzer).
* Die $\tilde{\beta}$ Notation des Maximierungarguments dient lediglich zur Abgrenzung vom w.a.u. Parameter $\beta$.
* Als ML-Schätzer ist $\hat{\beta}$ weiterhin konsistent, asymptotisch normalverteilt und asymptotisch effizient.
* Wir werden später sehen, dass $\hat{\beta}$ sogar normalverteilt ist.
* Außerdem hat $\hat{\beta}$ die "kleinste Varianz" in der Klasse der linearen unverzerrten Schätzer von $\beta$.
* Letztere Eigenschaft ist Kernaussage des \textit{Gauss-Markov-Theorems}, auf das wir hier nicht näher eingehen wollen.
* Für eine Diskussion und einen Beweis des Gauss-Markov-Theorems, siehe z.B. @searle1971, Kapitel 3.


<!-- Beweis -->
# Allgemeine Theorie

\footnotesize
\underline{Beweis}

\noindent (1) Wir zeigen in einem ersten Schritt, dass $\hat{\beta}$ die Summe der Abweichungsquadrate
\begin{equation}
(y-X\tilde{\beta})^\mathrm{T}(y-X\tilde{\beta})
\end{equation}

minimiert. Dazu halten wir zunächst fest, dass
\begin{equation}
\hat{\beta} = (X^\mathrm{T}X)^{-1}X^\mathrm{T}y
\quad \Leftrightarrow \quad
X^\mathrm{T}X\hat{\beta} = X^\mathrm{T}y
\quad \Leftrightarrow \quad
X^\mathrm{T}y - X^\mathrm{T}X\hat{\beta} = 0_p
\quad \Leftrightarrow \quad
X^\mathrm{T}(y - X\hat{\beta}) = 0_p \; .
\end{equation}

Weiterhin gilt dann auch, dass
\begin{equation}
X^\mathrm{T}(y - X\hat{\beta}) = 0_p
\quad \Leftrightarrow \quad
\left(X^\mathrm{T}(y - X\hat{\beta})\right)^\mathrm{T} = 0_p^\mathrm{T}
\quad \Leftrightarrow \quad
(y - X\hat{\beta})^\mathrm{T}X = 0_p^\mathrm{T} \; .
\end{equation}

Weiterhin halten wir ohne Beweis fest, dass für jede Matrix $X \in \mathbb{R}^{n \times p}$ gilt, dass
\begin{equation}
z^\mathrm{T}X^\mathrm{T}Xz \ge 0
\quad \mbox{für alle} \quad
z \in \mathbb{R}^p \; .
\end{equation}

Wir betrachten nun die Summe der Abweichungsquadrate
\begin{equation}
(y - X\tilde{\beta})^\mathrm{T}(y - X\tilde{\beta}) \; .
\end{equation}


<!-- Beweis -->
# Allgemeine Theorie

\footnotesize
\underline{Beweis (fortgeführt)}

Es ergibt sich dann
\begin{align*}
\begin{split}
& \hphantom{=} \;\; (y-X\tilde{\beta})^\mathrm{T}(y- X\tilde{\beta}) \\
& = (y-X\hat{\beta} + X\hat{\beta}- X\tilde{\beta})^\mathrm{T}(y-X\hat{\beta} + X\hat{\beta} - X\tilde{\beta}) \\
& = ((y- X\hat{\beta}) + X(\hat{\beta}-\tilde{\beta}))^\mathrm{T}((y-X\hat{\beta}) + X(\hat{\beta} -\tilde{\beta})) \\
& = (y-X\hat{\beta})^\mathrm{T}(y- X\hat{\beta}) + (y -  X\hat{\beta})^\mathrm{T} X(\hat{\beta} -\tilde{\beta})
  + (\hat{\beta}-\tilde{\beta})^\mathrm{T}X^\mathrm{T}(y- X\hat{\beta})
  + (\hat{\beta}-\tilde{\beta})^\mathrm{T}X^\mathrm{T}X(\hat{\beta} -\tilde{\beta}) \\
& = (y -  X\hat{\beta})^\mathrm{T}(y -  X\hat{\beta}) + 0_p^\mathrm{T}(\hat{\beta} -\tilde{\beta})
  + (\hat{\beta} -\tilde{\beta})^\mathrm{T}0_p
  + (\hat{\beta} -\tilde{\beta})^\mathrm{T}X^\mathrm{T}X(\hat{\beta} -\tilde{\beta}) \\
& = (y- X\hat{\beta})^\mathrm{T}(y-X\hat{\beta}) + (\hat{\beta} -\tilde{\beta})^\mathrm{T}X^\mathrm{T}X(\hat{\beta} -\tilde{\beta}) \; .
\end{split}
\end{align*}

Auf der rechten Seite obiger Gleichung ist nur der zweite Term von $\tilde{\beta}$ abhängig. Da für diesen Term gilt, dass
\begin{equation}
(\hat{\beta} -\tilde{\beta})^\mathrm{T}X^\mathrm{T}X(\hat{\beta} -\tilde{\beta}) \ge 0 \; ,
\end{equation}

nimmt dieser Term genau dann seinen Minimalwert $0$ an, wenn
\begin{equation}
(\hat{\beta} -\tilde{\beta}) = 0_p
\quad \Leftrightarrow \quad
\tilde{\beta} = \hat{\beta} \; .
\end{equation}

Also gilt
\begin{equation}
\hat{\beta} = \argmin_{\tilde{\beta}} (y - X\tilde{\beta})^\mathrm{T}(y - X\tilde{\beta}) \; .
\end{equation}


<!-- Beweis -->
# Allgemeine Theorie

\footnotesize
\underline{Beweis (fortgeführt)}

\noindent (2) Um zu zeigen, dass $\hat{\beta}$ ein Maximum-Likelihood-Schätzer ist, betrachten wir für festes $y \in \mathbb{R}^n$ und festes $\sigma^2 > 0$ die Log-Likelihood-Funktion
\begin{equation}
\ell : \mathbb{R}^p \to \mathbb{R}, \tilde{\beta} \mapsto \ln p_{\tilde{\beta}}(y) = \ln N(y;X\tilde{\beta}, \sigma^2I_n) \; ,
\end{equation}

wobei gilt, dass
\begin{align}
\begin{split}
\ln N(y;X\tilde{\beta}, \sigma^2I_n)
& = \ln\left((2\pi)^{-\frac{n}{2}}|\sigma^2I_n|^{-\frac{1}{2}}\exp\left(-\frac{1}{2\sigma^2}(y - X\tilde{\beta})^\mathrm{T}(y - X\tilde{\beta})\right)\right) \\
& = -\frac{n}{2} \ln 2\pi - \frac{1}{2} \ln |\sigma^2I_n| - \frac{1}{2\sigma^2}(y -  X\tilde{\beta})^\mathrm{T}(y - X\tilde{\beta}) \; .
\end{split}
\end{align}

Dabei hängt allein der Term $-\frac{1}{2\sigma^2}(y - X\tilde{\beta})^\mathrm{T}(y - X\tilde{\beta})$ von $\tilde{\beta}$ ab. Weil aber $(y -  X\tilde{\beta})^\mathrm{T}(y -  X\tilde{\beta}) \ge 0$, gilt aufgrund des negativen Vorzeichens, dass dieser Term maximal wird, wenn $(y -  X\tilde{\beta})^\mathrm{T}(y -  X\tilde{\beta})$ minimal wird. Dies ist aber wie oben gezeigt genau für $\tilde{\beta} = \hat{\beta}$ der Fall.

\vspace{2mm}
\noindent (3) Die Unverzerrtheit von $\hat{\beta}$ schließlich ergibt sich aus \begin{align}
\begin{split}
\mathbb{E}(\hat{\beta})
= \mathbb{E}\left((X^\mathrm{T}X)^{-1}X^\mathrm{T}y\right)
= (X^\mathrm{T}X)^{-1}X^\mathrm{T}\mathbb{E}(y)
= (X^\mathrm{T}X)^{-1}X^\mathrm{T}X\beta
= \beta \; .
\end{split}
\end{align}
$\hfill\Box$


<!-- Definition: erklärte Daten, Residuenvektor, Residuen -->
# Allgemeine Theorie

\footnotesize
\begin{definition}[Erklärte Daten, Residuenvektor, Residuen]

\justify
Gegeben seien das ALM
\begin{equation}
y = X\beta + \varepsilon 
\quad \mbox{mit} \quad
\varepsilon \sim N(0_n,\sigma^2 I_n)
\end{equation}

und der Betaparameterschätzer
\begin{equation}
\hat{\beta} := (X^\mathrm{T}X)^{-1}X^\mathrm{T}y. 
\end{equation}

Dann heißt der Zufallsvektor
\begin{equation}
\hat{y} := X\hat{\beta}
\end{equation}

die \textit{erklärten Daten}, der Zufallsvektor 
\begin{equation}
\hat{\varepsilon} := y - \hat{y}
\end{equation}

heißt \textit{Residuenvektor} und für $i = 1,...,n$ heißen die Komponenten dieses Zufallsvektors  
\begin{equation}
\hat{\varepsilon}_i := y_i - \hat{y}_i
\end{equation}
die \textit{Residuen}.

\end{definition}

Bemerkungen

* Wir haben diese Begriffe bereits für den Fall einfacher linearer Regression mit Ausgleichsgerade eingeführt (vgl. Einheit (2) in *Allgemeines Lineares Modell*).


<!-- Beispiel: Erklärte Daten und Residuenvektor -->
# Allgemeine Theorie

Erklärte Daten und Residuenvektor bei einfacher linearer Regression

```{r, echo = F, eval = F}
# Einlesen des Beispieldatensatzes
fname       = file.path(getwd(), "Daten", "Korrelation_Beispieldatensatz.csv")
D           = read.table(fname, sep = ",", header = TRUE)

# Ausgleichsgeradenparameter
x_bar       = mean(D$x_i)               # Stichprobenmittel der x_i-Werte
y_bar       = mean(D$y_i)               # Stichprobenmittel der y_i-Werte
s2x         = var(D$x_i)                # Stichprobenvarianz der x_i-Werte
cxy         = cov(D$x_i, D$y_i)         # Stichprobenkovarianz der (x_i,y_i)-Werte
beta_1_hat  = cxy/s2x                   # \hat{\beta}_1, Steigungsparameter
beta_0_hat  = y_bar - beta_1_hat*x_bar  # \hat{\beta}_0, Offset-Parameter

# Visualisierung
graphics.off()
dev.new()
par(
    family      = "sans",
    mfcol       = c(1,1),
    pty         = "s",
    bty         = "l",
    lwd         = 1,
    las         = 1,
    mgp         = c(2,1,0),
    xaxs        = "i",
    yaxs        = "i",
    font.main   = 1,
    cex         = 1,
    cex.main    = 1)
plot(D$x_i, D$y_i,
    pch         = 16,
    xlab        = "Anzahl Therapiestunden (x)",
    ylab        = "Symptomreduktion (y)",
    xlim        = c(0,21),
    ylim        = c(-10, 40))
abline(
    coef        = c(beta_0_hat, beta_1_hat),
    lty         = 1,
    col         = "black")
points(D$x_i, beta_0_hat + beta_1_hat*D$x_i,
    pch         = 16,
    col         = "grey")
arrows(
    x0          = D$x_i,
    y0          = D$y_i,
    x1          = D$x_i,
    y1          = beta_0_hat + beta_1_hat*D$x_i,
    length      = 0,
    col         = "grey")
dev.copy2pdf(
    file        = "Abbildungen/erklaerte_daten_residuen.pdf",
    width       = 4,
    height      = 4)
```

\vspace{-2mm}
```{r, echo = F, out.width = "60%", fig.align = "center"}
knitr::include_graphics("Abbildungen/erklaerte_daten_residuen.pdf")
```

\vspace{-4mm}
\center

$\bullet$ $y_i$
\hspace{2mm}
\textcolor{lightgray}{$\bullet$}
$\hat{y}_i = (X\hat{\beta})_i =
\begin{pmatrix} 1             &  x_i           \end{pmatrix}
\begin{pmatrix} \hat{\beta}_0 \\ \hat{\beta}_1 \end{pmatrix}
= \hat{\beta}_0 + \hat{\beta}_1 x_i$
\hspace{2mm}
\textcolor{lightgray}{\textbf{---}}
$\hat{\varepsilon}_i = \hat{y}_i - y_i$
\hspace{2mm}
$i = 1,...,n$


<!-- Theorem: erklärte Daten und Residuenvektor als Matrixprodukte -->
# Allgemeine Theorie

\footnotesize
\begin{theorem}[Erklärte Daten und Residuenvektor als Matrixprodukte]

\normalfont
\justifying
Gegeben seien das ALM
\begin{equation}
y = X\beta + \varepsilon 
\quad \mbox{mit} \quad
\varepsilon \sim N(0_n,\sigma^2 I_n)
\end{equation}

sowie die erklärten Daten $\hat{y}$ und der Residuenverktor $\hat{\varepsilon}$. Dann ergeben sich die erklärten Daten und der Residuenvektor als Matrixmultiplikationen des Datenvektors $y$ von links
\begin{align}
\begin{split}
\hat{y}           &= Py \\
\hat{\varepsilon} &= Ry \; ,
\end{split}
\end{align}

wobei die \textit{Projektionsmatrix} $P$ und die \textit{Residuen-bildende Matrix} $R$ wie folgt gegeben sind:
\begin{align}
\begin{split}
P &:= X(X^\mathrm{T}X)^{-1}X^\mathrm{T} \\
R &:= (I_n - P) \; .
\end{split}
\end{align}

\end{theorem}

Bemerkungen

* $P$ wird auch als *projection matrix* bezeichnet.
* $R$ wird auch als *residual-forming matrix* bezeichnet.


<!-- Beweis -->
# Allgemeine Theorie

\underline{Beweis}

Die erklärten Daten ergeben sich zu
\begin{align}
\begin{split}
\hat{y} :
& = X\hat{\beta} \\
& = X(X^\mathrm{T}X)^{-1}X^\mathrm{T}y \\
& = Py \; .
\end{split}
\end{align}

Der Residuenvektor ergibt sich zu
\begin{align}
\begin{split}
\hat{\varepsilon} :
& = y - \hat{y} \\
& = y - X\hat{\beta} \\
& = y - X(X^\mathrm{T}X)^{-1}X^\mathrm{T}y \\
& = (I_n - X(X^\mathrm{T}X)^{-1}X^\mathrm{T}) y \\
& = Ry \; .
\end{split}
\end{align}
$\hfill\Box$


<!-- Theorem: Varianzparameterschätzer -->
# Allgemeine Theorie

\footnotesize
\begin{theorem}[Varianzparameterschätzer]

\justifying
\normalfont
Gegeben sei das ALM
\begin{equation}
y = X\beta + \varepsilon 
\quad \mbox{mit} \quad
\varepsilon \sim N(0_n,\sigma^2 I_n)
\end{equation}

Dann ist
\begin{equation}
\hat{\sigma}^2 := \frac{(y-X\hat{\beta})^\mathrm{T}(y-X\hat{\beta})}{n - p}
\end{equation}
ein unverzerrter Schätzer von $\sigma^2 > 0$.

\end{theorem}

\footnotesize
\vspace{1mm}
Bemerkungen
\vspace{-1mm}

* Für einen Beweis, siehe @searle1971, Kapitel 3 oder @rencher2008, Kapitel 7.
* Mit Definition des Residuenvektors und der Residuen bieten sich für $\hat{\sigma}^2$ auch folgende Schreibweisen an:
\begin{equation}
\hat{\sigma}^2
= \frac{\hat{\varepsilon}^\mathrm{T} \hat{\varepsilon}}{n-p}
= \frac{1}{n-p} \sum_{i=1}^n \hat{\varepsilon}_i^2
= \frac{1}{n-p} \sum_{i=1}^n \left(y_i - (X\hat{\beta})_i \right)^2
\end{equation}
* $\sigma^2$ wird also durch eine skalierte residuelle Quadratsumme geschätzt.
* Es handelt sich bei $\hat{\sigma}^2$ \textit{nicht} um einen Maximum-Likelihood-Schätzer von $\sigma^2$.
* Der Maximum-Likelihood-Schätzer des Varianzparameters ist $\hat{\sigma}^2_\mathrm{ML} := \frac{1}{n}\hat{\varepsilon}^\mathrm{T} \hat{\varepsilon}$.


<!-- Abschnitt 2: Unabhängige und identisch normalverteilte Zufallsvariablen -->
#

\large
\setstretch{2}
\vfill

Allgemeine Theorie

**Unabhängige und identisch normalverteilte Zufallsvariablen**

Einfache lineare Regression

Chi-Quadrat-Zufallsvariablen

Frequentistische Schätzerverteilungen

Selbstkontrollfragen

\vfill


<!-- Beispiel: Einstichproben-T-Test -->
# Unabhängige und identisch normalverteilte Zufallsvariablen

\small
Wir betrachten das Szenario von $n$ unabhängigen und identisch normalverteilten Zufallsvariablen mit Erwartungswertparameter $\mu \in \mathbb{R}$ und Varianzparameter $\sigma^2$:
\begin{equation} \label{eq:iid}
y_i \sim N(\mu,\sigma^2)
\quad \mbox{für} \quad
i = 1,...,n.
\end{equation}

Dann gilt, wie unten gezeigt wird, dass
\begin{equation} \label{eq:iid_estimators}
\hat{\beta} = \frac{1}{n}\sum_{i=1}^n y_i =: \bar{y}
\quad \mbox{ und } \quad
\hat{\sigma}^2 = \frac{1}{n-1}\sum_{i=1}^n (y_i - \bar{y})^2 =: s^2_y.
\end{equation}

In diesem Fall ist also der Betaparameterschätzer mit dem Stichprobenmittel $\bar{y}$ der $y_1,...,y_n$ und der Varianzparameterschätzer mit der Stichprobenvarianz $s_y^2$ der $y_1,...,y_n$ identisch.


<!-- Herleitung der Parameter: beta -->
# Unabhängige und identisch normalverteilte Zufallsvariablen

\small
Für $\hat{\beta}$ ergibt sich
\begin{align*}
\begin{split}
\hat{\beta}
& = (X^\mathrm{T}X)^{-1}X^\mathrm{T}y \\
& = \left(1_n^\mathrm{T} 1_n\right)^{-1}1_n^\mathrm{T}y \\
& = \left(
\begin{pmatrix}
1 & \cdots & 1 \\
\end{pmatrix}
\begin{pmatrix}
1      \\
\vdots \\
1      \\
\end{pmatrix}
\right)^{-1}
\begin{pmatrix}
1 & \cdots & 1 \\
\end{pmatrix}
\begin{pmatrix}
y_{1}  \\
\vdots \\
y_{n}  \\
\end{pmatrix} \\
& = n^{-1}\sum_{i=1}^n y_i \\
& =\frac{1}{n}\sum_{i=1}^n y_i \\
& =: \bar{y}.
\end{split}
\end{align*}


<!-- Herleitung der Parameter: sigma^2 -->
# Unabhängige und identisch normalverteilte Zufallsvariablen

\small
Für $\hat{\sigma}^2$ ergibt sich
\begin{align*}
\begin{split}
\hat{\sigma}^2
& = \frac{1}{n-1} \left(y-X\hat{\beta}\right)^\mathrm{T}\left(y-X\hat{\beta} \right) \\
& = \frac{1}{n-1} \left(y-1_n\bar{y}\right)^\mathrm{T}\left(y-1_n\bar{y}\right) \\
& = \frac{1}{n-1}
\left(
\begin{pmatrix} y_1  \\  \vdots  \\  y_n  \end{pmatrix} -
\begin{pmatrix} 1    \\  \vdots  \\  1    \end{pmatrix}
\bar{y}
\right)^\mathrm{T}
\left(
\begin{pmatrix} y_1  \\  \vdots  \\  y_n  \end{pmatrix} -
\begin{pmatrix} 1    \\  \vdots  \\  1    \end{pmatrix}
\bar{y}
\right) \\
& = \frac{1}{n-1}
\begin{pmatrix}
  y_{1}-\bar{y}
& \cdots
& y_{n}-\bar{y}
\end{pmatrix}
\begin{pmatrix}
y_{1}-\bar{y} \\
\vdots        \\
y_{n}-\bar{y} \\
\end{pmatrix} \\
& = \frac{1}{n-1} \sum_{i=1}^n \left(y_i-\bar{y} \right)^2 \\
& =: s^2_y.
\end{split}
\end{align*}


<!-- Beispiel in R: Parameterschätzung -->
# Unabhängige und identisch normalverteilte Zufallsvariablen

Simulation einer Parameterschätzung

\tiny
\vspace{2mm}
\setstretch{1}

```{r, echo = T}
# Modellformulierung
library(MASS)                                     # multivariate Normalverteilung
n          = 12                                   # Anzahl Datenpunkte
p          = 1                                    # Anzahl Betaparameter
X          = matrix(rep(1,n), nrow = n)           # n x p Designmatrix
I_n        = diag(n)                              # n x n Einheitsmatrix
beta       = 2                                    # wahrer, aber unbekannter Betaparameter
sigsqr     = 1                                    # wahrer, aber unbekannter Varianzparameter

# Datenrealisierung
y          =  mvrnorm(1, X %*% beta, sigsqr*I_n)  # eine Realisierung des n-dimensionalen ZVs y

# Parameterschätzung
beta_hat   = solve(t(X) %*% X) %*% t(X) %*% y     # Betaparameterschätzer
eps_hat    = y - X %*% beta_hat                   # Residuenvektor
sigsqr_hat = (t(eps_hat) %*% eps_hat) /(n-p)      # Varianzparameterschätzer

# Ausgabe
cat(  "beta        : ", beta,
    "\nhat{beta}   : ", beta_hat,
    "\nsigsqr      : ", sigsqr,
    "\nhat{sigsqr} : ", sigsqr_hat)
```


<!-- Beispiel in R: Schätzverteilung -->
# Unabhängige und identisch normalverteilte Zufallsvariablen

Simulation der Schätzerunverzerrtheit

\tiny
\vspace{2mm}
\setstretch{1}

```{r, echo = T}
# Modellformulierung
library(MASS)                                          # multivariate Normalverteilung
n          = 12                                        # Anzahl Datenpunkte
p          = 1                                         # Anzahl Betaparameter
X          = matrix(rep(1,n), nrow = n)                # n x p Designmatrix
I_n        = diag(n)                                   # n x n Einheitsmatrix
beta       = 2                                         # wahrer, aber unbekannter Betaparameter
sigsqr     = 1                                         # wahrer, aber unbekannter Varianzparameter

# Frequentistische Simulation
nsim       = 1e4                                       # Anzahl Datenrealisierungen
beta_hat   = rep(NaN,nsim)                             # \hat{\beta}    Realisierungsarray
sigsqr_hat = rep(NaN,nsim)                             # \hat{\sigma}^2 Realisierungsarray
for(i in 1:nsim){                                      # Simulationsiterationen
    y             = mvrnorm(1, X %*% beta, sigsqr*I_n) # Datenrealisierung
    beta_hat[i]   = solve(t(X) %*% X) %*% t(X) %*% y   # Betaparameterschätzer
    eps_hat       = y - X %*% beta_hat[i]              # Residuenvektor
    sigsqr_hat[i] = (t(eps_hat) %*% eps_hat) /(n-p)    # Varianzparameterschätzer
}

# Ausgabe
cat(  "wahrer, aber unbekannter Betaparameter                   : ", beta,
    "\ngeschätzter Erwartungswert des Betaparameterschätzers    : ", mean(beta_hat),
    "\nwahrer, aber unbekannter Varianzparameter                : ", sigsqr,
    "\ngeschätzter Erwartungswert des Varianzparameterschätzers : ", mean(sigsqr_hat))
```


<!-- Abschnitt 3: Einfache lineare Regression -->
#

\large
\setstretch{2}
\vfill

Allgemeine Theorie

Unabhängige und identisch normalverteilte Zufallsvariablen

**Einfache lineare Regression**

Chi-Quadrat-Zufallsvariablen

Frequentistische Schätzerverteilungen

Selbstkontrollfragen

\vfill


<!-- Beispiel: einfache lineare Regression -->
# Einfache lineare Regression

\small
Wir betrachten das  Modell der einfachen linearen Regression:
\begin{equation} \label{eq:slr}
y_i = \beta_0 + \beta_1 x_i + \varepsilon_i, \;
\varepsilon_i \sim N(0,\sigma^2)
\quad \mbox{für} \quad
i = 1,...,n.
\end{equation}

Dann gilt, wie unten gezeigt wird, dass
\begin{equation} \label{eq:slr_estimators}
  \hat{\beta}
= \begin{pmatrix} \hat{\beta}_0 \\ \hat{\beta}_1 \end{pmatrix}
= \begin{pmatrix} \bar{y} - \frac{c_{xy}}{s_x^2}\bar{x} \\ \frac{c_{xy}}{s_x^2} \end{pmatrix}
\quad \mbox{ und } \quad
\hat{\sigma}^2 = \frac{1}{n-2}\sum_{i=1}^n (y_i - (\hat{\beta}_0 + \hat{\beta}_1x_i))^2 \; ,
\end{equation}

wobei

* $\bar{x}$ und $\bar{y}$ die Stichprobenmittel der $x_1,...,x_n$ bzw. der $y_1,...,y_n$ bezeichnen,
* $c_{xy}$ die Stichprobenkovarianz der $x_1, ...,x_n$ und $y_1,...,y_n$ bezeichnet und
* $s_x^2$ die Stichprobenvarianz der $x_1,...,x_n$ bezeichnet.

\vspace{2mm}
Wie bereits gesehen (siehe Einheit (1) in *Allgemeines Lineares Modell*) sind die Bezeichnungen "Stichproben"kovarianz und "Stichproben"varianz bezüglich der $x_1,...,x_n$ hier lediglich formal gemeint, da keine Annahme zugrundeliegt, dass die $x_1,...,x_n$ Realisierungen von Zufallsvariablen sind. Die $x_1,...,x_n$ sind vorgegebene Werte.


<!-- Beispiel: einfache lineare Regression -->
# Einfache lineare Regression

\small
Wir halten fest, dass sich der Betaparameterschätzer für eine parametrische Designmatrixspalte aus der Stichprobenkovarianz der entsprechenden Spalte mit den Daten geteilt durch die Stichprobenvarianz der entsprechenden Spalte ergibt und somit einer "standardisierten" Stichprobenkovarianz entspricht.

\vspace{2mm}
Ein Vergleich mit den Parametern der Ausgleichsgerade in (1) Regression zeigt weiterhin die Identität der Betaparameterschätzerkomponenten $\hat{\beta}_0$ und $\hat{\beta}_1$ mit den dort unter dem Kriterium der Minimierung der quadrierten vertikalen Abweichungen hergeleiteten Parametern. Dies ist nicht überraschend, da sowohl $\hat{\beta}$ als auch die Parameter der Ausgleichsgerade die Funktion
\begin{equation}
q(\tilde{\beta})
= \sum_{i=1}^n (y_i - (\tilde{\beta}_0 + \tilde{\beta}_1 x_i))^2
= (y -  X\tilde{\beta})^\mathrm{T}(y -  X\tilde{\beta})
\end{equation}
hinsichtlich $\tilde{\beta}$ minimieren.


<!-- Herleitung der Parameter -->
# Einfache lineare Regression

\normalsize
Um die Form des Betaparameterschätzers herzuleiten, halten wir zunächst fest, dass 
\begin{align}
\begin{split}
\sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})
& = \sum_{i=1}^n (x_iy_i - x_i\bar{y} - \bar{x}y_i + \bar{x}\bar{y}) \\
& = \sum_{i=1}^n x_iy_i
  - \sum_{i=1}^n x_i\bar{y}
  - \sum_{i=1}^n \bar{x}y_i
  + \sum_{i=1}^n \bar{x}\bar{y} \\
& = \sum_{i=1}^n x_iy_i
  - \bar{y} \sum_{i=1}^n x_i
  - \bar{x}\sum_{i=1}^n y_i
  + n \bar{x}\bar{y} \\
& = \sum_{i=1}^n x_iy_i
  - \bar{y}n\bar{x}
  - \bar{x}n\bar{y}
  + n\bar{x}\bar{y} \\
& = \sum_{i=1}^n x_iy_i
  - n\bar{x}\bar{y}
  - n\bar{x}\bar{y}
  + n\bar{x}\bar{y} \\
& = \sum_{i=1}^n x_i y_i  - n \bar{x}\bar{y}.
\end{split}
\end{align}


<!-- Herleitung der Parameter -->
# Einfache lineare Regression

\normalsize
Weiterhin halten wir fest, dass
\begin{align}
\begin{split}
\sum_{i=1}^n (x_i - \bar{x})^2
& = \sum_{i=1}^n (x_i^2 - 2x_i\bar{x}  + \bar{x}^2) \\
& = \sum_{i=1}^n x_i^2 - \sum_{i=1}^n 2x_i\bar{x}  + \sum_{i=1}^n \bar{x}^2 \\
& = \sum_{i=1}^n x_i^2 - 2\bar{x}\sum_{i=1}^n x_i  + n\bar{x}^2 \\
& = \sum_{i=1}^n x_i^2 - 2\bar{x}n\bar{x}  + n\bar{x}^2 \\
& = \sum_{i=1}^n x_i^2 - 2n\bar{x}^2 + n\bar{x}^2 \\
& = \sum_{i=1}^n x_i^2 - n\bar{x}^2. 
\end{split}
\end{align}


<!-- Beispiel: einfache lineare Regression -->
# Einfache lineare Regression

\normalsize
Aus der Definition von $\hat{\beta}$ ergibt sich \begin{align}
\begin{split}
\hat{\beta}
& = (X^\mathrm{T} X)^{-1}X^\mathrm{T}y \\
& =
\left(
\begin{pmatrix}
1   & \cdots & 1   \\
x_1 & \cdots & x_n
\end{pmatrix}
\begin{pmatrix}
1       & x_1    \\
\vdots  & \vdots \\
1       & x_n
\end{pmatrix}
\right)^{-1}
\begin{pmatrix}
1   & \cdots & 1   \\
x_1 & \cdots & x_n
\end{pmatrix}
\begin{pmatrix}
y_1    \\
\vdots \\
y_n
\end{pmatrix} \\
& =
\begin{pmatrix}
n                   & \sum_{i=1}^n x_i   \\
\sum_{i=1}^n x_i    & \sum_{i=1}^n x_i^2 \\
\end{pmatrix}^{-1}
\begin{pmatrix}
\sum_{i=1}^n y_i     \\
\sum_{i=1}^n x_i y_i \\
\end{pmatrix} \\
& =
\begin{pmatrix}
n           &  n\bar{x}          \\
n\bar{x}    & \sum_{i=1}^n x_i^2 \\
\end{pmatrix}^{-1}
\begin{pmatrix}
n \bar{y}            \\
\sum_{i=1}^n x_i y_i \\
\end{pmatrix} \; .
\end{split}
\end{align}

Mit der Formel für die Inverse einer $2 \times 2$ Matrix

\begin{equation}
A :=
\begin{pmatrix}
a_{11} & a_{12} \\
a_{21} & a_{22} 
\end{pmatrix}
\quad \Rightarrow \quad
A^{-1} =
\frac{1}{a_{11} a_{22} - a_{12} a_{21}}
\begin{pmatrix*}[r]
 a_{22} & -a_{12} \\
-a_{21} &  a_{11}
\end{pmatrix*}
\end{equation}


<!-- Herleitung der Parameter -->
# Einfache lineare Regression

\normalsize
(siehe Einheit (3) in *Allgemeines Lineares Modell*) und unter Gebrauch der oben hergeleiteten Identität $s_x^2 = \sum_{i=1}^n x_i^2 - n \bar{x}^2$ ergibt sich die Inverse von $X^\mathrm{T} X$ wie folgt:

\begin{align}
\begin{split}
(X^\mathrm{T} X)^{-1}
 =
\begin{pmatrix}
n           &  n\bar{x}          \\
n\bar{x}    & \sum_{i=1}^n x_i^2 \\
\end{pmatrix}^{-1}
&=
\frac{1}{n \sum_{i=1}^n x_i^2 - (n\bar{x})^2}
\begin{pmatrix}
\sum_{i=1}^n x_i^2 & -n\bar{x} \\
-n\bar{x}          &  n        \\
\end{pmatrix} \\
&=
\frac{1}{n \left(\sum_{i=1}^n x_i^2 - n \bar{x}^2 \right)}
\begin{pmatrix}
\sum_{i=1}^n x_i^2 & -n\bar{x} \\
-n\bar{x}          &  n        \\
\end{pmatrix} \\
&=
\frac{1}{n s_x^2}
\begin{pmatrix}
s_x^2 + n \bar{x}^2 & -n\bar{x} \\
-n\bar{x}           &  n        \\
\end{pmatrix} \\
&=
\frac{1}{s_x^2}
\begin{pmatrix}
\frac{s_x^2}{n} + \bar{x}^2 & -\bar{x} \\
-\bar{x}                    &  1       \\
\end{pmatrix} \; .
\end{split}
\end{align}


<!-- Herleitung der Parameter -->
# Einfache lineare Regression

\normalsize
Mit der oben hergeleiteten Identität $c_{xy} = \sum_{i=1}^n x_i y_i - n \bar{x} \bar{y}$ ergibt sich also

\begin{align}
\begin{split}
\hat{\beta}
= \begin{pmatrix}
  \frac{1}{n} + \frac{\bar{x}^2}{s_x^2}
& -\frac{\bar{x}}{s_x^2} \\
  -\frac{\bar{x}}{s_x^2}
& \frac{1}{s_x^2}
\end{pmatrix}
\begin{pmatrix}
n \bar{y}            \\
\sum_{i=1}^n x_i y_i \\
\end{pmatrix}
& =
\begin{pmatrix}
\left(\frac{1}{n} + \frac{\bar{x}^2}{s_x^2}\right)n\bar{y} - \frac{\bar{x}\sum_{i=1}^n x_iy_i}{s_x^2} \\
\frac{\sum_{i=1}^n x_i y_i }{s_x^2} - \frac{n\bar{x}\bar{y}}{s_x^2}
\end{pmatrix} \\
& =
\begin{pmatrix}
\frac{n\bar{y}}{n} + \frac{\bar{x}^2n\bar{y}}{s_x^2}- \frac{\bar{x}\sum_{i=1}^n x_iy_i}{s_x^2} \\
\frac{\sum_{i=1}^n x_i y_i - n\bar{x}\bar{y}}{s_x^2} \\
\end{pmatrix} \\
& =
\begin{pmatrix}
\bar{y} + \frac{\bar{x}n\bar{x}\bar{y} - \bar{x}\sum_{i=1}^n x_iy_i}{s_x^2} \\
\frac{\sum_{i=1}^n x_i y_i - n\bar{x}\bar{y}}{s_x^2} \\
\end{pmatrix} \\
& =
\begin{pmatrix}
\bar{y} - \frac{\sum_{i=1}^n x_iy_i - n\bar{x}\bar{y}}{s_x^2}\bar{x} \\
\frac{\sum_{i=1}^n x_i y_i - n\bar{x}\bar{y}}{s_x^2}
\end{pmatrix} \\
& =
\begin{pmatrix}
\bar{y} - \frac{c_{xy}}{s_x^2}\bar{x} \\
\frac{c_{xy}}{s_x^2}
\end{pmatrix} \; .
\end{split}
\end{align}


<!-- Beispiel in R: Parameterschätzung -->
# Einfache lineare Regression

Simulation einer Parameterschätzung

\tiny
\vspace{2mm}
\setstretch{1}

```{r, echo = T}
# Modellformulierung
library(MASS)                                    # multivariate Normalverteilung
n          = 10                                  # Anzahl Datenpunkte
p          = 2                                   # Anzahl Betaparameter
x          = 1:n                                 # Prädiktorwerte
X          = matrix(c(rep(1,n),x), nrow = n)     # n x p Designmatrix
I_n        = diag(n)                             # n x n Einheitsmatrix
beta       = matrix(c(0,1), nrow = p)            # wahrer, aber unbekannter Betaparameter
sigsqr     = 1                                   # wahrer, aber unbekannter Varianzparameter

# Datenrealisierung
y          = mvrnorm(1, X %*% beta, sigsqr*I_n)  # eine Realisierung des n-dimensionalen ZVs y

# Parameterschätzung
beta_hat   = solve(t(X) %*% X) %*% t(X) %*% y    # Betaparameterschätzer
eps_hat    = y - X %*% beta_hat                  # Residuenvektor
sigsqr_hat = (t(eps_hat) %*% eps_hat) /(n-p)     # Varianzparameterschätzer

# Ausgabe
cat(  "beta        : ", beta,
    "\nhat{beta}   : ", beta_hat,
    "\nsigsqr      : ", sigsqr,
    "\nhat{sigsqr} : ", sigsqr_hat)
```


<!-- Beispiel in R: Schätzverteilung -->
# Einfache lineare Regression

Simulation der Schätzerunverzerrtheit

\tiny
\vspace{2mm}
\setstretch{1}

```{r, echo = T}
# Modellformulierung
library(MASS)                                          # multivariate Normalverteilung
n          = 10                                        # Anzahl Datenpunkte
p          = 2                                         # Anzahl Betaparameter
x          = 1:n                                       # Prädiktorwerte
X          = matrix(c(rep(1,n),x), nrow = n)           # n x p Designmatrix
I_n        = diag(n)                                   # n x n Einheitsmatrix
beta       = matrix(c(0,1), nrow = p)                  # wahrer, aber unbekannter Betaparameter
sigsqr     = 1                                         # wahrer, aber unbekannter Varianzparameter

# Frequentistische Simulation
nsim       = 1e4                                       # Anzahl Realisierungen des n-dimensionalen ZVs
beta_hat   = matrix(rep(NaN,p*nsim), nrow = p)         # \hat{\beta}    Realisierungsarray
sigsqr_hat = rep(NaN,nsim)                             # \hat{\sigma}^2 Realisierungsarray
for(i in 1:nsim){                                      # Simulationsiterationen
    y             = mvrnorm(1, X %*% beta, sigsqr*I_n) # Datenrealisierung
    beta_hat[,i]  = solve(t(X) %*% X) %*% t(X) %*% y   # Betaparameterschätzer
    eps_hat       = y - X %*% beta_hat[,i]             # Residuenvektor
    sigsqr_hat[i] = (t(eps_hat) %*% eps_hat) /(n-p)    # Varianzparameterschätzer
}

# Ausgabe
cat(  "wahrer, aber unbekannter Betaparameter                   : ", beta,
    "\ngeschätzter Erwartungswert des Betaparameterschätzers    : ", rowMeans(beta_hat),
    "\nwahrer, aber unbekannter Varianzparameter                : ", sigsqr,
    "\ngeschätzter Erwartungswert des Varianzparameterschätzers : ", mean(sigsqr_hat))
```


<!-- Abschnitt 4: Chi-Quadrat-Zufallsvariablen -->
#

\large
\setstretch{2}
\vfill

Allgemeine Theorie

Unabhängige und identisch normalverteilte Zufallsvariablen

Einfache lineare Regression

**Chi-Quadrat-Zufallsvariablen**

Frequentistische Schätzerverteilungen

Selbstkontrollfragen

\vfill


<!-- Definition: Chi-Quadrat-Zufallsvariable -->
# Chi-Quadrat-Zufallsvariablen

\footnotesize
\begin{definition}[$\chi^2$-Zufallsvariable]

\justify
$\left\lbrace Z_1, ..., Z_n \right\rbrace$ mit $Z_i \sim N(0,1)$ für $i=1,...,n$ sei eine Menge von $n$ unabhängigen standardnormalverteilten Zufallsvariablen. Dann nennen wir die Zufallsvariable
\begin{equation}
X := \sum_{i=1}^n Z_i^2
\end{equation}
eine $\chi^2$-verteilte Zufallsvariable mit Freiheitsgradparameter $n$. Wir schreiben $X \sim \chi^2(n)$. Die Wahrscheinlichkeitsdichtefunktion (WDF) einer $\chi^2$-Zufallsvariable bezeichnen wir mit $\chi^2(x; n)$.

\end{definition}

Bemerkungen

* Die Summe von $n$ quadrierten standardnormal-verteilten Zufallsvariablen ist eine $\chi^2$-verteilte Zufallsvariable.
* Chi-Quadrat-Zufallsvariablen sind zentral für die Definition von T- und F-Statistiken.


<!-- Theorem: WDF einer Chi-Quadrat-Zufallsvariable -->
# Chi-Quadrat-Zufallsvariablen

\footnotesize
\begin{theorem}[WDF einer $\chi^2$-Zufallsvariable]

\normalfont
\justifying
$X$ sei eine $\chi^2$-Zufallsvariable mit Ergebnisraum $\mathbb{R}_{>0}$ und Freiheitsgradparameter $n$. Dann ist die Wahrscheinlichkeitsdichtefunktion von $X$ gegeben durch
\begin{equation}
\chi^2(\cdot; n): \mathbb{R}_{>0} \to \mathbb{R}_{>0}, x \mapsto \chi^2(x; n) = \frac{2^{-\frac{n}{2}}}{\Gamma\left( \frac{n}{2} \right)} x^{\frac{n}{2}-1} \exp\left( -\frac{x}{2} \right) \; ,
\end{equation}
wobei $\exp$ die Exponentialfunktion und $\Gamma$ die Gammafunktion bezeichne.

\end{theorem}

Bemerkungen

* Wir verzichten auf einen Beweis, der [\textcolor{darkblue}{sich hier findet}](https://statproofbook.github.io/P/chi2-pdf) (englisch).
* Die $\chi^2$-Verteilung ist auf die positiven reellen Zahlen beschränkt. Steigendes $n$ verschiebt die Wahrscheinlickeitsmasse in den höheren positiven Bereich.


<!-- WDF von Chi-Quadrat-Zufallsvariablen -->
# Chi-Quadrat-Zufallsvariablen

Wahrscheinlichkeitsdichtefunktionen von $\chi^2$-Zufallsvariablen
\vspace{4mm}

```{r, echo = F, eval = F}
# Modellformulierung
chi2_min = 0                                                # minimum chi^2-value
chi2_max = 10                                               # maximum chi^2-value
chi2_res = 1e3                                              # chi^2-space resolution
chi2     = seq(chi2_min, chi2_max, len = chi2_res)          # chi^2-space
n        = c(2,3,5,10,15)                                   # degrees of freedom

# Visualisierung
library(latex2exp)
dev.new()
par(
    family     = "sans",
    pty        = "m",
    bty        = "l",
    lwd        = 1,
    las        = 1,
    mgp        = c(2,1,0),
    xaxs       = "i",
    yaxs       = "i",
    font.main  = 1,
    cex        = 1.1,
    cex.main   = 1.1)

matplot(chi2, matrix(c(dchisq(chi2,n[1]),
                       dchisq(chi2,n[2]),
                       dchisq(chi2,n[3]),
                       dchisq(chi2,n[4]),
                       dchisq(chi2,n[5])),
                     ncol = 5),
    type       = "l",
    lty        = 1,
    lwd        = 2,
    col        = c("gray10", "gray20", "gray50", "gray70", "gray90"),
    ylim       = c(0, 0.5),
    xlim       = c(chi2_min,chi2_max),
    ylab       = " ",
    xlab       = "x",
    main       = TeX("$\\chi^2(x; n)$"))

legend(7.5, 0.5, c("n = 2", "n = 3", "n = 5", "n = 10", "n = 15"),
    lty        = 1,
    lwd        = 2,
    col        = c("gray10", "gray20", "gray50", "gray70", "gray90"),
    bty        = "n",
    cex        = 1.1,
    y.intersp  = 2)

dev.copy2pdf(
    file   = "Abbildungen/chi2_wdf.pdf",
    width  = 6,
    height = 5)
```

```{r, echo = F, out.width="70%", fig.align = "center"}
knitr::include_graphics("Abbildungen/chi2_wdf.pdf")
```


<!-- Definition: Nichtzentrale Chi-Quadrat-Zufallsvariable -->
# Chi-Quadrat-Zufallsvariablen

\footnotesize
\begin{definition}[Nichtzentrale $\chi^2$-Zufallsvariable]

\justify
$\left\lbrace Y_1, ..., Y_n \right\rbrace$ mit $Y_i \sim N(\mu_i ,1)$ für $i=1,...,n$ sei eine Menge von $n$ unabhängigen und normalverteilten Zufallsvariablen mit Erwartungswertparameter $\mu_i$ und Varianzparameter $1$. Dann nennen wir die Zufallsvariable
\begin{equation}
X := \sum_{i=1}^n Y_i^2
\end{equation}
eine nichtzentral $\chi^2$-verteilte Zufallsvariable mit Nichtzentralitätsparameter $\delta := \sum_{i=1}^n \mu_i^2$ und Freiheitsgradparameter $n$. Wir schreiben $X \sim \chi^2(\delta, n)$. Die Wahrscheinlichkeitsdichtefunktion (WDF) einer nichtzentralen $\chi^2$-Zufallsvariable bezeichnen wir mit $\chi^2(x; \delta, n)$.

\end{definition}

Bemerkungen

* Die Summe von $n$ quadrierten normalverteilten Zufallsvariablen mit nicht notwendigerweise gleichen Erwartungswertparametern, aber gleichem Varianzparameter ist eine nichtzentral $\chi^2$-verteilte Zufallsvariable.
* Eine nichtzentrale $\chi^2$-Zufallsvariable mit $\delta = 0$ ist eine $\chi^2$-Zufallsvariable. Es gilt also $\chi^2(x; 0, n) = \chi^2(x; n)$.


<!-- Theorem: WDF einer nichtzentralen Chi-Quadrat-Zufallsvariable -->
# Chi-Quadrat-Zufallsvariablen

\footnotesize
\begin{theorem}[WDF einer nichtzentralen $\chi^2$-Zufallsvariable]

\normalfont
\justifying
$X$ sei eine nichtzentrale $\chi^2$-Zufallsvariable mit Ergebnisraum $\mathbb{R}_{>0}$, Nichtzentralitätsparameter $\delta$ und Freiheitsgradparameter $n$. Dann ist die WDF von $X$ gegeben durch
\begin{align}
\begin{split}
\chi^2(\cdot; \delta, n) : \mathbb{R}_{>0} \to \mathbb{R}_{>0}, x \mapsto \chi^2(x; \delta, n) :&= \frac{1}{2} \left( \frac{x}{\delta} \right)^{\frac{n}{4}-\frac{1}{2}} \exp\left( -\frac{x+\delta}{2} \right) \\
&\times \left( \frac{\sqrt{\delta x}}{2} \right)^{\frac{n}{2}-1} \sum_{j=0}^{\infty} \frac{\left( \frac{\delta x}{4} \right)^j}{j! \, \Gamma\left( \frac{n}{2}+j \right)} \; ,
\end{split}
\end{align}
wobei $\exp$ die Exponentialfunktion und $\Gamma$ die Gammafunktion bezeichne.

\end{theorem}

Bemerkung

* Wir verzichten auf einen Beweis.
* Die nichtzentrale Chi-Quadrat-Verteilung spielt für die residuelle Quadratsumme im ALM eine große Rolle.


<!-- WDF von nichtzentralen Chi-Quadrat-Zufallsvariablen -->
# Chi-Quadrat-Zufallsvariablen

Wahrscheinlichkeitsdichtefunktionen nichtzentraler $\chi^2$-Zufallsvariablen
\vspace{4mm}

```{r, echo = F, eval = F}
# Modellformulierung
chi2_min  = 0                                               # Minimum chi^2-Wert
chi2_max  = 20                                              # Maximum chi^2-Wert
chi2_res  = 1e3                                             # chi^2-Wert Auflösung
chi2      = seq(chi2_min, chi2_max, len = chi2_res)         # chi^2-Raum
delta     = c(0, 2, 4)                                      # Nichtzentralitätsparameter
n         = c(5, 10)                                        # Freiheitsgradparameter
p         = cbind(matrix(dchisq(chi2, n[1], delta[1]), nrow=length(chi2)),
                  matrix(dchisq(chi2, n[2], delta[1]), nrow=length(chi2)),
                  matrix(dchisq(chi2, n[1], delta[2]), nrow=length(chi2)),
                  matrix(dchisq(chi2, n[2], delta[2]), nrow=length(chi2)),
                  matrix(dchisq(chi2, n[1], delta[3]), nrow=length(chi2)),
                  matrix(dchisq(chi2, n[2], delta[3]), nrow=length(chi2)))

# Visualisierung
dev.new()
library(latex2exp)
graphics.off()
par(
    family      = "sans",
    pty         = "m",
    bty         = "l",
    lwd         = 1,
    las         = 1,
    mgp         = c(2,1,0),
    xaxs        = "i",
    yaxs        = "i",
    font.main   = 1,
    cex         = 1,
    cex.main    = 1.2)

matplot(chi2, p,
    type        = "l",
    lty         = c(1,2,1,2,1,2),
    col         = c("gray10", "gray10", "gray50", "gray50", "gray70", "gray70"),
    lwd         = 2,
    xlab        = "",
    ylab        = "",
    ylim        = c(0, 0.2),
    main        = TeX("$\\chi^2(x;\\,\\delta,n)$"))

legend(15, 0.2, c(TeX("$\\delta = 0, n = 5$"),
                  TeX("$\\delta = 0, n = 10$"),
                  TeX("$\\delta = 2, n = 5$"),
                  TeX("$\\delta = 2, n = 10$"),
                  TeX("$\\delta = 4, n = 5$"),
                  TeX("$\\delta = 4, n = 10$")),
    lty         = c(1,2,1,2,1,2),
    col         = c("gray10", "gray10", "gray50", "gray50", "gray70", "gray70"),
    lwd         = 2,
    bty         = "n",
    seg.len     = 2,
    y.intersp   = 2.5)

dev.copy2pdf(
    file        = "Abbildungen/chi2_nichtzentral_wdf.pdf",
    width       = 7,
    height      = 4.5)
```

```{r, echo = F, out.width = "90%", fig.align = "center"}
knitr::include_graphics("Abbildungen/chi2_nichtzentral_wdf.pdf")
```


<!-- Theorem: Cochrans Theorem für multivariate Normalverteilungen -->
# Chi-Quadrat-Zufallsvariablen

\footnotesize
\begin{theorem}[Cochrans Theorem für multivariate Normalverteilungen]

\normalfont
\justifying
$\xi$ sei ein multivariat normalverteilter $n$-dimensionaler Zufallsvektor mit sphärischem Kovarianzmatrixparameter:
\begin{equation}
\xi \sim N(\mu, \sigma^2 I_n) \; .
\end{equation}

Weiterhin sei $A \in \mathbb{R}^{n \times n}$ eine quadratische Matrix und die Zufallsvariable $\upsilon$ als quadratische Form von $\xi$ definiert:
\begin{equation}
\upsilon := \xi^\mathrm{T}A\xi / \sigma^2 \; .
\end{equation}

Dann gilt:
\begin{equation}
\upsilon \sim \chi^2(\mu^\mathrm{T}A\mu, \mbox{rg}(A)) \; .
\end{equation}

\end{theorem}

Bemerkung

* Wir verzichten auf einen Beweis.
* Das Theorem stellt einen tiefen Zusammenhang zwischen multivariater Normalverteilung und Chi-Quadrat-Verteilung her: Die mit einer Matrix $A$ gewichtete und durch die Varianz $\sigma^2$ normalisierte quadratische Form eines multivariat normalverteilten Zufallsvektors ist eine nichtzentral $\chi^2$-verteilte Zufallsvariable, wobei der Nichtzentralitätsparameter sich aus dem Erwartungswertparameter der multivariaten Normalverteilung und der Matrix $A$ und der Freiheitsgradparameter sich als der Rang dieser Matrix ergibt.
* Namensgeber des Theorems ist William G. Cochran. Cochrans Theorem ist grundlegend für die Frequentistische Schätzerverteilung des Varianzparameterschätzers im Rahmen der ein- und mehrfaktoriellen Varianzanalyse.


<!-- Abschnitt 5: Frequentistische Schätzerverteilungen -->
#

\large
\setstretch{2}
\vfill

Allgemeine Theorie

Unabhängige und identisch normalverteilte Zufallsvariablen

Einfache lineare Regression

Chi-Quadrat-Zufallsvariablen

**Frequentistische Schätzerverteilungen**

Selbstkontrollfragen

\vfill


<!-- Theorem: Frequentistische Verteilung des Betaparameterschätzers -->
# Frequentistische Schätzerverteilungen

\footnotesize
\begin{theorem}[Frequentistische Verteilung des Betaparameterschätzers]

\justifying
\normalfont
Gegeben seien das ALM
\begin{equation}
y = X\beta + \varepsilon 
\quad \mbox{mit} \quad
\varepsilon \sim N(0_n,\sigma^2 I_n)
\end{equation}

und der Betaparameterschätzer
\begin{equation}
\hat{\beta} := \left(X^\mathrm{T}X\right)^{-1}X^\mathrm{T}y
\end{equation}

Dann gilt
\begin{equation}
\hat{\beta} \sim N\left(\beta,\sigma^2(X^\mathrm{T} X)^{-1}\right).
\end{equation}

\end{theorem}

Bemerkungen

* \justifying Es gilt also wie bereits gesehen $\mathbb{E}(\hat{\beta}) = \beta$ und außerdem $\mathbb{C}(\hat{\beta}) = \sigma^2(X^\mathrm{T}X)^{-1}$.
* Die Varianzen der Komponenten von $\hat{\beta}$ sind die Diagonalelemente von $\mathbb{C}(\hat{\beta})$, also
\begin{equation}
\mathbb{V}(\hat{\beta}_i) = (\sigma^2(X^\mathrm{T}X)^{-1})_{ii} 
\quad \mbox{für} \quad
i = 1,...,p.
\end{equation}
* Die Streuung von $\hat{\beta}$ hängt von $\sigma^2$ und der Designmatrix $X$ ab. $\sigma^2$ ist ein experimentell nicht beeinflussbarer wahrer, aber unbekannter Parameter. $X$ dagegen kann gewählt werden, um zum Beispiel die Diagonalelemente von
$\mathbb{C}(\hat{\beta})$ bei festem $\sigma^2$ zu minimieren.


<!-- Beweis -->
# Frequentistische Schätzerverteilungen

\footnotesize
\underline{Beweis}

Das Theorem folgt direkt mit dem Theorem zur linearen Transformation von multivariaten Normalverteilungen (siehe Einheit (4) in *Allgemeines Lineares Modell*). Speziell gilt hier:
\begin{equation}
\hat{\beta} \sim N\left( (X^\mathrm{T}X)^{-1}X^\mathrm{T}X\beta, (X^\mathrm{T}X)^{-1}X^\mathrm{T}(\sigma^{2}I_{n})((X^\mathrm{T}X)^{-1}X^\mathrm{T})^\mathrm{T} \right).
\end{equation}

Der Erwartungswertparameter vereinfacht sich dann zu
\begin{equation}
(X^\mathrm{T}X)^{-1}X^\mathrm{T}X\beta = \beta.
\end{equation}

Der Kovarianzmatrixparamter vereinfacht sich wie folgt:
\begin{align}
\begin{split}
(X^\mathrm{T}X)^{-1}X^\mathrm{T}(\sigma^{2}I_{n})((X^\mathrm{T}X)^{-1}X^\mathrm{T})^\mathrm{T}
& = (X^\mathrm{T}X)^{-1}X^\mathrm{T}(\sigma^{2}I_{n})X(X^\mathrm{T}X)^{-1} \\
& = \sigma^{2}(X^\mathrm{T}X)^{-1}X^\mathrm{T}X(X^\mathrm{T}X)^{-1} \\
& = \sigma^{2}(X^\mathrm{T}X)^{-1}.
\end{split}
\end{align}

Dabei folgt hier die erste Gleichung aus der Tatsache, dass sowohl $X^\mathrm{T}X$ als auch ihre Inverse $(X^\mathrm{T}X)^{-1}$ symmetrische Matrizen sind. Insgesamt gilt damit
\begin{equation}
\hat{\beta} \sim N\left(\beta,\sigma^2(X^\mathrm{T} X)^{-1}\right).
\end{equation}
$\hfill\Box$


<!-- Beispiel: Einstichproben-T-Test -->
# Frequentistische Schätzerverteilungen

Beispiel (1) Unabhängige und identisch normalverteilte Zufallsvariablen
\vspace{1mm}

\small
Es sei
\begin{equation}
y \sim N(X\beta,\sigma^2 I_n)
\quad \mbox{mit} \quad
X := 1_n \in \mathbb{R}^n, \;
\beta := \mu \in \mathbb{R}, \;
\sigma^2 > 0.
\end{equation}

das ALM-Szenario unabhängiger und identisch normalverteilter Zufallsvariablen. Wir haben bereits gesehen, dass $\hat{\beta} = \bar{y}$. Das Theorem zur Frequentistischen Verteilung des Betaparameterschätzers impliziert damit
\begin{equation}
\bar{y} \sim N\left(\mu, \frac{\sigma^2}{n}\right).
\end{equation}

Das Stichprobenmittel von $n$ unabhängigen und identisch normalverteilten Zufallsvariablen mit Erwartungswertparameter $\mu$ und Varianzparameter $\sigma^2$ ist also normalverteilt mit Erwartungswertparameter $\mu$ und Varianzparameter $\sigma^2/n$. Wir haben diese Tatsache bereits unter dem Begriff der *Mittelwertstransformation* kennengelernt (siehe Einheit (8) in *Wahrscheinlichkeitstheorie und Frequentistische Inferenz*).


<!-- Beispiel in R -->
# Frequentistische Schätzerverteilungen

Beispiel (1) Unabhängige und identisch normalverteilte Zufallsvariablen

\vspace{2mm}
\footnotesize

```{r, echo = T}
# Modellformulierung
library(MASS)                                         # multivariate Normalverteilung  
n        = 12                                         # Anzahl Datenpunkte
p        = 1                                          # Anzahl Betparameter
X        = matrix(rep(1,n), nrow = n)                 # n x p Designmatrix
I_n      = diag(n)                                    # n x n Einheitsmatrix
beta     = 2                                          # wahrer, aber unbekannter Betaparameter
sigsqr   = 1                                          # wahrer, aber unbekannter Varianzparameter

# Frequentistische Simulation
nsim     = 1e4                                        # Anzahl Realisierungen n-dimensionaler ZV
beta_hat = rep(NaN,nsim)                              # \hat{\beta} Realisierungsarray
for(i in 1:nsim){
    y           = mvrnorm(1, X %*% beta, sigsqr*I_n)  # eine Realisierung des n-dimensionalen ZVs
    beta_hat[i] = solve(t(X) %*% X) %*% t(X) %*% y    # \hat{\beta} = (X^T X)^{-1} X^T y
}
```


<!-- Visualisierung der Schätzverteilung -->
# Frequentistische Schätzerverteilungen

Beispiel (1) Unabhängige und identisch normalverteilte Zufallsvariablen
\vspace{2mm}

\center
$\bar{y} \sim N\left(\mu,\frac{\sigma^2}{n}\right)$

```{r, echo = F, eval = F}
# figure setup
library(latex2exp)
dev.new()
fig = par(
    family      = "sans",
    mfcol       = c(1,1),
    pty         = "s",
    bty         = "l",
    lwd         = 1,
    las         = 1,
    mgp         = c(3,1,0),
    xaxs        = "i",
    yaxs        = "i",
    font.main   = 1,
    cex         = 1,
    cex.main    = 1)

# density
b_hat_min  = 0.5
b_hat_max  = 3.5
b_hat_res  = 1e3
b_hat      = seq(b_hat_min, b_hat_max, len = b_hat_res)
p_beta_hat = dnorm(b_hat, beta, sqrt(sigsqr/n))

# histogram
hist(beta_hat,
    breaks = 50,
    col   = "gray90",
    prob  = TRUE,
    xlab  = TeX("$\\bar{y}$"),
    ylab  = "",
    xlim  = c(0.5,3.5),
    ylim  = c(0,1.5),
    main  = "")

# density
lines(b_hat, p_beta_hat,
    lwd   = 2,
    col   = "darkorange")

# print
dev.copy2pdf(
    file   = "Abbildungen/beta_hat_1.pdf",
    width  = 5,
    height = 5)
```

\vspace{-2mm}
```{r, echo = F, out.width = "60%"}
knitr::include_graphics("Abbildungen/beta_hat_1.pdf")
```


<!-- Beispiel: einfache lineare Regression -->
# Frequentistische Schätzerverteilungen

Beispiel (2) Einfache lineare Regression
\vspace{1mm}

\small
Es sei
\begin{equation}
y \sim N(X\beta, \sigma^2 I_n)
\quad \mbox{mit} \quad
\begin{pmatrix}
1      & x_1		\\
\vdots & \vdots	\\
1 		 & x_n
\end{pmatrix}
\in \mathbb{R}^{n\times 2}, \;
\beta \in \mathbb{R}^2, \;
\sigma^2 > 0.
\end{equation}

das ALM-Szenario der einfachen linearen Regression. Wir haben bereits gesehen, dass
\begin{equation}
\sigma^2(X^\mathrm{T}X)^{-1} =
\frac{\sigma^2}{s_x^2}
\begin{pmatrix}
\frac{s_x^2}{n} + \bar{x}^2 & -\bar{x} \\
-\bar{x}                    &  1
\end{pmatrix}
\quad \mbox{mit} \quad
s_x^2 := \sum_{i=1}^n (x_i - \bar{x})^2.
\end{equation}

Die Varianz des Offsetparameterschätzers hängt also sowohl von der Summe der quadrierten Differenzen und dem Stichprobenmittel der unabhängigen Variablen $x_1,...,x_n$ ab, wohingegen die Varianz des Steigungsparameterschätzers nur von der Summe der quadrierten Differenzen der $x_1,...,x_n$ abhängt. Die Kovarianz von Offset- und Steigungsparameterschätzern hängt vom Mittelwert der $x_1,...,x_n$ ab.


<!-- Beispiel in R -->
# Frequentistische Schätzerverteilungen

Beispiel (2) Einfache lineare Regression

\vspace{2mm}
\footnotesize

```{r, echo = T}
# Modellformulierung
library(MASS)                                         # multivariate Normalverteilung
n        = 10                                         # Anzahl Datenpunkte
p        = 2                                          # Anzahl Betparameter
x        = 1:n                                        # Prädiktorwerte
X        = matrix(c(rep(1,n),x), nrow = n)            # n x p Designmatrix
I_n      = diag(n)                                    # n x n Einheitsmatrix
beta     = matrix(c(0,1), nrow = p)                   # wahrer, aber unbekannter Betaparameter
sigsqr   = 0.5                                        # wahrer, aber unbekannter Varianzparameter

# Frequentistische Simulation
nsim     = 10                                         # Anzahl Realisierungen n-dimensionaler ZV
y        = matrix(rep(NaN,n*nsim), nrow = n)          # y Realisierungsarray
beta_hat = matrix(rep(NaN,p*nsim), nrow = p)          # \hat{\beta} Realisierungsarray
for(i in 1:nsim){
    y[,i]        = mvrnorm(1, X %*% beta, sigsqr*I_n) # eine Realisierung des n-dimensionalen ZVs
    beta_hat[,i] = solve(t(X)%*%X) %*% t(X)%*%y[,i]   # \hat{\beta} = (X^T X)^{-1} X^T y
}
```


<!-- Visualisierung der Schätzverteilung -->
# Frequentistische Schätzerverteilungen

Beispiel (2) Einfache lineare Regression
\vspace{4mm}

\center
$\quad\quad\quad\quad y \sim (X\beta,\sigma^2I_n)$ \hspace{3cm} $\hat{\beta} \sim N(\beta,\sigma^2(X^\mathrm{T}X)^{-1})$

```{r, echo = F, eval = F}
library(mvtnorm)
graphics.off()
dev.new()
par(
    family      = "sans",
    mfcol       = c(1,2),
    pty         = "s",
    bty         = "l",
    lwd         = 1,
    las         = 1,
    mgp         = c(2.5,1,0),
    xaxs        = "i",
    yaxs        = "i",
    xpd         = TRUE,
    font.main   = 1,
    cex         = 1,
    cex.main    = 1.2)

# Erzeugung verschiedener Grau-Level
gfun        = colorRampPalette(c("grey20", "grey80"))
greys       = gfun(nsim)

# Datenrealisierungen
xlimits     = c(0,11)
ylimits     = c(-3,13)
plot(x, X %*% beta,
    type        = "b",
    lty         = 2,
    pch         = 1,
    col         = "white",
    xlab        = "x",
    ylab        = "y",
    xlim        = xlimits,
    ylim        = ylimits)
for(i in 1:nsim){
    lines(x, y[,i],
        type    = "b",
        col     = greys[i],
        pch     = 16)
}

# Wahrscheinlichkeitsdichtefunktion
b_hat_min  = -2
b_hat_max  = 2
b_hat_res  = 1e3
b_hat_1    = seq(b_hat_min, b_hat_max, len = b_hat_res)
b_hat_2    = seq(b_hat_min, b_hat_max, len = b_hat_res)
b_hat      = expand.grid(b_hat_1,b_hat_2)
mu         = beta
Sigma      = sigsqr*solve(t(X) %*% X)
p_beta_hat = matrix(dmvnorm(as.matrix(b_hat), mu, Sigma), nrow = b_hat_res)

# Visualisierung
contour(b_hat_1, b_hat_2, p_beta_hat,
    xlim      = c(-1.5,1.5),
    ylim      = c(0.5,1.5),
    xlab      = TeX("$\\hat{\\beta}_0$"),
    ylab      = TeX("$\\hat{\\beta}_1$"),
    nlevels   = 5,
    col       = "orange")
for(i in 1:nsim){
    points(beta_hat[1,i], beta_hat[2,i],
        type  = "p",
        col   = greys[i],
        pch   = 16)
}

# Speichern
dev.copy2pdf(
    file      = "Abbildungen/beta_hat_2.pdf",
    width     = 7,
    height    = 3.5)
```

```{r, echo = F, out.width = "100%"}
knitr::include_graphics("Abbildungen/beta_hat_2.pdf")
```


<!-- Theorem: Frequentistische Verteilung des Varianzparameterschätzers -->
# Frequentistische Schätzerverteilungen

\footnotesize
\begin{theorem}[Frequentistische Verteilung des Varianzparameterschätzers]

\normalfont
\justifying
Gegeben seien das ALM
\begin{equation}
y = X\beta + \varepsilon 
\quad \mbox{mit} \quad
\varepsilon \sim N(0_n,\sigma^2 I_n)
\end{equation}

und der Varianzparameterschätzer
\begin{equation}
\hat{\sigma}^2 := \frac{(y -  X\hat{\beta})^\mathrm{T}(y -  X\hat{\beta})}{n-p}.
\end{equation}

Dann gilt
\begin{equation}
\frac{n-p}{\sigma^2}\hat{\sigma}^2 \sim \chi^2(n-p).
\end{equation}

\end{theorem}

Bemerkungen

* Das Theorem ist für das ALM zentral, da es für die Formulierung von sowohl T-Statistiken als auch F-Statistiken eine wichtige Rolle spielt.
* Da es sich bei $(y-X\hat{\beta})^\mathrm{T}(y-X\hat{\beta})$ um eine Summe quadrierter normalverteilter Zufallsvariablen handelt, liegt die $\chi^2$-Verteilung im Lichte der $\chi^2$-Transformation der Normalverteilung bereits nahe (vgl. Einheit (8) in *Wahrscheinlichkeitstheorie und Frequentistische Inferenz*).


<!-- Beweis -->
# Frequentistische Schätzerverteilungen

\footnotesize
\underline{Beweis}

Wir zeigen zunächst, dass sich $(n-p) \hat{\sigma}^2$ als quadratische Form von $y$ schreiben lässt:
\begin{align}
\begin{split}
    (n-p) \hat{\sigma}^2
& = (n-p) \frac{(y -  X\hat{\beta})^\mathrm{T}(y - X\hat{\beta})}{n-p}
  = (y - X\hat{\beta})^\mathrm{T}(y - X\hat{\beta}) \\
& = (y - \hat{y})^\mathrm{T}(y - \hat{y})
  = \hat{\varepsilon}^\mathrm{T}\hat{\varepsilon}
  = (Ry)^\mathrm{T}(Ry)
  = y^\mathrm{T} R^\mathrm{T} R y \\
    \mbox{ mit } \quad R :
& = I_n - P = I_n - X(X^\mathrm{T}X)^{-1}X^\mathrm{T} \; .
\end{split}
\end{align}

Im nächsten Schritt bemerken wir, dass die Residuen-bildende $R$ symmetrisch ist
\begin{align}
\begin{split}
    R^\mathrm{T}
& = (I_n - P)^\mathrm{T}
  = \left( I_n - X(X^\mathrm{T}X)^{-1}X^\mathrm{T} \right)^\mathrm{T}
  = I_n^\mathrm{T} - \left( X(X^\mathrm{T}X)^{-1}X^\mathrm{T} \right)^\mathrm{T} \\
& = I_n - X(X^\mathrm{T}X)^{-1}X^\mathrm{T}
  = I_n - P
  = R
\end{split}
\end{align}

und dass $R$ idempotent ist, d.h. mit sich selbst multiplitiert wieder $R$ ergibt
\begin{align}
\begin{split}
    RR
& = (I_n - P)(I_n - P)
  = I_n - P - P + PP \\
& = I_n - 2P + X(X^\mathrm{T}X)^{-1}X^\mathrm{T}X(X^\mathrm{T}X)^{-1}X^\mathrm{T} \\
& = I_n - 2P + X(X^\mathrm{T}X)^{-1}X^\mathrm{T}
  = I_n - 2P + P
  = I_n - P
  = R \; ,
\end{split}
\end{align}

sodass gilt:
\begin{equation}
  (n-p) \hat{\sigma}^2
= y^\mathrm{T} R^\mathrm{T} R y
= y^\mathrm{T} R R y
= y^\mathrm{T} R y \; .
\end{equation}


<!-- Beweis -->
# Frequentistische Schätzerverteilungen

\footnotesize
\underline{Beweis}

Nun sind die Anwendungsbedingungen von Cochrans Theorem für multivariate Normalverteilungen gegeben:
\begin{equation}
\xi \sim N(\mu, \sigma^2 I_n)
\quad \Rightarrow \quad
\upsilon := \xi^\mathrm{T}A\xi / \sigma^2
\sim \chi^2(\mu^\mathrm{T}A\mu, \mbox{rg}(A)) \; .
\end{equation}

Im vorliegenden Fall haben wir:
\begin{equation}
y \sim N(X\beta, \sigma^2 I_n)
\quad \mbox{ und } \quad
\frac{n-p}{\sigma^2}\hat{\sigma}^2 = y^\mathrm{T} R y / \sigma^2 \; .
\end{equation}

Also gilt:
\begin{equation}
\frac{n-p}{\sigma^2}\hat{\sigma}^2
\sim \chi^2\left( (X\beta)^\mathrm{T}R(X\beta), \mbox{rg}(R) \right) \; .
\end{equation}

Für den Nichtzentralitätsparameter ergibt sich:
\begin{align}
\begin{split}
    (X\beta)^\mathrm{T}R(X\beta)
& = \beta^\mathrm{T} X^\mathrm{T} (I_n - P) X \beta \\
& = \beta^\mathrm{T} X^\mathrm{T} (I_n - X(X^\mathrm{T}X)^{-1}X^\mathrm{T}) X \beta \\
& = \beta^\mathrm{T} (X^\mathrm{T}X - X^\mathrm{T}X(X^\mathrm{T}X)^{-1}X^\mathrm{T}X) \beta \\
& = \beta^\mathrm{T} (X^\mathrm{T}X - X^\mathrm{T}X) \beta \\
& = \beta^\mathrm{T} 0_{pp} \beta \\
& = 0 \; .
\end{split}
\end{align}


<!-- Beweis -->
# Frequentistische Schätzerverteilungen

\footnotesize
\underline{Beweis}

Da $R$ idempotent ist, ist ihr Rang gleich ihrer Spur und für den Freiheitsgradparameter ergibt sich:
\begin{align}
\begin{split}
    \mbox{rg}(R)
  = \mbox{sp}(R)
& = \mbox{sp}(I_n - P) \\
& = \mbox{sp}(I_n - X(X^\mathrm{T}X)^{-1}X^\mathrm{T}) \\
& = \mbox{sp}(I_n) - \mbox{sp}(X(X^\mathrm{T}X)^{-1}X^\mathrm{T}) \\
& = \mbox{sp}(I_n) - \mbox{sp}(X^\mathrm{T}X(X^\mathrm{T}X)^{-1}) \\
& = \mbox{sp}(I_n) - \mbox{sp}(I_p) \\
& = n - p \; .
\end{split}
\end{align}

Zusammengenommen folgt daraus:
\begin{equation}
\frac{n-p}{\sigma^2}\hat{\sigma}^2
\sim \chi^2(0, n-p) \; .
\end{equation}

Da eine nichtzentrale Chi-Quadrat-Verteilung mit Nichtzentralitätsparameter 0 äquivalent zu einer Chi-Quadrat-Verteilung mit gleichem Freiheitsgradparameter ist, gilt schließlich:
\begin{equation}
\frac{n-p}{\sigma^2}\hat{\sigma}^2
\sim \chi^2(n-p) \; .
\end{equation}
$\hfill\Box$


<!-- Beispiel: Einstichproben-T-Test -->
# Frequentistische Schätzerverteilungen

Beispiel (1) Unabhängige und identisch normalverteilte Zufallsvariablen
\vspace{1mm}

\small
Es sei
\begin{equation}
y \sim N(X\beta,\sigma^2 I_n)
\quad \mbox{mit} \quad
X := 1_n \in \mathbb{R}^n, \;
\beta := \mu \in \mathbb{R}, \;
\sigma^2 > 0.
\end{equation}

das ALM-Szenario unabhängiger und identisch normalverteilter Zufallsvariablen. Wir haben bereits gesehen, dass in diesem Fall $\hat{\beta}$ mit dem Stichprobenmittel $\bar{y}$ identisch ist und dass $\hat{\sigma}^2$ mit der Stichprobenvarianz $s^2_y$ übereinstimmt.

Bei der Betrachtung von Konfidenzintervallen (vgl. Einheit (11) in *Wahrscheinlichkeitstheorie und Frequentistische Inferenz*) hatten wir für den Fall von $n$ unabhängig und identisch normalverteilten Zufallsvariablen die Statistik
\begin{equation}
U := \frac{n-1}{\sigma^2}S^2
\end{equation}

definiert und festgehalten, dass
\begin{equation}
U \sim \chi^2(n-1).
\end{equation}

Offenbar ist $U$ für $p = 1$ mit der im obigen Theorem betrachten Zufallsvariable $\frac{n-p}{\sigma^2}\hat{\sigma}^2$ identisch.


<!-- Beispiel: einfache lineare Regression -->
# Frequentistische Schätzerverteilungen

Beispiel (2) Einfache lineare Regression

\tiny
\vspace{2mm}

```{r, echo = T}
# Modellformulierung
library(MASS)                                          # multivariate Normalverteilung
n          = 10                                        # Anzahl von Datenpunkten
p          = 2                                         # Anzahl von Betparametern
x          = 1:n                                       # Prädiktorwerte
X          = matrix(c(rep(1,n),x), nrow = n)           # n x p Designmatrix
I_n        = diag(n)                                   # n x n Einheitsmatrix
beta       = matrix(c(0,1), nrow = p)                  # wahrer, aber unbekannter Betaparameter
sigsqr     = 0.5                                       # wahrer, aber unbekannter Varianzparameter

# Frequentistische Simulation
nsim       = 1e3                                       # Anzahl Realisierungen n-dimensionaler ZV
y          = matrix(rep(NaN,n*nsim), nrow = n)         # y Realisierungsarray
beta_hat   = matrix(rep(NaN,p*nsim), nrow = p)         # \hat{\beta}    Realisierungsarray
sigsqr_hat = rep(NaN, nsim)                            # \hat{\sigma}^2 Realisierungsarray
for(i in 1:nsim){
    y[,i]         = mvrnorm(1, X %*% beta, sigsqr*I_n) # eine Realisierung des n-dimensionalen ZVs y
    beta_hat[,i]  = solve(t(X)%*%X) %*% t(X)%*%y[,i]   # \hat{\beta}    = (X^T X)^{-1} X^T y
    eps_hat       = y[,i] - X %*% beta_hat[,i]         # \hat{\eps}     = y - X \hat{\beta}
    sigsqr_hat[i] = (t(eps_hat) %*% eps_hat)/(n-p)     # \hat{\sigma}^2 = \hat{\eps}^T\hat{\eps}/(n-p)
}
U = ((n-p)/sigsqr)*sigsqr_hat                          # \chi^2-verteilte Zufallsvariable
```


<!-- Visualisierung der Schätzverteilung -->
# Frequentistische Schätzerverteilungen

Beispiel (2) Einfache lineare Regression
\vspace{4mm}

\center
$\quad\quad y \sim (X\beta,\sigma^2I_n)$ \hspace{3cm} $\frac{n-p}{\sigma^2}\hat{\sigma}^2 \sim \chi^2(n-p)$

```{r, echo = F, eval = F}
library(mvtnorm)
graphics.off()
dev.new()
par(
    family      = "sans",
    mfcol       = c(1,2),
    pty         = "s",
    bty         = "l",
    lwd         = 1,
    las         = 1,
    mgp         = c(2.5,1,0),
    xaxs        = "i",
    yaxs        = "i",
    xpd         = TRUE,
    font.main   = 1,
    cex         = 1,
    cex.main    = 1.2)

# Datenrealisierungen
xlimits     = c(0,11)
ylimits     = c(-5,15)
plot(x, X %*% beta,
    type        = "b",
    lty         = 2,
    pch         = 1,
    col         = "white",
    xlab        = "x",
    ylab        = "y",
    xlim        = xlimits,
    ylim        = ylimits)
for(i in 1:nsim){
    lines(x, y[,i],
    type = "l",
    col  = "grey")
}

# density
xlimits = c(0,30)
ylimits = c(0,.12)
u_min   = xlimits[1]
u_max   = xlimits[2]
u_res   = 1e3
u       = seq(u_min, u_max, len = u_res)
p_u     = dchisq(u,n-p)

# histogram
hist(U,
    col   = "gray90",
    prob  = TRUE,
    xlab  = TeX("$((n-p)/\\sigma^2)\\hat{\\sigma}^2$"),
    ylab  = "",
    xlim  = xlimits,
    ylim  = ylimits,
    main  = "")

# density
lines(u, p_u,
    lwd   = 2,
    col   = "darkorange")

# Speichern
dev.copy2pdf(
    file        = "Abbildungen/sigsqr_hat.pdf",
    width       = 7,
    height      = 3.5)
```

```{r, echo = F, out.width = "100%"}
knitr::include_graphics("Abbildungen/sigsqr_hat.pdf")
```


<!-- Anhang: Selbstkontrollfragen -->
#

\large
\setstretch{2}
\vfill

Allgemeine Theorie

Unabhängige und identisch normalverteilte Zufallsvariablen

Einfache lineare Regression

Chi-Quadrat-Zufallsvariablen

Frequentistische Schätzerverteilungen

**Selbstkontrollfragen**

\vfill


<!-- Selbstkontrollfragen -->
# Selbstkontrollfragen

\footnotesize
\setstretch{2}

1. Geben Sie das Theorem zum Betaparameterschätzer wieder.
1. Warum ist der Betaparameterschätzer ein Maximum-Likelihood-Schätzer?
1. Geben Sie das Theorem zum Varianzparameterschätzer wieder.
1. Warum ist der Varianzparameterschätzer kein Maximum-Likelihood-Schätzer?
1. Geben Sie die Definition der erklärten Daten und des Residuenvektors wieder.
1. Geben Sie das Theorem zu erklärten Daten und Residuenvektor als Matrixprodukte wieder.
1. Geben Sie die Parameterschätzer bei unabhängigen und identisch normalverteilten Zufallsvariablen an.
1. Geben Sie die Parameterschätzer bei einfacher linearer Regression an.
1. Geben Sie die Definition einer $\chi^2$-Zufallsvariable wieder.
1. Geben Sie die Definition einer nichtzentralen $\chi^2$-Zufallsvariable wieder.
1. Geben Sie das Theorem zur Verteilung des Betaparameterschätzers wieder.
1. Geben Sie das Theorem zur Verteilung des Varianzparameterschätzers wieder.


<!-- Literatur -->
# Referenzen