---
fontsize: 8pt
format:
  beamer:
    include-in-header: ../ALM_Header.tex
bibliography: ../ALM_Referenzen.bib
---


# {.plain}
<!-- Vorlesungstitel -->
\center
```{r, echo = F, out.width = "20%"}
knitr::include_graphics("../OvGU_Logo.png")
```

\vspace{2mm}
\huge
Allgemeines Lineares Modell

\vspace{6mm}
\large
BSc Psychologie, SoSe 2026

\vspace{5mm}
Joram Soch


<!-- Sitzung 8: F-Statistiken -->
# {.plain}

\vfill
\center
\huge
\textcolor{black}{(8) F-Statistiken}
\vfill


<!-- Überblick: Modellformulierung, Modellschätzung, Modellevaluation -->
#

\vspace{1mm}
\large

Modellformulierung
\vspace{-1mm}

\begin{equation}
y = X\beta + \varepsilon, \quad
\varepsilon \sim N(0_n,\sigma^2I_n)
\end{equation}
\vspace{1mm}

Modellschätzung

\begin{equation}
\hat{\beta} = (X^\mathrm{T} X)^{-1} X^\mathrm{T} y, \quad
\hat{\sigma}^2 = \frac{1}{n-p} (y-X\hat{\beta})^\mathrm{T} (y-X\hat{\beta})
\end{equation}
\vspace{1mm}

Modellevaluation

\begin{equation}
T = \frac{c^\mathrm{T} \hat{\beta} - c^\mathrm{T} \beta_0}{\sqrt{\hat{\sigma}^2 c^\mathrm{T}(X^\mathrm{T} X)^{-1} c}}, \quad
F = \frac{(\hat{\varepsilon}_0^\mathrm{T} \hat{\varepsilon}_0 - \hat{\varepsilon}^\mathrm{T} \hat{\varepsilon})/p_1}{\hat{\varepsilon}^\mathrm{T} \hat{\varepsilon}/(n-p)}
\end{equation}


<!-- Überblick: Standardprobleme Frequentistischer Inferenz -->
#

Standardprobleme Frequentistischer Inferenz

\small
\vspace{2mm}
\noindent (1) Parameterschätzung

Ziel der Parameterschätzung ist es, einen möglichst guten Tipp für wahre, aber unbekannte, Parameterwerte oder Funktionen dieser abzugeben, typischerweise mithilfe von Daten.

\vspace{2mm}
\noindent (2) Konfidenzintervalle

Ziel der Bestimmung von Konfidenzintervallen ist es, basierend auf der angenommenen Verteilung der Daten eine quantitative Aussage über die mit Schätzwerten assoziierte Unsicherheit zu treffen.

\vspace{2mm}
\noindent (3) Hypothesentests

Ziel des Hypothesentestens ist es, basierend auf der angenommenen Verteilung der Daten in einer möglichst zuverlässigen Form zu entscheiden, ob ein wahrer, aber unbekannter Parameterwert in einer von zwei sich gegenseitig ausschließenden Untermengen des Parameterraumes liegt.


<!-- Überblick: Standardprobleme Frequentistischer Inferenz -->
#

\center
```{r, echo = F, out.width = "100%"}
knitr::include_graphics("Abbildungen/frequentistische_inferenz.pdf")
```

\center
\footnotesize
$\theta := (\beta,\sigma^2)$, \quad
$\Theta := \mathbb{R}^p \times \mathbb{R}_{>0}$, \quad
$\mathbb{P}_\theta(y) := \mathbb{P}_{\beta,\sigma^2}(y)$ \quad
mit WDF \quad
$p_{\beta,\sigma^2}(y) := N(y;X\beta,\sigma^2I_n)$


<!-- Überblick: F-Statistiken -->
#

\small
Überblick

* \justifying Wir führen F-Statistiken hier vor dem Hintergrund Likelihood-Quotienten-basierter Modellvergleiche ein. Die (maximierte oder marginale) Likelihood eines Datensatzes unter einem gegebenen probabilistischen Modell als Modellvergleichskriterium heranzuziehen, ist ein weit verbreitetes Verfahren in der probabilistischen Datenanalyse.

* \justifying Im Gegensatz zu T-Statistiken kann das Ziel der Berechnung von F-Statistiken damit insbesondere sein, nicht nur Linearkombinationen von Betaparameterkomponenten probabilistisch zu evaluieren, sondern die Modellanpassung an einen Datensatz insgesamt zu evaluieren.

* \justifying Die Modellvergleichskapazität von F-Statistiken ist allerdings etwas begrenzt, da sich die F-Statistik nur auf ALMs und insbesondere geschachtelte ALMs bezieht, d.h. auf ALMs, in denen ein Modell Bestandteil eines anderen Modells ist.

* \justifying F-Statistiken bilden üblicherweise die Grundlage für Hypothesentests im Rahmen varianzanalytischer Verfahren (vgl. Einheiten (11) Einfaktorielle Varianzanalyse, (12) Zweifaktorielle Varianzanalyse und (15) Kovarianzanalyse in *Allgemeines Lineares Modell*). Der Einsatz von F-Statistiken ist aber *per se* nicht auf Varianzanalysen beschränkt, sondern kann auch bei parametrischen ALM-Designs angebracht sein.


<!-- Inhaltsverzeichnis -->
#

\vfill
\large
\setstretch{3}

F-Zufallsvariablen

Likelihood-Quotienten

F-Statistiken

Selbstkontrollfragen

\vfill


<!-- Abschnitt 1: F-Zufallsvariablen -->
#

\vfill
\large
\setstretch{3}

**F-Zufallsvariablen**

Likelihood-Quotienten

F-Statistiken

Selbstkontrollfragen

\vfill


<!-- Definition: f-Zufallsvariable -->
# F-Zufallsvariablen

\footnotesize
\begin{definition}[$f$-Zufallsvariable]

\justifying
$U_1 \sim \chi^2(n_1)$ und $U_2 \sim \chi^2(n_2)$ seien zwei unabhängige $\chi^2$-Zufallfsvariablen mit Freiheitsgradparametern $n_1$ und $n_2$. Dann nennen wir die Zufallsvariable
\begin{equation}
F := \frac{U_1/n_1}{U_2/n_2}
\end{equation}
eine $f$-verteilte Zufallsvariable mit Freiheitsgradparametern $n_1$ und $n_2$. Wir schreiben $F \sim f(n_1,n_2)$ ab. Die Wahrscheinlichkeitsdichtefunktion (WDF) einer $f$-Zufallsvariable bezeichnen wir mit $f(x; n_1, n_2)$, die kumulative Verteilungsfunktion (KVF) und inverse KVF einer $f$-Zufallsvariable bezeichnen wir mit $\varphi(x; n_1, n_2)$ bzw. $\varphi^{-1}(x; n_1, n_2)$.

\end{definition}

Bemerkungen

* $f$-Zufallsvariablen sind nach Ronald A. Fisher benannt.
* George W. Snedecor hat die KVF der $f$-Verteilung wohl 1934 basierend auf Arbeiten von Fisher tabuliert.


<!-- Theorem: WDF einer f-Zufallsvariable -->
# F-Zufallsvariablen

\small
\begin{theorem}[WDF einer $f$-Zufallsvariable]

\justifying
\normalfont
$F$ sei eine $f$-Zufallsvariable mit Ergebnisraum $\mathbb{R}_{>0}$ und Freiheitsgradparametern $n_1$ und $n_2$. Dann ist die Wahrscheinlichkeitsdichtefunktion von $F$ gegeben durch
\begin{equation}
f(\cdot; n_1, n_2): \mathbb{R}_{>0} \to \mathbb{R}_{>0}, x \mapsto f(x; n_1, n_2)
:= n_1^{\frac{n_1}{2}}n_2^{\frac{n_2}{2}}
   \frac{\Gamma\left(\frac{n_1+n_2}{2}\right)}{\Gamma\left(\frac{n_1}{2}\right)\Gamma\left(\frac{n_2}{2}\right)}
   \frac{x^{\frac{n_1}{2}-1}}{\left(n_1 x  + n_2 \right)^{\frac{n_1+n_2}{2}}},
\end{equation}
wobei $\Gamma$ die Gammafunktion bezeichne.
\end{theorem}

\footnotesize
Bemerkungen

* Wir verzichten auf einen Beweis, der [\textcolor{darkblue}{sich hier findet}](https://statproofbook.github.io/P/f-pdf) (englisch).
* Das Theorem kann bewiesen werden, in dem man zunächst ein Transformationstheorem für Quotienten von Zufallsvariablen mithilfe des multivariaten Transformationstheorems und Marginalisierung herleitet und dieses Theorem dann auf die WDF von $\chi^2$-verteilten Zufallsvariablen anwendet. Dabei ist die Regel zur Integration durch Substitution von zentraler Bedeutung.
* Die $f$-Verteilung ist nicht um 0 symmetrisch, da sie auf die positiven reelle Zahlen beschränkt ist. Steigendes $n_2$ bei gleichbleibendem $n_1$ verschiebt die Wahrscheinlickeitsmasse in den höheren positiven Bereich.


<!-- WDF von f-Zufallsvariablen -->
# F-Zufallsvariablen

Wahrscheinlichkeitsdichtefunktionen von $f$-Verteilungen
\vspace{2mm}

```{r, echo = F, eval = F}
library(latex2exp)
dev.new()
par(
    family     = "sans",
    pty        = "m",
    bty        = "l",
    lwd        = 1,
    las        = 1,
    mgp        = c(2,1,0),
    xaxs       = "i",
    yaxs       = "i",
    font.main  = 1,
    cex.main   = 1.2)

# x space
x_min   = 0
x_max   = 4
x_res   = 1e3
x       = seq(x_min, x_max, len = x_res)

# parameters
n_1     = c( 2,  2,  5,  5,  8,  8)
n_2     = c(10, 50, 10, 50, 10, 50)

# plotting
matplot(x, matrix(c(df(x,n_1[1],n_2[1]),
                    df(x,n_1[2],n_2[2]),
                    df(x,n_1[3],n_2[3]),
                    df(x,n_1[4],n_2[4]),
                    df(x,n_1[5],n_2[5]),
                    df(x,n_1[6],n_2[6])),
                  ncol = 6),
    type       = "l",
    lty        = c(1,2,1,2,1,2),
    lwd        = c(2,1,2,1,2,1),
    col        = c("gray20", "gray20", "gray50", "gray50", "gray80", "gray80"),
    ylim       = c(0,1),
    xlim       = c(x_min,x_max),
    ylab       = " ",
    xlab       = "x",
    main       = TeX("$f(x; n_1, n_2)$"))
legend(3, 1, c(TeX("$n_1 = 2, n_2 = 10"),
               TeX("$n_1 = 2, n_2 = 50"),
               TeX("$n_1 = 5, n_2 = 10"),
               TeX("$n_1 = 5, n_2 = 50"),
               TeX("$n_1 = 8, n_2 = 10"),
               TeX("$n_1 = 8, n_2 = 50")),
    lty        = c(1,2,1,2,1,2),
    lwd        = c(2,1,2,1,2,1),
    col        = c("gray20", "gray20", "gray50", "gray50", "gray80",  "gray80"),
    bty        = "n",
    cex        = 0.8,
    y.intersp  = 3)
dev.copy2pdf(
    file       = "Abbildungen/f_wdf.pdf",
    width      = 6,
    height     = 4)
```

```{r, echo = F, out.width = "90%", fig.align = "center"}
knitr::include_graphics("Abbildungen/f_wdf.pdf")
```


<!-- Definition: Nichtzentrale $f$-Zufallsvariable -->
# F-Zufallsvariablen

\footnotesize
\begin{definition}[Nichtzentrale $f$-Zufallsvariable]

\justifying
$U_1 \sim \chi^2(\delta, n_1)$ und $U_2 \sim \chi^2(n_2)$ seien eine nichtzentrale $\chi^2$-Zufallsvariable und eine $\chi^2$-Zufallsvariable mit Freiheitsgradparametern $n_1$ und $n_2$. Weiterhin seien $U_1$ und $U_2$ unabhängige Zufallsvariablen. Dann nennen wir die Zufallsvariable
\begin{equation}
F := \frac{U_1/n_1}{U_2/n_2}
\end{equation}
eine nichtzentral $f$-verteilte Zufallsvariable mit Nichtzentralitätsparameter
$\delta$ und Freiheitsgradparametern $n_1$ und $n_2$. Wir schreiben $F \sim f(\delta, n_1, n_2)$. Die WDF einer nichtzentralen $f$-Zufallsvariable bezeichnen wir mit $f(x; \delta, n_1, n_2)$, die KVF und inverse KVF einer nichtzentralen $f$-Zufallsvariable bezeichnen wir mit $\varphi(x;\delta, n_1, n_2)$ bzw. $\varphi^{-1}(x;\delta, n_1, n_2)$.

\end{definition}

Bemerkungen

* Eine nichtzentrale $f$-Zufallsvariable mit $\delta = 0$ ist eine $f$-Zufallsvariable. Es gilt also $f(x; 0, n_1, n_2) = f(x; n_1, n_2)$. Dies ist der Fall, weil eine nichtzentrale $\chi^2$-Zufallsvariable mit $\delta = 0$ eine $\chi^2$-Zufallsvariable ist, also $\chi^2(x; 0, n) = \chi^2(x; n)$ gilt.


<!-- Theorem: WDF einer nichtzentralen f-Zufallsvariable -->
# F-Zufallsvariablen

\small
\begin{theorem}[WDF einer nichtzentralen $f$-Zufallsvariable]

\justifying
\normalfont
$F$ sei eine nichtzentrale $f$-Zufallsvariable mit Ergebnisraum $\mathbb{R}_{>0}$, Nichtzentralitätsparameter $\delta$ und Freiheitsgradparametern $n_1$ und $n_2$. Dann ist die Wahrscheinlichkeitsdichtefunktion von $F$ gegeben durch
\begin{align}
\begin{split}
&f(\cdot; \delta, n_1, n_2): \mathbb{R}_{>0} \to \mathbb{R}_{>0}, x \mapsto \\
&f(x; \delta, n_1, n_2) := \sum_{k=0}^\infty \frac{e^{-\delta/2}(\delta/2)^k}{\frac{\Gamma(n_2/2)\Gamma(n_1/2 + k)}{\Gamma(n_2/2 + n_1/2 + k)}k!} \left(\frac{n_1}{n_2}\right)^{n_1/2 + k} \left(\frac{n_2}{n_2+n_1x}\right)^{(n_1+n_2)/2 + k} x^{n_1/2 - 1 + k}
\end{split}
\end{align}
wobei $k!$ die Fakultät von $k$ und $\Gamma$ die Gammafunktion bezeichne.

\end{theorem}

\footnotesize
Bemerkungen

* Wir verzichten auf einen Beweis.


<!-- WDF von nichtzentralen f-Zufallsvariablen -->
# F-Zufallsvariablen

Wahrscheinlichkeitsdichtefunktionen nichtzentraler $f$-Verteilungen
\vspace{2mm}

```{r, echo = F, eval = F}
library(latex2exp)
dev.new()
par(
    family     = "sans",
    pty        = "m",
    bty        = "l",
    lwd        = 1,
    las        = 1,
    mgp        = c(2,1,0),
    xaxs       = "i",
    yaxs       = "i",
    font.main  = 1,
    cex.main   = 1.2)

# x space
x_min   = 0
x_max   = 5
x_res   = 1e3
x       = seq(x_min, x_max, len = x_res)
x_leg   = 3+1/3

# parameters
delta   = c( 0,  0,  4,  4,  8,  8)
nu_1    = c( 2,  2,  2,  2,  2,  2)
nu_2    = c(10, 50, 10, 50, 10, 50)

# plotting
matplot(x, matrix(c(df(x,nu_1[1],nu_2[1],delta[1]),
                    df(x,nu_1[2],nu_2[2],delta[2]),
                    df(x,nu_1[3],nu_2[3],delta[3]),
                    df(x,nu_1[4],nu_2[4],delta[4]),
                    df(x,nu_1[5],nu_2[5],delta[5]),
                    df(x,nu_1[6],nu_2[6],delta[6])),
                  ncol = 6),
    type       = "l",
    lty        = c(1,2,1,2,1,2),
    lwd        = c(2,1,2,1,2,1),
    col        = c("gray20", "gray20", "gray50", "gray50", "gray80",  "gray80"),
    ylim       = c(0,1),
    xlim       = c(x_min,x_max),
    ylab       = " ",
    xlab       = "x",
    main       = TeX("$f(x; \\delta, n_1, n_2)$"))
legend(x_leg, 1, c(TeX("$\\delta = 0, n_1 = 2,  n_2 = 10"),
                   TeX("$\\delta = 0, n_1 = 2,  n_2 = 50"),
                   TeX("$\\delta = 4, n_1 = 2,  n_2 = 10"),
                   TeX("$\\delta = 4, n_1 = 2,  n_2 = 50"),
                   TeX("$\\delta = 8, n_1 = 2,  n_2 = 10"),
                   TeX("$\\delta = 8, n_1 = 2,  n_2 = 50")),
    lty        = c(1,2,1,2,1,2),
    lwd        = c(2,1,2,1,2,1),
    col        = c("gray20", "gray20", "gray50", "gray50", "gray80",  "gray80"),
    bty        = "n",
    cex        = 0.8,
    y.intersp  = 3)
dev.copy2pdf(
    file       = "Abbildungen/f_nichtzentral_wdf.pdf",
    width      = 6,
    height     = 4)
```

```{r, echo = F, out.width = "90%", fig.align = "center"}
knitr::include_graphics("Abbildungen/f_nichtzentral_wdf.pdf")
```


<!-- Abschnitt 2: Likelihood-Quotienten -->
#

\vfill
\large
\setstretch{3}

F-Zufallsvariablen

**Likelihood-Quotienten**

F-Statistiken

Selbstkontrollfragen

\vfill


<!-- Definition: Likelihood-Quotienten-Statistik -->
# Likelihood-Quotienten

\footnotesize
\begin{definition}[Likelihood-Quotienten-Statistik]

\justifying
Gegeben seien zwei parametrische statistische Modelle 
\begin{equation}
\mathcal{M}_0 := \left(\mathcal{Y}, \mathcal{A}, \left\{\mathbb{P}_{\theta_0}|\theta_0 \in \Theta_0\right\}\right)
\quad \mbox{und} \quad
\mathcal{M}_1 := \left(\mathcal{Y}, \mathcal{A}, \left\{\mathbb{P}_{\theta_1}|\theta_1 \in \Theta_1\right\}\right)
\end{equation}

mit identischem Datenraum $\mathcal{Y}$, identischer $\sigma$-Algebra $\mathcal{A}$, aber potentiell distinkten Wahrscheinlichkeitsmaßmengen $\mathbb{P}_{\theta_0}, \mathbb{P}_{\theta_1}$ und Parameterräumen $\Theta_1, \Theta_2$. Es seien weiterhin $y$ ein Zufallsvektor mit Ergebnisraum $\mathcal{Y}$ und schließlich $L_0(y,\theta_0)$ und $L_1(y,\theta_1)$ die Likelihood-Funktionen von $\mathcal{M}_0$ bzw. $\mathcal{M}_1$, wobei das Argument $y$ jeweils die Datenabhängigkeit der Likelihood-Funktion anzeigt. Dann wird
\begin{equation}
\Lambda := \frac{\max_{\theta_0 \in \Theta_0} L_0(y,\theta_0)}{\max_{\theta_1 \in \Theta_1} L_1(y,\theta_1)}
\end{equation}
\textit{Likelihood-Quotienten-Statistik} genannt.

\end{definition}


<!-- Bemerkungen -->
# Likelihood-Quotienten

\footnotesize
Bemerkungen

* \justifying Eine Likelihood-Quotienten-Statistik setzt die Wahrscheinlichkeitsdichten (oder -massen) eines beobachteten Datensatzes $y \in \mathcal{Y}$ unter zwei statistischen Modellen *nach Optimierung der jeweiligen Modellparameter* ins Verhältnis. Ein hoher Wert der Likelihood-Quotienten-Statistik entspricht einer höhereren Wahrscheinlichkeitsdichte des beobachteten Datensatzes $y$ unter $\mathcal{M}_0$ als unter $\mathcal{M}_1$ und umgekehrt.

* \justifying Die Wahrscheinlichkeitsdichten beobachteter Daten nach Modellschätzung unter verschiedenen Modellen zu betrachten, ist ein allgemeines Vorgehen zum Vergleich von Modellen. Letztlich erlaubt dieses Vorgehen, verschiedene wissenschaftliche Theorien über die Entstehung beobachtbarer Daten quantitativ zu vergleichen und die damit verbundene Unsicherheit zu quantifizieren.

* \justifying Modellvergleiche sind ein zentrales Thema in der Bayesianischen Inferenz, die die Logik von Likelihood-Quotienten-Statistiken zum Beispiel unter den Begriffen der Bayes-Faktoren oder des Bayesianischen Informationskriteriums (BIC) auf allgemeine probabilistische Modelle generalisiert. Allerdings sind Modellvergleiche auch im Rahmen der Frequentistischen Inferenz möglich und sinnvoll, Modellvergleiche sind also kein Alleinstellungsmerkmal der Bayesianischen gegenüber der Frequentistischen Inferenz.

* Mit dem *reduzierten Modell* und dem *vollständigen Modell* betrachten wir im Folgenden zwei spezielle Formen von $\mathcal{M}_0$ bzw. $\mathcal{M}_1$ im Kontext des ALMs.


<!-- Definition: Vollständiges und reduziertes Modell -->
# Likelihood-Quotienten

\footnotesize
\begin{definition}[Vollständiges und reduziertes Modell]

\justifying
Für $p > 1$ mit $p = p_0 + p_1$ seien
\begin{equation}
X := \begin{pmatrix} X_0 & X_1 \end{pmatrix} \in \mathbb{R}^{n \times p}
\quad \mbox{mit} \quad
X_0 \in \mathbb{R}^{n \times p_0}
\quad \mbox{und} \quad
X_1 \in \mathbb{R}^{n \times p_1},
\end{equation}

sowie
\begin{equation}
\beta := \begin{pmatrix} \beta_0 \\ \beta_1 \end{pmatrix} \in \mathbb{R}^p
\quad \mbox{mit} \quad
\beta_0 \in \mathbb{R}^{p_0}
\quad \mbox{und} \quad
\beta_1 \in \mathbb{R}^{p_1}
\end{equation}

Partitionierungen einer $n \times p$ Designmatrix und eines $p$-dimensionalen
Betaparametervektors. Dann sprechen wir von einer \textit{Partitionierung eines
Allgemeinen Linearen Modells} und nennen
\begin{equation}
y = X\beta + \varepsilon
\quad \mbox{mit} \quad
\varepsilon \sim N(0_n,\sigma^2I_n)
\end{equation}

das \textit{vollständige Modell} und
\begin{equation}
y = X_0\beta_0 + \varepsilon_0
\quad \mbox{mit} \quad
\varepsilon_0 \sim N(0_n,\sigma_0^2I_n)
\end{equation}

das \textit{reduzierte Modell}.

\end{definition}

Bemerkungen

* Man sagt auch, dass das reduzierte Modell im vollständigen Modell *geschachtelt* ist.
* Im der englischsprachigen Literatur ist der Begriff *nested models* verbreitet.


<!-- Theorem: Likelihood-Quotient von vollständigem und reduziertem Modell -->
# Likelihood-Quotienten

\footnotesize
\begin{theorem}[Likelihood-Quotient von vollständigem \& reduziertem Modell]

\justifying
\normalfont
Für $p = p_0 + p_1$ mit $p > 1$ sei eine Partitionierung eines vollständigen ALMs 
gegeben und es seien $\hat{\sigma}^2$ und $\hat{\sigma}^2_0$ die Maximum-Likelihood-Schätzer des Varianzparameters unter vollständigem bzw. reduziertem Modell. Weiterhin seien die zwei parametrischen statistischen Modelle $\mathcal{M}_0$ und $\mathcal{M}_1$ in der Definition der Likelihood-Quotienten-Statistik durch das reduzierte Modell und das vollständige Modell gegeben. Dann gilt
\begin{equation}
\Lambda = \left(\frac{\hat{\sigma}^2}{\hat{\sigma}_0^2}\right)^{\frac{n}{2}}
\end{equation}

\end{theorem}

Bemerkungen

* Informell gilt hier
\begin{equation}
\mathcal{M}_0 : y = X_0\beta_0 + \varepsilon_0, \; \varepsilon_0 \sim N\left(0_n, \sigma_0^2 I_n\right)
\end{equation}
und
\begin{equation}
\mathcal{M}_1 : y = X\beta + \varepsilon, \; \varepsilon \sim N\left(0_n,  \sigma^2 I_n\right) \; .
\end{equation}


<!-- Beweis -->
# Likelihood-Quotienten

\footnotesize
\underline{Beweis}

Wir erinnern zunächst daran, dass die Maximum-Likelihood-Schätzer des Varianzparameters durch
\begin{equation}
\hat{\sigma}^2 = \frac{1}{n}\left(y - X\hat{\beta}\right)^\mathrm{T}\left(y - X\hat{\beta}\right)
\quad \mbox{und} \quad
\hat{\sigma}^2_0 = \frac{1}{n}\left(y - X_0\hat{\beta}_0\right)^\mathrm{T}\left(y - X_0\hat{\beta}_0\right)
\end{equation}

\vspace{-1mm}
gegeben sind, wobei $\hat{\beta}$ und $\hat{\beta}_0$ die Maximum-Likelihood-Schätzer
der Betaparameter unter vollständigem bzw. reduziertem Modell bezeichnen. Weiterhin halten wir fest, dass die Likelihood-Funktion des vollständigem Modells an der Stelle der Maximum-Likelihood-Schätzer den folgenden Wert annimmt
\begin{align}
\begin{split}
L_1(y, \hat{\beta}, \hat{\sigma}^2)
& = \frac{1}{\sqrt{(2\pi)^n (\hat{\sigma}^2)^n}} \cdot \exp\left(-\frac{1}{2\hat{\sigma}^2}(y - X\hat{\beta})^\mathrm{T}(y - X\hat{\beta})\right) \\
& = \frac{1}{\sqrt{(2\pi)^n (\hat{\sigma}^2)^n}} \cdot \exp\left(-\frac{n}{2}\frac{(y - X\hat{\beta})^\mathrm{T}(y - X\hat{\beta})}{(y - X\hat{\beta})^\mathrm{T}(y - X\hat{\beta})}\right) \\
& = \frac{1}{\sqrt{(2\pi)^n (\hat{\sigma}^2)^n}} \cdot e^{-\frac{n}{2}} \; ,
\end{split}
\end{align}

\vspace{-2mm}
und analog, für die Likelihood-Funktion des reduzierten Modells an der Stelle der Maximum-Likelihood-Schätzer
\begin{align}
\begin{split}
L_0(y, \hat{\beta}_0, \hat{\sigma}^2_0)
& = \frac{1}{\sqrt{(2\pi)^n (\hat{\sigma}_0^2)^n}} \cdot e^{-\frac{n}{2}} \; .
\end{split}
\end{align}

\vspace{-3mm}
Damit ergibt sich dann aber
\begin{equation*}
\Lambda 
= \frac{\max_{\theta_0 \in \Theta_0} L_0(y, \theta_0)}{\max_{\theta_1 \in \Theta_1}L_1(y, \theta_1)} 
= \frac{L_0(y, \hat{\beta}_0, \hat{\sigma}_0^2)}{L_1(y, \hat{\beta}, \hat{\sigma}^2)}
= \frac{\sqrt{(2\pi)^n (\hat{\sigma}^2)^n} \cdot e^{-\frac{n}{2}}}{\sqrt{(2\pi)^n (\hat{\sigma}_0^2)^n} \cdot e^{-\frac{n}{2}}}
= \sqrt{ \left( \frac{\hat{\sigma}^2}{\hat{\sigma}_0^2} \right)^n }
= \left(\frac{\hat{\sigma}^2}{\hat{\sigma}^2_0}\right)^{\frac{n}{2}} \; .
\end{equation*}
$\hfill\Box$


<!-- Abschnitt 3: F-Statistiken -->
#

\vfill
\large
\setstretch{3}

F-Zufallsvariablen

Likelihood-Quotienten

**F-Statistiken**

Selbstkontrollfragen

\vfill


<!-- Definition: F-Statistik für Partitionierung eines ALM -->
# F-Statistiken

\footnotesize
\begin{definition}[F-Statistik für Partitionierung eines ALM]

\justifying
Gegeben seien das ALM
\begin{equation}
y = X\beta + \varepsilon
\quad \mbox{mit} \quad
\varepsilon \sim N(0_n,\sigma^2I_n) \; ,
\end{equation}

wobei $X \in \mathbb{R}^{n \times p}$, und mit $p = p_0 + p_1$ eine Partitionierung
\begin{align}
\begin{split}
X   &=  \begin{pmatrix} X_0 & X_1 \end{pmatrix}, \;
X_0 \in \mathbb{R}^{n\times p_0}, \;
X_1 \in \mathbb{R}^{n\times p_1}
\quad \mbox{und} \quad \\
\beta   &=  \begin{pmatrix} \beta_0 \\ \beta_1 \end{pmatrix}, \;
\beta_0 \in \mathbb{R}^{p_0}, \;
\beta_1 \in \mathbb{R}^{p_1} \; .
\end{split}
\end{align}

Weiterhin seien $\hat{\beta}$ und $\hat{\beta}_0$ die Betaparameterschätzer des vollständigen bzw. reduzierten Modells sowie $\hat{\varepsilon}$ und $\hat{\varepsilon}_0$ die Residuenvektoren des vollständigen bzw. reduzierten Modells:
\begin{align}
\begin{split}
\hat{\varepsilon} := y - X\hat{\beta}
\quad &\mbox{mit} \quad
\hat{\beta} := (X^\mathrm{T}X)^{-1}X^\mathrm{T}y \\
\hat{\varepsilon}_0 := y - X_0\hat{\beta}_0
\quad &\mbox{mit} \quad
\hat{\beta}_0 := (X_0^\mathrm{T}X_0)^{-1} X_0^\mathrm{T}y \; .
\end{split}
\end{align}

Dann ist die F-Statistik definiert als
\begin{equation}
F := \frac{(\hat{\varepsilon}_0^\mathrm{T}\hat{\varepsilon}_0-\hat{\varepsilon}^\mathrm{T}\hat{\varepsilon})/p_1}{\hat{\varepsilon}^\mathrm{T}\hat{\varepsilon}/(n-p)} \; .
\end{equation}

\end{definition}


<!-- Bemerkungen -->
# F-Statistiken
\footnotesize

Bemerkungen

* \justifying Der Zähler der F-Statistik
\begin{equation}
\frac{\hat{\varepsilon}_0^\mathrm{T}\hat{\varepsilon}_0 - \hat{\varepsilon}^\mathrm{T}\hat{\varepsilon}}{p_1}
\end{equation}
misst, inwieweit die $p_1$ Regressoren in $X_1$ die Residualquadratsumme reduzieren und zwar im Verhältnis zur Anzahl dieser Regressoren. Das heißt, dass bei gleicher Residualquadratsummenreduktion (und gleichem Nenner) ein größerer $F$-Wert resultiert, wenn diese durch weniger zusätzliche Regressoren erreicht wird, also $p_1$ klein ist (und umgekehrt). Im Sinne der Anzahl der Spalten von $X$ und der entsprechenden Komponenten von $\beta$ favorisiert die $F$-Statistik also weniger "komplexe" Modelle.
* Für den Nenner der F-Statistik gilt
\begin{equation}
\frac{\hat{\varepsilon}^\mathrm{T}\hat{\varepsilon}}{n-p} = \hat{\sigma}^2,
\end{equation}
wobei $\hat{\sigma}^2$ hier der aufgrund des vollständigen Modells geschätzte Schätzer von $\sigma^2$ ist. Wenn die Daten tatsächlich unter dem reduzierten Modell generiert werden, so kann das vollständige Modell dies durch $\hat{\beta}_1 \approx 0_{p_1}$ abbilden und erreicht eine ähnliche Varianzschätzung wie das reduzierte Modell. Wenn die Daten tatsächlich unter dem vollständigem Modell generiert werden, so ist $\hat{\varepsilon}^\mathrm{T}\hat{\varepsilon}/(n-p)$ ein besserer Schätzer von $\sigma^2$ als $\hat{\varepsilon}_0^\mathrm{T}\hat{\varepsilon_0}/(n-p_0)$, da sich für ersteren Datenvariabilität, die nicht durch die $p_0$ Regressoren in $X_0$ erklärt wird, in der Schätzung von $\sigma^2$ widerspiegeln würde. Der Nenner der F-Statistik ist also in beiden Fällen der sinnvollere Schätzer von $\sigma^2$.
* Zusammengenommen misst die F-Statistik also die Residualquadratsummenreduktion durch die $p_1$ Regressoren in $X_1$ gegenüber den $p_0$ Regressoren in $X_0$ pro Datenvariabilitäts ($\hat{\sigma}^2$)- und Regressor ($p_1$)-Einheit.


<!-- Theorem: F-Statistik und Likelihood-Quotienten-Statistik -->
# F-Statistiken

\vspace{3mm}
\footnotesize
\begin{theorem}[F-Statistik und Likelihood-Quotienten-Statistik]

\justifying
\normalfont
Es sei die Partitionierung eines ALMs in ein vollständiges und ein reduziertes Modell gegeben und $F$ und $\Lambda$ seien die entsprechenden F- und Likelihood-Quotienten-Statistiken. Dann gilt
\begin{equation}
F = \frac{n-p}{p_1}\left(\Lambda^{-\frac{2}{n}} -1 \right).
\end{equation}

\end{theorem}

\vspace{-1mm}
Bemerkungen
\vspace{-1mm}

* Zwischen der F- und der Likelihood-Quotienten-Statistik besteht ein funktionaler reziproker Zusammenhang.
* Für $\Lambda = 1$ gilt $F = 0$. Für $F \rightarrow \infty$ gilt $\Lambda \rightarrow 0$.
* Wir visualisieren untenstehend den funktionalen Zusammenhang für $n = 12, p = 2, p_1 = 1$.

\vspace{-3mm}

```{r, eval = F, echo = F}
# Modellformulierung
n           = 12
p           = 2
p_1         = 1
l_min       = 0.01
l_max       = 1
l_res       = 1e3
Lambda      = seq(l_min, l_max, len = l_res)
Eff         = ((n-p)/p_1)*((Lambda**(-2/n)) -1)

# Visualisierung
graphics.off()
library(latex2exp)
dev.new()
par(
    family      = "sans",
    mfcol       = c(1,1),
    pty         = "m",
    bty         = "l",
    lwd         = 1,
    las         = 1,
    mgp         = c(2.5,1,0),
    xaxs        = "i",
    yaxs        = "i",
    xpd         = TRUE,
    font.main   = 1,
    cex         = 1,
    cex.main    = 1)
plot(Lambda, Eff,
    type        = "l",
    lty         = 1,
    lwd         = 2,
    ylim        = c(0,12),
    xlim        = c(l_min,l_max),
    ylab        = "F",
    xlab        = TeX("$\\Lambda"))

# Speichern
dev.copy2pdf(
    file   = "Abbildungen/f_lambda.pdf",
    width  = 5,
    height = 4)
```

```{r, echo = F, out.width = "50%", fig.align = "center"}
knitr::include_graphics("Abbildungen/f_lambda.pdf")
```


<!-- Beweis -->
# F-Statistiken

\vspace{1mm}
\small
\underline{Beweis}

Wir erinnern zunächst daran, dass die Maximum-Likelihood-Schätzer des Varianzparameters durch
\begin{equation}
\hat{\sigma}^2 = \frac{1}{n}\left(y - X\hat{\beta}\right)^\mathrm{T}\left(y - X\hat{\beta}\right) = \frac{\hat{\varepsilon}^\mathrm{T}\hat{\varepsilon}}{n}
\quad \mbox{ und } \quad
\hat{\sigma}^2_0 = \frac{1}{n}\left(y - X_0\hat{\beta}_0\right)^\mathrm{T}\left(y - X_0\hat{\beta}_0\right) = \frac{\hat{\varepsilon}_0^\mathrm{T}\hat{\varepsilon}_0}{n}
\end{equation}

\vspace{-2mm}
gegeben sind. Mit der Definition der F-Statistik und der Form der Likelihood-Quotienten-Statistik
für den Vergleich von reduziertem und vollständigem Modell
\begin{equation}
\Lambda = \left(\frac{\hat{\sigma}^2}{\hat{\sigma}_0^2}\right)^{\frac{n}{2}}
\end{equation}

\vspace{-2mm}
ergibt sich dann
\begin{align}
\begin{split}
F 
& = \frac{(\hat{\varepsilon}_0^\mathrm{T}\hat{\varepsilon}_0 - \hat{\varepsilon}^\mathrm{T}\hat{\varepsilon})/p_1}{\hat{\varepsilon}^\mathrm{T}\hat{\varepsilon}/(n-p)} \\
& = \frac{n(\hat{\sigma}^2_0 - \hat{\sigma}^2)/p_1}{n\hat{\sigma}^2/(n-p)} \\
& = \frac{n-p}{p_1} \frac{\hat{\sigma}^2_0 - \hat{\sigma}^2 }{\hat{\sigma}^2} \\
& = \frac{n-p}{p_1} \left(\frac{\hat{\sigma}^2_0}{\hat{\sigma}^2} - \frac{\hat{\sigma}^2}{\hat{\sigma}^2} \right)  \\
& = \frac{n-p}{p_1} \left(\Lambda^{-\frac{2}{n}} - 1\right) \; .
\end{split}
\end{align}
$\hfill\Box$


<!-- Beispiel: einfache lineare Regression -->
# F-Statistiken

\vspace{1mm}
\small
Beispiel: Einfache lineare Regression

\vspace{-2mm}
\footnotesize
\begin{equation}
X    = \begin{pmatrix} X_0 & X_1 \end{pmatrix}, \quad
X_0 := 1_{n}, \quad
X_1 := (x_1,...,x_n)^\mathrm{T}, \quad
\beta  := \begin{pmatrix} \beta_0 \\ \beta_1 \end{pmatrix}, \quad
\beta_0 = \mbox{Offset, } \quad
\beta_1 = \mbox{Steigung }
\end{equation}

\tiny
\setstretch{0.9}
```{r, echo = T}
# Modellformulierung
library(MASS)                                               # multivariate Normalverteilung
nmod   = 2                                                  # Anzahl Modelle
n      = 10                                                 # Anzahl Datenpunkte
p_0    = 1                                                  # Anzahl Betaparameter reduziertes Modell
p_1    = 1                                                  # Anzahl zusätzlicher Betaparameter vollständiges Modell
p      = p_0 + p_1                                          # Anzahl Betaparameter im vollständigem Modell
x      = 1:n                                                # Prädiktorwerte
X      = matrix(c(rep(1,n),x), nrow = n)                    # Designmatrix des vollständigen Modells
X_0    = X[,1]                                              # Designmatrix des reduzierten Modells
I_n    = diag(n)                                            # Einheitsmatrix
beta   = matrix(c(1,0,
                  1,0.5), nrow = 2)                         # wahre,  aber unbekannte  Betaparameter
nscn   = ncol(beta)                                         # Anzahl wahrer, aber unbekannter Hypothesenszenarien
sigsqr = 1                                                  # wahrer, aber unbekannter Varianzparameter

# Simulation und Evaluierung
Eff    = matrix(rep(NaN, nscn), nrow = nscn)                # F-Statistik-Realisierungsarray
for(s in 1:nscn){                                           # Szenarieniterationen
    y               = mvrnorm(1, X %*% beta[,s], sigsqr*I_n)# Datenrealisierung
    beta_0_hat      = solve(t(X_0)%*%X_0) %*% t(X_0)%*%y    # Betaparameterschätzer reduziertes Modell
    beta_hat        = solve(t(X)  %*%X  ) %*% t(X)  %*%y    # Betaparameterschätzer vollständiges Modell
    eps_0_hat       = y - X_0 %*% beta_0_hat                # Residuenvektor reduziertes Modell
    eps_hat         = y - X   %*% beta_hat                  # Residuenvektor vollständiges Modell
    eps_0_eps_0_hat = t(eps_0_hat) %*% eps_0_hat            # RQS reduziertes Modell
    eps_eps_hat     = t(eps_hat)   %*% eps_hat              # RQS vollständiges Modell
    Eff[s]          = (((eps_0_eps_0_hat-eps_eps_hat)/p_1)/ # F-Statistik
                        (eps_eps_hat/(n-p)))
}
```

```{r, echo = F}
cat(  "F-Statistik für beta_1  = 0_{p_1}:", Eff[1],
    "\nF-Statistik für beta_1 != 0_{p_1}:", Eff[2])
```


<!-- Theorem: Verteilung der F-Statistik -->
# F-Statistiken

\footnotesize
\begin{theorem}[Verteilung der F-Statistik]

\justifying
\normalfont
Gegeben seien das ALM
\begin{equation}
y = X\beta + \varepsilon
\quad \mbox{mit} \quad
\varepsilon \sim N(0_n,\sigma^2I_n) \; ,
\end{equation}

wobei $X \in \mathbb{R}^{n \times p}$, und mit $p = p_0 + p_1$ eine Partitionierung
\begin{align}
\begin{split}
X   &=  \begin{pmatrix} X_0 & X_1 \end{pmatrix}, \;
X_0 \in \mathbb{R}^{n\times p_0}, \;
X_1 \in \mathbb{R}^{n\times p_1}
\quad \mbox{und} \quad \\
\beta   &=  \begin{pmatrix} \beta_0 \\ \beta_1 \end{pmatrix}, \;
\beta_0 \in \mathbb{R}^{p_0}, \;
\beta_1 \in \mathbb{R}^{p_1} \; .
\end{split}
\end{align}

Schließlich sei ein Vektor $c$ gegeben durch
\begin{equation}
c := \begin{pmatrix} 0_{p_0} \\ 1_{p_1} \end{pmatrix} \in \mathbb{R}^p \; .
\end{equation}

Dann gilt
\begin{equation}
F \sim f(\delta, p_1, n-p)
\quad \mbox{mit} \quad
\delta := \frac{c^\mathrm{T}\beta \left(c^\mathrm{T}(X^\mathrm{T}X)^{-1}c\right)^{-1}c^\mathrm{T} \beta}{\sigma^2}
\end{equation}

\end{theorem}

\vspace{-1mm}
Bemerkungen
\vspace{-1mm}

* Wir verzichten auf einen vollständigen Beweis.
* $F$ ist eine Funktion der Parameterschätzer, $\delta$ ist eine Funktion der wahren, aber unbekannten Parameter.
* Diese Verteilung von $F$ kann zum Nullhypothesentesten und zur Powerfunktionsevaluation genutzt werden.
* Insbesondere gilt $F \sim f(0, p_1, n-p) = f(p_1, n-p)$, wenn $\beta_1 = 0_{p_1}$ und damit $c^\mathrm{T}\beta = 0$.


<!-- Beweis -->
# F-Statistiken

\vspace{2mm}
\footnotesize
\underline{Beweisandeutung}

Wir haben bereits gesehen, dass folgende Funktion des Varianzparameterschätzers einer Chi-Quadrat-Verteilung folgt (siehe Einheit (6) in *Allgemeines Lineares Modell*):
\begin{equation}
U_2 = \frac{n-p}{\sigma^2}\hat{\sigma}^2 \sim \chi^2(n-p) \; .
\end{equation}

Des Weiteren lässt sich zeigen, dass folgende Funktion der Varianzparameterschätzer von vollständigem und reduziertem Modell einer nichtzentralen Chi-Quadrat-Verteilung folgt:
\begin{equation}
U_1 = \frac{n-p_0}{\sigma^2}\hat{\sigma}_0^2 - \frac{n-p}{\sigma^2}\hat{\sigma}^2
\sim \chi^2\left( \frac{c^\mathrm{T}\beta \left(c^\mathrm{T}(X^\mathrm{T}X)^{-1}c\right)^{-1}c^\mathrm{T} \beta}{\sigma^2}, p-p_0 \right) \; .
\end{equation}

Definitionsgemäß ist der Quotient aus der Zufallsvariable $U_1$, geteilt durch ihren Freiheitsgradparameter, und der Zufallsvariable $U_2$, geteilt durch ihren Freiheitsgradparameter, eine nichtzentrale $f$-Zufallsvariable
\begin{equation}
F = \frac{U_1/(p-p_0)}{U_2/(n-p)} \sim f(\delta, p-p_0, n-p) \; ,
\end{equation}

wobei der Nichtzentralitätsparameter der nichtzentralen $f$-Verteilung durch den Nichtzentralitätsparameter der nichtzentralen Chi-Quadrat-Verteilung gegeben ist und sich die F-Statistik wie folgt ergibt:
\begin{align}
\begin{split}
F
&= \frac{\left( \frac{n-p_0}{\sigma^2}\hat{\sigma}_0^2 - \frac{n-p}{\sigma^2}\hat{\sigma}^2 \right)/(p-p_0)}{\frac{n-p}{\sigma^2}\hat{\sigma}^2/(n-p)}
 = \frac{\frac{1}{\sigma^2} \left( (n-p_0)\hat{\sigma}_0^2 - (n-p)\hat{\sigma}^2 \right)/(p-p_0)}{\frac{1}{\sigma^2} (n-p)\hat{\sigma}^2/(n-p)} \\
&= \frac{\left( (n-p_0)\hat{\sigma}_0^2 - (n-p)\hat{\sigma}^2 \right)/p_1}{(n-p)\hat{\sigma}^2/(n-p)}
 = \frac{(\hat{\varepsilon}_0^\mathrm{T}\hat{\varepsilon}_0-\hat{\varepsilon}^\mathrm{T}\hat{\varepsilon})/p_1}{\hat{\varepsilon}^\mathrm{T}\hat{\varepsilon}/(n-p)} \; .
\end{split}
\end{align}
$\hfill\Box$
\vfill


<!-- Beispiel: einfache lineare Regression -->
# F-Statistiken

\vspace{1mm}
\small
Beispiel: Einfache lineare Regression

\vspace{-4mm}
\footnotesize
\begin{equation}
X    = \begin{pmatrix} X_0 & X_1 \end{pmatrix}, \quad
X_0 := 1_{n}, \quad
X_1 := (x_1,...,x_n)^\mathrm{T}, \quad
\beta  := \begin{pmatrix} \beta_0 \\ \beta_1 \end{pmatrix}, \quad
\beta_0 = \mbox{Offset, } \quad
\beta_1 = \mbox{Steigung }
\end{equation}

\tiny
\setstretch{0.85}
```{r, echo = T}
# Modellformulierung
library(MASS)                                                   # multivariate Normalverteilung
nmod   = 2                                                      # Anzahl Modelle
n      = 10                                                     # Anzahl Datenpunkte
p_0    = 1                                                      # Anzahl Betaparameter im reduzierten Modell
p_1    = 1                                                      # Anzahl additiver Betaparameter im vollständigen Modell
p      = p_0 + p_1                                              # Anzahl Betaparameter im vollständigem Modell
x      = 1:n                                                    # Prädiktorwerte
X      = matrix(c(rep(1,n),x), nrow = n)                        # Designmatrix des vollständigen Modells
X_0    = X[,1]                                                  # Designmatrix des reduzierten Modells
I_n    = diag(n)                                                # Einheitsmatrix
beta   = matrix(c(1,0,
                  1,0.5), nrow = 2)                             # wahre,  aber unbekannte  Betaparameter
nscn   = ncol(beta)                                             # Anzahl wahrer, aber unbekannter Hypothesenszenarien
sigsqr = 1                                                      # wahrer, aber unbekannter Varianzparameter
c      = matrix(c(0,1), nrow = 2)                               # Vektor c

# Frequentistische Simulation
nsim   = 1e4                                                    # Anzahl Realisierungen des n-dimensionalen ZVs
delta  = rep(NaN,nscn)                                          # Nichtzentralitätsparameterarray
Eff    = matrix(rep(NaN, nscn*nsim), nrow = nscn)               # F-Statistiik-Realisierungsarray
for(s in 1:nscn){                                               # Szenarieniterationen
    delta[s] = (t(t(c)%*%beta[,s])%*%                           # Nichtzentralitätsparameter
                solve(t(c)%*%solve(t(X)%*%X)%*%c) %*%
                (t(c)%*%beta[,s])/sigsqr)
    for(i in 1:nsim){                                           # Simulationsiterationen
        y               = mvrnorm(1, X %*% beta[,s], sigsqr*I_n)# Datenrealisierung
        beta_0_hat      = solve(t(X_0)%*%X_0) %*% t(X_0)%*%y    # Betaparameterschätzer reduziertes Modell
        beta_hat        = solve(t(X)  %*%X  ) %*% t(X)  %*%y    # Betaparameterschätzer vollständiges Modell
        eps_0_hat       = y - X_0 %*% beta_0_hat                # Residuenvektor reduziertes Modell
        eps_hat         = y - X   %*% beta_hat                  # Residuenvektor vollständiges Modell
        eps_0_eps_0_hat = t(eps_0_hat) %*% eps_0_hat            # RQS reduziertes Modell
        eps_eps_hat     = t(eps_hat)   %*% eps_hat              # RQS vollständiges Modell
        Eff[s,i]        = (((eps_0_eps_0_hat-eps_eps_hat)/p_1)/ # F-Statistik
                            (eps_eps_hat/(n-p)))}
}
```


<!-- Beispiel: einfache lineare Regression -->
# F-Statistiken

Beispiel: Einfache lineare Regression
\vspace{2mm}

```{r, eval = F, echo = F}
# Visualisierung
graphics.off()
dev.new()
par(
    family      = "sans",
    mfcol       = c(1,2),
    pty         = "s",
    bty         = "l",
    lwd         = 1,
    las         = 1,
    mgp         = c(2.5,1,0),
    xaxs        = "i",
    yaxs        = "i",
    xpd         = TRUE,
    font.main   = 1,
    cex         = 1,
    cex.main    = 1.2)

# F-Statistik Ergebnisraum
lab         = c(TeX("$\\beta = (1,0)^T$"), TeX("$\\beta = (1,0.5)^T$") )
xlimits     = list(c(.025,5), c(0,70))
ylimits     = list(c(0,2.5), c(0,0.05))
breaks      = c(600,200)

# F-Teststatistiken
for(s in 1:nscn){
    xlims  = xlimits[[s]]
    f_min  = xlims[1]
    f_max  = xlims[2]
    f_res  = 1e3
    f      = seq(f_min, f_max, len = f_res)
    p_f    = df(f,p_1,n-p, delta[s])
    hist(Eff[s,],
        breaks = breaks[s],
        col    = "gray90",
        prob   = TRUE,
        xlab   = TeX("$F$"),
        ylab   = "",
        xlim   = xlims,
        ylim   = ylimits[[s]],
        main   = lab[s])
    lines(f, p_f,
        type  = "l",
        lwd   = 2,
        col   = "darkorange")
}

# Speichern
dev.copy2pdf(
    file      = "Abbildungen/f_statistik.pdf",
    width     = 8,
    height    = 4)
```

\vfill
```{r, echo = F, out.width = "100%"}
knitr::include_graphics("Abbildungen/f_statistik.pdf")
```
\vfill


<!-- Ausblick -->
# F-Statistiken

\small
Ausblick

* \justifying Die Theorie von T- und F-Statistiken wird unter dem Begriff der *Allgemeinen Linearen Hypothese* verallgemeinert und integriert. Dabei betrachtet man allgemeine lineare Funktionen der Betaparameter der Form $C^\mathrm{T}\beta$, wobei $C \in \mathbb{R}^{p \times k}$ eine beliebige Matrix als Grundlage von Hypothesen ist. Zum Beispiel ergeben sich für $C \in \mathbb{R}^{p \times 1}$ die hier für F-Statistiken und zuvor für T-Statistiken betrachteten Kontrastgewichtsvektoren. Im Kontext der *Allgemeinen Linearen Hypothese* kann man weiterhin zeigen, dass $F = T^2$, dass also auch das Quadrat einer T-Statistik $f$-verteilt ist und T-Statistiken damit (nur) spezielle F-Statistiken sind. \vspace{2mm}

* \justifying Dennoch wird in der Anwendung sehr stark zwischen T- und F-Statistiken unterschieden
und es ist sinnvoll, sich der unterschiedlichen Anwendungsfälle von T- und F-Statistiken
bewusst zu sein. Gute Einführungen in die Theorie der Allgemeinen Linearen Hypothese bieten z.B.
@searle1971, Kapitel 3, @rencher2008, Kapitel 8, oder @christensen2011, Kapitel 3.


<!-- Anhang: Selbstkontrollfragen -->
#

\vfill
\large
\setstretch{3}

F-Zufallsvariablen

Likelihood-Quotienten

F-Statistiken

**Selbstkontrollfragen**

\vfill


<!-- Selbstkontrollfragen -->
# Selbstkontrollfragen

\footnotesize
\setstretch{2}

1. Geben Sie die Definition einer $f$-Zufallsvariable wieder.
1. Geben Sie die Definition einer nichtzentralen $f$-Zufallsvariable wieder.
1. Skizzieren Sie die WDF einer $f$-Verteilung mit $n_1 = 4, n_2 = 26$.
1. Skizzieren Sie die WDF einer nichtzentralen $f$-Verteilung mit $\delta = 4, n_1 = 2, n_2 = 26$.
1. Geben Sie die Definition der Likelihood-Quotienten-Statistik wieder.
1. Erläutern Sie die Definition der Likelihood-Quotienten-Statistik.
1. Geben Sie die Definition von vollständigem und reduziertem ALM wieder.
1. Geben Sie das Theorem zum Likelihood-Quotienten von vollständigem und reduzierten ALM wieder.
1. Definieren Sie die F-Statistik.
1. Erläutern Sie den Zähler der F-Statistik.
1. Erläutern Sie den Nenner der F-Statistik.
1. Erläutern Sie die F-Statistik.
1. Geben Sie das Theorem zum Zusammenhang von F-Statistik und Likelihood-Quotienten-Statistik wieder.
1. Geben Sie das Theorem zur Verteilung der F-Statistik wieder.


<!-- Literatur -->
# Referenzen
