gurix
diff --git a/‎backward_stepwise.dia‎
1 Byte b/‎backward_stepwise.dia‎
1 Byte
diff --git a/‎backward_stepwise.png‎
1.21 KB b/‎backward_stepwise.png‎
1.21 KB
diff --git a/‎forward_stepwise.dia‎
19 Bytes b/‎forward_stepwise.dia‎
19 Bytes
diff --git a/‎forward_stepwise.png‎
1.38 KB b/‎forward_stepwise.png‎
1.38 KB
diff --git a/‎introduction.tex‎
Lines changed: 7 additions & 7 deletions b/‎introduction.tex‎
Lines changed: 7 additions & 7 deletions
diff --git a/‎literature.bib‎
Lines changed: 9 additions & 0 deletions b/‎literature.bib‎
Lines changed: 9 additions & 0 deletions
diff --git a/‎main.pdf‎
3.25 KB b/‎main.pdf‎
3.25 KB
diff --git a/‎main.tex‎
Lines changed: 13 additions & 7 deletions b/‎main.tex‎
Lines changed: 13 additions & 7 deletions
diff --git a/‎model_selection.tex‎
Lines changed: 19 additions & 20 deletions b/‎model_selection.tex‎
Lines changed: 19 additions & 20 deletions
@@ -1,20 +1,20 @@
 \section{Einführung}
-Das Standardverfahren um eine \Gls{glos:kriteriumsvariable} durch \Glspl{glos:praediktorvariable} vorherzusagen stellt die Regressionsanalyse dar.
+Das Standardverfahren, um eine \Gls{glos:kriteriumsvariable} durch \Glspl{glos:praediktorvariable} vorherzusagen, stellt die Regressionsanalyse dar.
 Begründet wurde dieses Verfahren durch Carl Friedrich Gauss in seiner Schrift, in der er, mit Hilfe der Methode der kleinsten Quadrate, die Bewegung der Himmelskörper um die Sonne im Kegelschnitt beschrieb \cite{gauss1809theoria}. 
 
-Im Unterschied zur einfachen linearen Regression, werden in einem multiplen Regressionsmodell mehrere Prädiktoren $p$ mit einbezogen. 
-Es resultiert eine Regressionsgleichung welche zur Vorhersage einer Kriteriumsvariable aufgrund mehrerer Prädikatorvariablen genutzt wird  \cite[S. 448]{bortz2011}. 
+Im Unterschied zur einfachen linearen Regression werden in einem multiplen Regressionsmodell mehrere Prädiktoren $p$ mit einbezogen. 
+Es resultiert eine Regressionsgleichung, welche zur Vorhersage einer Kriteriumsvariable $y_i$ aufgrund mehrerer Prädiktorvariablen genutzt wird  \cite[S. 448]{bortz2011}. 
 \begin{equation}
-x_i = \beta_0 + \beta_1\cdot x_{i1} + ... +  \beta_p\cdot x_{ip} + \epsilon_i
+y_i = \beta_0 + \beta_1\cdot x_{i1} + ... +  \beta_p\cdot x_{ip} + \epsilon_i
 \tag{multiple lineare Regression}
 \end{equation}
 Beim klassisch hypothesengeleiteten Vorgehen wird eine Hypothese definiert, welche empirisch getestet wird.
 Der empirische Test wiederum ist ein Modell, in unserem Fall eine Regressionsgleichung, welche aufgrund theoretischer Überlegungen erstellt wurde.
 Wenn es jedoch keine klaren theoretischen Gründe gibt potentielle Prädiktorvariablen in das Modell aufzunehmen, werden mehrere Modelle geschätzt und jenes mit der besten und stabilsten Vorhersagekraft verwendet.
 Bei komplexen Modellen mit vielen Prädiktoren werden Modelle mittels automatischer Verfahren geschätzt und selektiert.
-Ein zentrales Problem solcher Verfahren ist, dass sie dazu neigen zu komplexe Modelle zu schätzen. 
-Komplexe Modelle können sehr gute Vorhersagen innerhalb des \Gls{glos:trainingsdatensatz}es liefern, doch scheitern gern beim Versuch generelle Vorhersagen zu treffen.
+Ein zentrales Problem solcher Verfahren ist, dass sie dazu neigen, zu komplexe Modelle zu schätzen. 
+Komplexe Modelle können sehr gute Vorhersagen innerhalb des \Gls{glos:trainingsdatensatz}es liefern, doch scheitern gern beim Versuch, generelle Vorhersagen zu treffen.
 
-Im folgenden wird diskutiert wann und weshalb automatische Verfahren zur Modellwahl eingesetzt werden. 
+Im folgenden wird diskutiert, wann und weshalb automatische Verfahren zur Modellwahl eingesetzt werden. 
 Anschliessend wird das exhaustive und schrittweise Verfahren vorgestellt und kritisch diskutiert.
 Die Frage nach der Generalisierbarkeit automatisch geschätzter Modelle wird im Anschluss besprochen und die \Gls{glos:kreuzvalidierung} als Lösungsansatz genannt.
@@ -5,6 +5,15 @@ @techreport{box1979robustness
   year={1979},
   institution={DTIC Document}
 }
+@article{shieh2006suppression,
+  title={Suppression situations in multiple linear regression},
+  author={Shieh, Gwowen},
+  journal={Educational and psychological measurement},
+  volume={66},
+  pages={435--447},
+  year={2006},
+  publisher={Sage Publications}
+}
 @article{023755520080101,
 Abstract = {Aim of the study: The aim of the present study was to identify factors at the beginning and at the end of an inpatient psychosomatic rehabilitation predicting the successful transfer of Progressive Relaxation (PR) according to Jacobson three months after the stay. Methods: Eighty patients in a psychosomatic rehabilitation center were studied in the beginning (T1), at discharge (T2) and three months after discharge (T3). Every patient participated in courses on PR. To evaluate the course, parts of the Diagnostisches und evaluatives Instrumentarium für Entspannungstraining und Entspannungstherapie were used. Transfer was defined as successful if patients practised PR at least once a week three months after their stay. Potential predictors were: diagnosis, age, symptoms, previous experiences, and motives at T1 and frequency of practising, adequateness of group size and change of symptoms at T2. Stepwise logistic regression analysis was used to identify predictors. Results: Three months a},
 Author = {Bernardy, K. and Krampen, G. and Köllner, V.},
 
@@ -13,7 +13,8 @@
 \usepackage{setspace}
 \usepackage{graphicx}
 
-\usepackage{caption}
+\usepackage[labelsep=space]{caption}
+
 \usepackage{prettyref}
 
 \usepackage[nonumberlist,sanitize={name=false}]{glossaries}
@@ -25,37 +26,42 @@
 
 \usepackage[utf8]{inputenc}
 
-
-\usepackage[]{blindtext}
 \rightheader{Automatisierte Verfahren zur Prädiktorauswahl}
 % Hurenkinder und Schusterjungen verhindern
 \clubpenalty10000
 \widowpenalty10000
 \displaywidowpenalty=10000
 
 \begin{document}
+\begin{titlepage}
 
 \title{Automatische Verfahren zur Prädiktorauswahl in Regressionsmodellen}
 \shorttitle{Prädiktorauswahl in Regressionsmodellen} 
 \author{Literaturarbeit vorgelegt von \\ Markus Graf (markus.graf@uzh.ch)}
 \date{\today}
-\affiliation{am  Psychologisches Institut der Universität Zürich\\ Betreut durch Dr. Christina Werner\\ \today}
-\abstract{Ziel der multiplen Regression ist es Kriteriumsvariablen durch mehrere Prädiktorvariablen möglichst gut vorherzusagen. In diesem Kontext kommen Automatische Modellwahlverfahren zur Anwendung, wenn für die Schätzung des Modells viele potentielle Prädikatoren zur Auswahl stehen, insbesondere wenn theoretische Grundlagen fehlen. Das exhaustive Verfahren in Kombination mit der Kreuzvalidierung ist momentan die einzige Technik, die das beste und stabilste Modell findet. Schrittweise Verfahren kommen zur Anwendung bei kleinem Stichprobenumfang. Während früher aus Mangel an Rechenleistung standardmässig schrittweise Verfahren angewandt wurden soll heutzutage dem rechenintensiven exhaustiven Verfahren bevorzugt werden.
-}
+
+\affiliation{am  Psychologischen Institut der Universität Zürich\\ Betreut durch Dr. Christina Werner\\ \today}
 \maketitle
+\end{titlepage}
+\thispagestyle{empty}
+Ziel der multiplen Regression ist es Kriteriumsvariablen durch mehrere Prädiktor- variablen möglichst gut vorherzusagen. In diesem Kontext kommen Automatische Modellwahlverfahren zur Anwendung, wenn für die Schätzung des Modells viele potentielle Prädiktoren zur Auswahl stehen, insbesondere wenn theoretische Grundlagen fehlen. Das exhaustive Verfahren in Kombination mit der Kreuzvalidierung ist momentan die einzige Technik, die das beste und stabilste Modell findet. Schrittweise Verfahren kommen zur Anwendung bei kleinem Stichprobenumfang. Während früher aus Mangel an Rechenleistung standardmässig schrittweise Verfahren angewandt wurden, soll heutzutage das rechenintensive exhaustive Verfahren bevorzugt werden.
+
 \begin{center}
 \includegraphics[width=0.1\textwidth]{cc_by_sa.jpg}\\
 Dieses Werk bzw. Inhalt steht unter einer Creative Commons Namensnennung - Weitergabe unter gleichen Bedingungen 3.0 Unported Lizenz.
 \end{center}
 \setlength{\parindent}{0pt}
 \newpage
+\thispagestyle{empty}
+\begin{spacing}{0.01}
 \tableofcontents
+\end{spacing}
 \newpage
 
 \input{glossar}
 \input{introduction}
 \section{Recherche}
-Hauptquelle der Literatur-Recherche waren Artikel, welche via Google Scholar gefunden wurden. Grundlagen zu den Verfahren wurden mittels \citeA{bortz2011} und \citeA{jacob2003applied} erarbeitet. Der Fokus bei der Recherche wurde auf Artikel im Bereich der Psychologie gerichtet, es fanden sich jedoch auch  viele Artikel in anderen Fachbereichen, welche mit den selben Problemen konfrontiert sind. Kurz vorgestellt wurden die Verfahren von Carolin Strobl in der Vorlesung ``160 Psychologische Methoden: Datenerhebung, Analyse und Darstellung'' im Rahmen des Psychologie-Aufbaustudiums der Universität Zürich. Interessante Hinweise und praktische Beispiele fanden sich ausserdem in den Manuals von R.
+Hauptquelle der Literatur-Recherche waren Artikel, welche via Google Scholar gefunden wurden. Als Stichworte zu nennen sind \textit{stepwise model selection, stepwise regression criteria, model selection paradigm, cross validation, overfitting}. Grundlagen zu den Verfahren wurden mittels \citeA{bortz2011} und \citeA{jacob2003applied} erarbeitet. Der Fokus bei der Recherche wurde auf Artikel im Bereich der Psychologie gerichtet, es fanden sich jedoch auch  viele Artikel in anderen Fachbereichen, welche mit den selben Problemen konfrontiert sind. Kurz vorgestellt wurden die Verfahren von Carolin Strobl in der Vorlesung ``160 Psychologische Methoden: Datenerhebung, Analyse und Darstellung'' im Rahmen des Psychologie-Aufbaustudiums der Universität Zürich. Interessante Hinweise und praktische Beispiele fanden sich ausserdem in den Manuals von R \cite{R:core}.
 \input{why}
 \input{model_selection}
 \input{multikolinearitaet}
 
@@ -1,39 +1,38 @@
 \section{Automatische Verfahren zur Prädiktorauswahl}
-Zu beginn der psychologischen Forschung mussten Modelle von Hand berechnet werden. Zwangsläufig wurden wenige Prädikatoren erhoben und einfache Modelle gerechnet. 
+Zu Beginn der psychologischen Forschung mussten Modelle von Hand berechnet werden. Zwangsläufig wurden wenige Prädiktoren erhoben und einfache Modelle gerechnet. 
 Friedman analysierte beispielsweise 1944 die Langlebigkeit von Turbinenschaufeln in Abhängigkeit von Stress, Temperatur und einigen Legierungsparametern. 
 Zwar wurde die Berechnung nicht mehr von Hand durchgeführt, doch benötigte eine Regressionsschätzung inklusive Berechnung der Teststatistiken rund 40 Stunden \cite[p.2]{armstrong2011illusions}. Jeder durchschnittliche Computer erledigt dies heutzutage in Sekundenbruchteilen. 
-Mit dem technische Fortschritt einhergehend wurden Verfahren entwickelt, welche alle möglichen Kombinationen von Prädiktoren, inklusive ihrer Interaktion, berücksichtigen und gegeneinander testen.
+Mit dem technischen Fortschritt einhergehend wurden Verfahren entwickelt, welche alle möglichen Kombinationen von Prädiktoren, inklusive ihrer Interaktionen, berücksichtigen und gegeneinander testen.
 
-Es gilt also das ``beste'' Modell zu schätzen. 
-Gemeint ist mit dem ``besten'' Modell das, dass innerhalb des Trainingsdatensatzes die beste Vorhersage liefert. 
+Es gilt also, das ``beste'' Modell zu schätzen. 
+Gemeint ist mit dem ``besten'' Modell das, das innerhalb des Trainingsdatensatzes die beste Vorhersage liefert. 
 Anhand des Trainingsdatensatzes wurde das Modell jedoch auch geschätzt. Entsprechend kann es Modelle geben, die in der Gesamtpopulation bessere Vorhersagen liefern. 
 ``All models are wrong, but some are useful'' \cite[p.202]{box1979robustness}.
-Box will damit hervorheben, dass obschon in der Literatur oft vom ``besten'' oder ``wahren'' Modell gesprochen wird, dies nur ein Approximation der Wirklichkeit darstellt \cite[p.172]{weakliem2004introduction}.
+Box will damit hervorheben, dass obschon in der Literatur oft vom ``besten'' oder ``wahren'' Modell gesprochen wird, dies nur eine Approximation der Wirklichkeit darstellt \cite[p.172]{weakliem2004introduction}.
 
 \subsection{Exhaustive Schätzung} 
-Eine naive Herangehensweise ist, alle möglichen Modelle, welche mit $p$ Prädiktoren möglich sind, durch zurechnen. 
+Eine naive Herangehensweise ist, alle möglichen Modelle, welche mit $p$ Prädiktoren möglich sind, durchzurechnen. 
 Zur Beurteilung der Modellgüte kann die mittlere quadratische Abweichung herangezogen werden.
 Das Modell mit der kleinsten Fehlerquadratsumme $SSE_p$ wird als das  optimale Modell bezeichnet \cite[p. 6]{thompson1978selection}. 
 
 \begin{equation}
-SSE_p = \sum(Y_{ip}-\hat Y_{p})^2
+SSE_p = \sum_{i=1}^n(y_{ip}-\hat y_{p})^2
 \tag{Fehlerquadratsumme}
 \end{equation}
 
 
 Da alle möglichen Kombinationen durchgerechnet werden, wird das  Modell gefunden, das den Trainingsdatensatz am besten vorhersagt.
-\citeA[p.6]{thompson1978selection} sieht einzig den Nachteil darin, dass der \Gls{glos:rechenaufwand} exponentiell mit der Anzahl zu berücksichtigender Prädikatoren steigt. 
-Es müssen immer $2^p-1$ Modelle berechnet werden, bei 5 Prädikatoren sind dies 31 Modelle, bei 10 bereits 1023 usw.
-Während früher eingeschränkte Rechenkapazität oft ein ökonomischer Faktor war - es musste Rechenzeit in einem Rechenzentrum reserviert werden - spielt die Rechengeschwindigkeit auf modernen Systemen eine untergeordnete Rolle. 
-Insbesondere in der psychologischen Forschung muss oft nur eine Handvoll Prädikatoren in die Schätzung einbezogen werden.
+\citeA[p.6]{thompson1978selection} sieht einzig den Nachteil darin, dass der \Gls{glos:rechenaufwand} exponentiell mit der Anzahl zu berücksichtigender Prädiktoren steigt. 
+Es müssen immer $2^p-1$ Modelle berechnet werden, bei 5 Prädiktoren sind dies 31 Modelle, bei 10 bereits 1023 usw.
+Während früher eingeschränkte Rechenkapazität oft ein ökonomischer Faktor war -- es musste Rechenzeit in einem Rechenzentrum reserviert werden -- spielt die Rechengeschwindigkeit auf modernen Systemen eine untergeordnete Rolle. 
+%In der psychologischen Forschung muss oft nur eine Handvoll Prädiktoren in die Schätzung einbezogen werden.
 
 \subsection{Schrittweise Verfahren} 
-Das optimale Modell beinhaltet jeden Prädikator, der die Voraussage auch nur minimal verbessert. 
+Das optimale Modell beinhaltet jeden Prädiktor, der die Voraussage auch nur minimal verbessert. 
 Es stellt sich die Frage ob diese minimale Verbesserung auch nützlich ist oder einfach durch Zufall entstanden ist. 
-Schrittweise Verfahren arbeiten wesentlich liberaler.  Prädikatoren werden hinzugefügt oder eliminiert, je nach deren Relevanz für die Modellgüte. 
+Schrittweise Verfahren arbeiten wesentlich liberaler.  Prädiktoren werden hinzugefügt oder eliminiert, je nach deren Relevanz für die Modellgüte. 
 Es werden Kriterien festgelegt, nach welchen ein Modell als angemessen zu betrachten ist. 
-Dies hat gegenüber dem \gls{glos:exhaustive Verfahren} den Vorteil, dass nicht alle Modelle berechnet werden müssen und entsprechend schneller Lösungen gefunden werden. 
-%Im Schnitt müssen xxxx Modelle berechnet werden, um eine adäquate Lösung zu finden \cite{tobecite}.
+Dies hat gegenüber dem \gls{glos:exhaustive Verfahren} den Vorteil, dass nicht alle Modelle berechnet werden müssen und entsprechend schneller Lösungen gefunden werden.
 
 Innerhalb der schrittweisen Verfahren unterscheidet man zwischen \textit{Forward Selection} und \textit{Backward Elimination}. 
 \begin{figure}[H]
@@ -42,20 +41,20 @@ \subsection{Schrittweise Verfahren}
 	\caption{Forward Selection. Das Flussdiagramm beschreibt den schrittweisen Aufbau eines neuen Modells aus dem leeren Modell durch Hinzufügen potentieller Prädiktoren.}
 	\label{fig:forward_stepwise}
 \end{figure}
-Ausgehend vom leeren Modell werden in der ersten Variante schrittweise weitere Variable der Nützlichkeit nach in das Modell integriert. Dies dauert so lange an, bis kein Prädiktor mehr gefunden wird, der ein gewisses Kriterium erfüllt.
+Ausgehend vom leeren Modell werden in der ersten Variante schrittweise weitere Variablen der Nützlichkeit nach in das Modell integriert. Dies dauert so lange an, bis kein Prädiktor mehr gefunden wird, der ein gewisses Kriterium erfüllt.
 \begin{figure}[H]
 	\centering
 	\includegraphics[height=0.5\textheight]{backward_stepwise.png}
 	\caption{Backward Elimination. Das Flussdiagramm beschreibt die schrittweise Elimination von unnützen Prädiktoren aus dem vollen Modell.}
 	\label{fig:backward_stepwise}
 \end{figure}
-In der zweiten Variante werden alle Prädikatoren in das Modell integriert und sukzessive nacheinander entfernt. Wiederum endet das Verfahren, sobald kein Prädikator mehr weggelassen werden kann, ohne dass ein gewisses Kriterium unterschritten wird.
+In der zweiten Variante werden alle Prädiktoren in das Modell integriert und sukzessive nacheinander entfernt. Wiederum endet das Verfahren, sobald kein Prädiktor mehr weggelassen werden kann, ohne dass ein gewisses Kriterium unterschritten wird.
 
 Die Aufnahme einer neuen Variable kann dazu führen, dass eine bereits im Modell vorhandene Variable obsolet wird. 
 Um diesem Umstand Rechnung zu tragen, werden oft Forward Selection und Backward Elimination kombiniert \cite[p. 461]{bortz2011}. 
 
 In seltenen Fällen kann es vorkommen, dass zwei Variablen für sich in die Regressionsgleichung aufgenommen, die Vorhersage kaum verbessern und das Kriterium nicht erfüllen. Zusammen leisten sie jedoch  einen substantiellen Beitrag \cite[p.261]{jacob2003applied}. 
-\Gls{glos:schrittweise Verfahren} sind entsprechend nicht in der Lage solche Effekte mit zu berücksichtigen. 
+\Gls{glos:schrittweise Verfahren} mittels Forward Selection sind entsprechend nicht in der Lage solche Effekte mit zu berücksichtigen, wogegen Backward Elimination robuster gegen solche Spressionseffekte ist \cite{shieh2006suppression}. 
 
 Zentrales Element der schrittweisen Regression ist das Kriterium zur Beurteilung der  Modellanpassung, welches besagt, weshalb und wann ein Modell als akzeptabel zu betrachten ist. Als Folge dessen wird damit auch die Anzahl relevanter Prädiktoren bestimmt. Im Laufe der Zeit wurden diverse Kriterien definiert, welche alle für sich ihre Berechtigung haben.
 Einteilen lassen sie sich in Kriterien, welche (a) sich auf die Beurteilung innerhalb des Trainingsdatensatzes beschränken oder (b) die Generalisierbarkeit ausserhalb des Trainingsdatensatzes zu berücksichtigen versuchen. Letztere werden im Abschnitt des Overfittings beschrieben.
@@ -70,8 +69,8 @@ \subsection{Schrittweise Verfahren}
 
 In schrittweisen Verfahren wird nicht einzig aufgrund von $R^2$ selektiert sondern es wird zusätzlich getestet, ob Verbesserungen nicht durch Zufall entstanden sind. 
 
-Beim Signifikanztest als Kriterium wird das Verfahren beendet, wenn kein Prädikator mehr hinzugefügt werden kann, der das Vorhersagepotential signifikant erhöht \cite[p.48]{bendel1977comparison}. 
-Das vergleichen zweier Regressionsgleichungen mittels Signifikanztest bedingt, dass diese geschachtelt sein müssen, das kleinere Modell muss im grösseren enthalten sein \cite[p. 508]{jacob2003applied}.
+Beim Signifikanztest als Kriterium wird das Verfahren beendet, wenn kein Prädiktor mehr hinzugefügt werden kann, der das Vorhersagepotential signifikant erhöht \cite[p.48]{bendel1977comparison}. 
+Das Vergleichen zweier Regressionsgleichungen mittels Signifikanztest bedingt, dass diese geschachtelt sein müssen, das kleinere Modell muss im grösseren enthalten sein \cite[p. 508]{jacob2003applied}.
 Das gewählte Signifikanzniveau ist eigentlich unbegründet gewählt \cite[p. 174]{weakliem2004introduction}. \citeA[p. 269]{derksen2011backward} diskutieren mehrere Empfehlungen für Signifikanzniveaus und weisen darauf hin, das sich über mehrere Tests der $\alpha$-Fehler kumuliert. 
 In  Simulationen mit artifiziellen Daten zeigen \citeA{mundry2009stepwise} das  Problem multipler Tests beispielhaft auf. 
 Daraus resultierend lehnen sie die Verwendung der schrittweisen Regression mittels Signifikanztest gar ab.