"Fossies" - the Fresh Open Source Software Archive

Member "statist-1.4.2/doc/stat_man.tex" (23 Nov 2006, 25929 Bytes) of package /linux/privat/old/statist-1.4.2.tar.gz:


As a special service "Fossies" has tried to format the requested source page into HTML format using (guessed) TeX and LaTeX source code syntax highlighting (style: standard) with prefixed line numbers. Alternatively you can here view or download the uninterpreted source code file.

    1 \documentclass[a4paper,11pt]{article}
    2 \usepackage{german,epsfig,mydefs}
    3 
    4 %%\documentstyle[german,11pt,psfig,mydefs]{article}
    5 
    6 %%\documentstyle[german,11pt,epic,eepic,mydefs]{script_s}
    7 %%%\documentstyle[german,11pt,psfig,mydefs]{script_s}
    8 
    9 \voffset 1.0cm
   10 \newcommand{\st}{{\tt sta"-tist}}
   11 %%%\addtolength{\textwidth}{-2.5cm}
   12 %%%\raggedright
   13 
   14 \begin{document}
   15 
   16 \title{Dokumentation zum Statistikprogramm \st}
   17 \author{Dirk Melcher\\
   18   Institut f"ur Umweltsystemforschung, Universit"at Osnabr"uck\\
   19   Artilleriestr.\ 34, 49069 Osnabr"uck\\
   20   email:  Dirk.Melcher@usf.Uni-Osnabrueck.DE}
   21 \date{Dokumentation vom 31.1.97 (f"ur {\tt statist v0.1})\\
   22     {\small 16.2.1998 kleine Anmerkungen von Bernhard Reiter\\
   23         18.8.1998 Selektive Aktualisierungen von B.Reiter
   24     }\\
   25         {\bf Achtung! Diese Dokumentation enth"alt 
   26     veraltete Informationen!}
   27      }
   28 \maketitle
   29 
   30 %\begin{center}
   31 %{\Large\bf Dokumentation zum Statistikprogramm \st \\ }
   32 %\el
   33 %{\small Dirk Melcher, Institut f"ur Umweltsystemforschung, Uni
   34 %  Osnabr"uck\\ Artilleriestr.\ 34, 49069 Osnabr"uck\\
   35 %  email:  dmelcher@usf.Uni-Osnabrueck.DE}
   36 %\el
   37 %\el
   38 %  Version vom 31.1.97\\
   39 %\end{center}
   40 
   41 
   42 \section{Einleitung}
   43 \label{sec:einleitung}
   44 
   45 Zuerst einmal: Das Programm \st\ ist ein Laienprogramm, also keine
   46 "uberzogenen Erwartungen! Es wurde geschrieben, um einfache,
   47 allt"agliche Statistik ausf"uhren zu k"onnen, ohne jedesmal einen
   48 "`Dinosaurier"' wie SAS oder SPSS bem"uhen zu m"ussen. Es soll aber
   49 keineswegs dazu dienen, um wirklich aufwendige statistische Verfahren
   50 durchzuf"uhren.
   51 
   52 
   53 Das Programm hat den Anspruch
   54 \begin{enumerate}
   55 \item {\em einfach\/} und schnell zu bedienen zu sein
   56 \item wirklich portabel zu sein. Daher wurde auf aufwendige
   57   Ein/Ausgabe, Fenstertechnik, Men"uschn"uddel u.v.a.\ verzichtet
   58 \item schnell und simpel um zus"atzliche Routinen zu erweitern zu sein
   59 \item halbwegs speicherschonend zu sein
   60 \end{enumerate}
   61 
   62 {\bf \st\ befindet sich noch in der beta-Phase. Wie bei jedem Programm
   63   "ublich wird auch bei \st\ ausdr"ucklich keine Garantie auf richtige
   64   Ergebnisse "ubernommen!}
   65 
   66 \section{Installation}
   67 \label{sec:installation}
   68 
   69 Die Installation ist denkbar einfach: Man kopiert das Programm eben
   70 dorthin, wo man's haben will. G"unstig w"are es nat"urlich, wenn zu
   71 diesem Verzeichnis auch ein Pfad gelegt w"are $\ldots$ Es gibt nur
   72 einen einzigen Haken: f"ur jede Spalte (s.\ 
   73 Abschnitt~\ref{sec:daten}), die eingelesen wird, legt \st\ eine
   74 tempor"are Datei an. Wenn man Dateien mit vielen Spalten einliest,
   75 kann unter {\sc dos} die Anzahl der ge"offneten Dateien zu gro"s
   76 werden. In diesem Fall, falls es nicht schon geschehen ist, in der
   77 {\tt config.sys} mit dem Befehl {\tt FILES=40} die Anzahl der
   78 Dateipuffer auf 40 oder was anderes hochsetzen. Au"serdem ist f"ur
   79 die {\sc dos}-Version darauf zu achten, da"s das Verzeichnis 
   80 \verb|c:\tmp| existiert, andernfalls mit \verb|md c:\tmp| das Verzeichnis
   81 anlegen oder die entsprechende Zeile in den \st\ Quellen "andern und
   82 neu "ubersetzen 
   83 (Datei {\tt data.c} am Ende von Funktion {\tt makefilename()}).
   84 
   85 
   86 \section{Aufruf}
   87 {\tt statist [-help -silent -log -nobell -nofile -noplot -thist] {\em
   88     Datenfile}}
   89 \par Die Option {\tt -help} gibt einen (sehr kurzen) Hilfetext aus.
   90 Wie ein Datenfile auszusehen hat, wird in Abschnitt \ref{sec:daten}
   91 beschrieben. Die Optionen {\tt -log} bewirkt, da"s die Ergebnisse in
   92 der Datei {\tt statist.log} protokolliet werden und die Option {\tt
   93   -nobell} bewirkt, da"s bei Fehlern und Warnungen kein Piepton ert"ont.
   94 Die Optionen {\tt -silent}, {\tt -nofile}, {\tt -noplot} und {\tt
   95   -thist} werden in den Abschnitten \ref{sec:batch}, \ref{sec:daten},
   96 \ref{sec:gnuplot} und \ref{sec:funktionen} beschrieben.
   97 
   98 
   99 \section{statist und gnuplot}
  100 \label{sec:gnuplot}
  101 {\tt gnuplot} ist ein interaktives Graphikprogramm zur Darstellung von
  102 Daten und Funktionen. Es kann nicht nur im Dialog, sondern auch mit
  103 Hilfe eines Skripts gesteuert werden.
  104 
  105 L"auft \st\ unter {\sc Unix}, dann werden gewisse Funktionen von \st\
  106 durch eine {\tt gnuplot}-Graphik unterst"utzt. Voraussetzung daf"ur ist
  107 nat"urlich, da"s das {\tt gnuplot} installiert und
  108 sich das entsprechende Verzeichnis in der {\tt PATH}-Variablen
  109 befindet.
  110 
  111 Unter {\sc Dos} wird von \st\ eine Kommandodatei namens {\tt
  112   stat\_gpl.com} erzeugt, mit deren Hilfe nach Beendigung von \st\ 
  113 eine {\tt gnuplot}-Graphik erzeugt werden kann. Nimmt man eine
  114 Windows-Version von {\tt gnuplot}, dann kann man bequem unter
  115 MS-Windows \st\ in einer DOS-Box laufen lassen und im anderen Fenster
  116   {\tt gnuplot}.
  117 
  118 Momentan werden folgende Funktionen (s.\ Abschnitt
  119 \ref{sec:funktionen}) unterst"utzt:
  120 \begin{itemize}
  121 \item {\sc Box- und Whisker} Plot (Median, Standardabweichung etc.)
  122 \item Lineare Regression (2- und 3-dimensional)
  123 \item Polynomregression
  124 \item Test auf Normalverteilung (H"aufigkeitshistogramm + Summenfunktion)
  125 \item Probitanalyse
  126 \end{itemize}
  127 Au"serdem kann man unter dem Men"upunkt {\tt Datenverwaltung |
  128   gnuplot-Befehle eingeben} direkt {\tt gnuplot}-Befehle eingeben, um so
  129 eine Graphik interaktiv zu verfeinern oder f"ur den Ausdruck fertig
  130 machen (nur unter {\sc Unix}). Will man {\em keine\/} {\tt
  131   gnuplot}-Graphik haben, z.B. weil man im Batch-Betrieb arbeitet (s.\ 
  132 Abschnitt \ref{sec:batch}) oder weil der Rechner zu langsam ist, dann kann das
  133 Programm mit der Option {\tt -noplot} aufgerufen werden.
  134 
  135 
  136 
  137 \section{Daten}
  138 \label{sec:daten}
  139 Daten werden dem Programm grunds"atzlich in Form von simplen
  140 ASCII-Dateien zugef"uhrt. Entweder ruft man das Programm mit einer
  141 ASCII-Datei auf, oder das Programm fragt gleich beim Aufruf nach dem
  142 Namen einer Datendatei. Ohne Datendatei tut sich nix, es sei denn, man
  143 gibt beim Aufruf die Option {\tt -nofile} an, um die Daten direkt
  144 "uber die Tastatur einzugeben (Men"upunkt {\tt Datenverwaltung |
  145   Spalte vom Terminal einlesen}). Das macht aber eigentlich nur selten
  146 Sinn. Die Option ist mehr daf"ur gedacht, um unter {\sc Unix}
  147 Men"ubefehle zusammen mit den Daten zu \st\ zu pipen.
  148 
  149 Eine Datendatei besteht aus einer oder mehreren Zahlenspalten
  150 (momentan max.\ 25). Die Zahlen in der Datei m"ussen durch ein oder
  151 mehrere Leerzeichen voneinander getrennt werden. Es ist auch erlaubt,
  152 eine Datei mit verschieden langen Spalten einzugeben. In diesem Fall
  153 mu"s aber in der {\em k"urzeren\/} Spalte (in der sozusagen Zahlen
  154 "`fehlen"') ein `M' {(Vor {\tt statist v0.12} mu"ste dies ein `.' sein.
  155 Kann in Quell-Datei {\tt statist.h} bei {\tt \verb|#define NODATA|} 
  156 vor "Ubersetzung von \st\ ge"andert werden.)}
  157 stehen, damit \st\ wei"s, welche Zahl welcher
  158 Spalte zuzuordnen ist. Beispiel:
  159 
  160 \begin{verbatim}
  161 # Beispiel Datendatei fuer statist
  162   1  3   5  6
  163   7  8   9 10
  164  11 12  13 14
  165  15  M  16  M
  166 \end{verbatim}
  167 
  168 Wie man dem Beispiel entnehmen kann, sind auch Kommentarzeilen nach Art von
  169 {\tt gnu"-plot} zugelassen, die mit einem `{\tt\#}' in der ersten Spalte
  170 eingeleitet werden. Leerzeilen werden ebenfalls ignoriert.
  171 
  172 Genauso gut h"atten die Daten auch so eingetippt werden k"onnen:
  173 
  174 \begin{verbatim}
  175 # Beispiel Datendatei fuer statist
  176 # Ich glaube, hier ist was schief gelaufen
  177   1     3  5  6
  178  7  8   9      10
  179  11 12     13 14
  180 15  M            16  M
  181 \end{verbatim}
  182 
  183 Im Programm werden die Spalten jeweils Variablen zugeordnet.
  184 Standardm"a"sig wird die 1. Spalte mit `a', die 2. mit `b', die 3. mit
  185 `c' usw.\ bezeichnet.  Um bei vielspaltigen Datendateien den "Uberblick
  186 zu behalten, ist es aber auch m"oglich, die Spalten einzeln zu
  187 benennen. Das hat den Vorteil, da"s man sich dann nicht merken mu"s,
  188 in welcher Spalte eine bestimmte Variable steht. Dies ist innerhalb
  189 der ersten Zeile der Datendatei m"oglich. Die Zeile mu"s mit einem
  190 `{\tt\#}' als Kommentarzeile gekennzeichnet sein, gefolgt von einem
  191 `{\tt\%}'. Dann werden den Zeilen folgenderma"sen Namen zugeordnet
  192 (Beispiel):
  193 
  194 \begin{verbatim}
  195 #% kow kaw ec50
  196 0.34 4.56 0.23
  197 1.23 5.45 6.76
  198 6.78 1.34 9.60
  199 \end{verbatim}
  200 
  201 Dabei ist folgendes zu beachten:
  202 \begin{enumerate}
  203 \item Es m"ussen genauso viele Variablennamen angegeben werden, wie
  204   Spalten vorhanden sind.
  205 \item Als Spaltennamen d"urfen {\em nur\/} Buchstaben, Ziffern
  206   und `\_' benutzt werden
  207 \end{enumerate}
  208 
  209 "Altere Versionen von statist verwendeten die Zeichenkombination
  210 \verb|#!|. {(Das alte Verhalten l"a"st sich leicht wieder herstellen,
  211 wenn vor dem Kompilieren von statist in der Datei {\tt data.c} 
  212 in der Funktion {\tt parsecomment()}
  213 die Konstante {\tt \verb|var_id|} ge"andert wird.)}
  214 
  215 %Hat man ein Datenfile, in denen auch alphanumerische Daten, also keine
  216 %Zahlen, vorhanden sind, dann k"onnen auch solche Dateien von \st\ 
  217 %verarbeitet werden, wenn die alphanumerischen Spalten in der Kopfzeile
  218 %mit einem \verb|$| gekennzeichnet werden. Beispiel:
  219 
  220 %\begin{verbatim}
  221 %#% $chemikalie kow  kaw  ec50  $Kommentar
  222 %2,4-D          0.34 4.56 0.23  vorhanden
  223 %Atrazin        1.23 5.45 6.76  nicht_vorhanden
  224 %Nitralin       6.78 1.34 9.60  vorhanden
  225 %\end{verbatim}
  226 
  227 %Zu beachten ist, da"s in den alphanumerischen Spalten kein Leerzeichen
  228 %stehen darf, da dies als neuer Spalte interpretiert w"urde! Deswegen
  229 %mu"s es im obigen Beispiel auch  \verb|nicht_vorhanden| hei"sen.
  230 
  231 %Au"serdem kann man auch innerhalb des Programmes Spalten benennen, was
  232 %aber relativ unpraktisch ist (Men"upunkt {\tt Daten"-ver"-wal"-tung |
  233 %Spalten benennen}).
  234 
  235 Manchmal arbeitet man mit Daten, deren einzelne Objekte benannt
  236 sind. Den Objekten entspricht in einem \st-File eine
  237 Zeile. Standardm"a"sig "`duldet"' \st\ lediglich Dateien, die nur
  238 Zahlenspalten und Kommentarzeilen enthalten. Um jedoch auch mit
  239 Dateien zu arbeiten, welche alphanumerische Spalten enthalten, kann
  240 man diese Spalten explizit mit einem \verb|$|-Zeichen kennzeichen, so da"s
  241 \st\ nicht versucht, diese als Zahl zu interpretieren:
  242 
  243 \begin{verbatim}
  244 #% $name kow kaw ec50
  245 2,4-D   0.34 4.56 0.23
  246 Benzol  1.23 5.45 6.76
  247 Atrazin 6.78 1.34 9.60
  248 \end{verbatim}
  249 
  250 Zu beachten ist, da"s in den alphanumerischen Spalten kein Leerzeichen
  251 stehen darf, da dies als neue Spalte interpretiert w"urde! Um beim
  252 obigen Beispiel zu bleiben: \verb|2,4 D| w"are falsch.
  253 
  254 Bei einigen Prozeduren ist die Anzahl der verwendeten Spalten
  255 variabel. Z.B. k"onnen bei der multiplen linearen Regression 2 oder
  256 auch 10 Spalten angegeben werden. Will man f"ur eine Prozedur alle
  257 eingelesenen Spalten verwenden, so tippt man, sobald das Programm nach
  258 der Anzahl der Spalten fragt, einfach `alle' ein. Damit entf"allt die
  259 explizite Zuordnung der Spalten zu den Variablen.
  260 
  261 Man kann auch Daten aus mehreren Dateien gleichzeitig einlesen und
  262 somit Daten aus verschiedenen Dateien kombinieren. Dazu w"ahlt man den
  263 Men"upunkt {\tt Daten"-ver"-wal"-tung | Neue Datei einlesen}.
  264 
  265 
  266 
  267 \section{Men"u}
  268 \label{sec:menue}
  269 Durch das Programm wird man mit einem {\em sehr\/} einfachen Men"u gef"uhrt.
  270 Grundz"atzlich werden Men"upunkte mit Ziffern gew"aehlt. `0' f"uhrt
  271 immer in die n"achst h"ohere Men"uebene und beendet konsequenterweise
  272 im Hauptmen"u das Programm. Ein Schmankerl gibt es aber doch: Man kann
  273 immerhin jede Benutzerabfrage mit der Returntaste unterbrechen und
  274 landet dann wieder in eines der Men"us.
  275 
  276 Wenn man eine Statistikprozedur aufruft, wird man aufgefordert, den
  277 Spalten Variablen zuzuordnen, das ist eigentlich selbsterkl"arend.
  278 
  279 
  280 
  281 \section{Batch-Betrieb}
  282 \label{sec:batch}
  283 
  284 Wenn man zahlreiche Datens"atze auf immer die gleiche Art und Weise
  285 durch \st\ durchnudeln m"ochte und es einem auf die Nerven geht, sich
  286 immer wieder durchs Men"u durchzuhangeln, gibt es eine kleine Hilfe:
  287 Da das Programm nur mit Standard-Ein/Ausgabe arbeitet, kann man sich
  288 eine kleine "`Antwort"'-Datei basteln. Hierin schreibt man exakt das
  289 hinein, was man sonst als Eingabe f"ur \st\ eintippen w"urde, also in
  290 der Regel nur die Zahlen/Buchstaben, die man als Auswahl f"ur das
  291 Men"u und die Spalten eingibt.  Genauso kann man die Ausgabe in eine
  292 Datei umleiten, um sich dann die Ergebnisse in Ruhe anzusehen oder
  293 aber alternativ die Option {\tt -log} angeben (was bewirkt, da"s das
  294 Ergebnis nicht nur in die Datei {\tt statist.log} sondern auch auf den
  295 Bildschirm ausgegeben wird). Mit der Option {\tt -silent} wird die
  296 Ausgabe von Dialogtexten unterdr"uckt, so da"s nur noch das Ergebnis
  297 der Berechnungen ausgegeben wird. Au"serdem f"allt dann die
  298 Auf"|forderung zum Dr"ucken der {\tt Return}-Taste zum Fortfahren des
  299 Programmes weg. Will man z.B. im Batch-Modus eine lineare Regression
  300 mit den Spalten a und b einer Datei durchf"uhren, dann s"ahe die
  301 "`Antwort"'-Datei so aus (Vergleiche hierzu die Eingabe beim normalen
  302 Men"u-Betrieb):
  303 
  304 \begin{verbatim}
  305   2
  306   1
  307   a
  308   b
  309   0
  310   0
  311 \end{verbatim}
  312 
  313 Der Aufruf f"ur den Batch-Betrieb k"onnte dann also folgenderma"sen
  314 aussehen:
  315 
  316 \verb|   statist daten.dat -silent < statist.ant > statist.log | \par
  317 {\centering bzw.\\}\par
  318 \verb|   statist daten.dat -silent -log < statist.ant   |
  319 
  320 
  321 \section{Funktionen}
  322 \label{sec:funktionen}
  323 
  324 Momentan stehen folgenden Statistikfunktionen zur Verf"ugung. (Die
  325 Angaben in Klammern beziehen sich auf die Literatur, denen der
  326 Algorithmus entnommen wurde.):
  327 
  328 \begin{enumerate}
  329 \item Lineare Regression
  330 \item Rank-Korrelationskoeffizient von {\sc Spearman} \cite[S. 175
  331   f\/f]{bruning77}
  332 \item Multiple lineare Korrelation \cite[S. 77 f\/f]{mueller85}
  333 \item Partielle lineare Korrelation (max. 5 Variablen) \cite[S. 82
  334   f]{weber86}
  335 \item Polynomregression \cite[S. 65 f]{mueller85}
  336 \item Korrelationsmatrix der linearen Korrelationskoeffizienten
  337 \item Korrelationsmatrix der {\sc Spearman'schen} Korrelationskoeffizienten
  338 \item Punkt-biserielle (lineare) Korrelation \cite[S. 182 f\/f]{bruning77}
  339 \item t-Test zum Vergleich zweier Mittelwerte aus Stichproben \cite
  340   [S. 10 f\/f] {bruning77}
  341 \item t-Test zum Vergleich zweier Mittelwerte bei paarweiser Anordnung
  342   der Stichproben \cite[S. 175 f]{weber86}
  343 \item Test auf Normalverteilung ({\sc Kolmogoroff-Smirnoff-Lilliefors})
  344   \cite[S. 100 f\/f]{neave88}
  345 \item $\chi^2$-Vierfeldertafel \cite[S. 200 f\/f]{weber86}
  346 \item $\chi^2$-Mehrfachtafel \cite[S. 209 f\/f]{weber86}
  347 \item U-Test von {\sc Mann} und {\sc Whitney} \cite[S. 184
  348   f\/f]{weber86}
  349 \item Zweistichprobentest von {\sc Wilcoxon} \cite[S. 340 f\/f]{weber86}
  350 \item Test von {\sc Kruskal} und {\sc Wallis} auf {\em k\/}
  351   unabh"angige Stichproben  \cite[S. 337 f\/f]{weber86}
  352 \item Standardabweichung, Mittelwert, Median u.a.
  353 \item Probitanalyse \cite[S. 534 f\/f]{weber86}
  354 \item Log-Transformation (10er Logarithmus), Invertierung (1/x) und Sortieren
  355 \item Elemenieren von vermuteten Ausrei"sern \cite[S. 835]{hartung86}
  356 \item Kreuz-Validierung multipler linearer Regression (noch experimentell!).
  357 \end{enumerate}
  358 
  359 Bei Korrelations- bzw. Regressionsfunktionen wird immer zugleich ein
  360 Test auf signifikante Korrelation durchgef"uhrt. Approximationen f"ur
  361 t-Verteilung, Normalverteilung, $\chi^2$-Verteilung und
  362 t-Verteilung wurden \cite{mueller85} entnommen.
  363 \el
  364 
  365 
  366 \noindent {\bf Anmerkung zu den Funktionen:}
  367 \begin{itemize}
  368 \item Beim Test auf Normalverteilung ({\sc
  369     Kolmogoroff"=Smirnoff"=Lilliefors}) lautet die Hypothese $H_0$: die
  370   Daten sind normalverteilt. Diese Hypothese wird akzeptiert, wenn die
  371   Wahrscheinlichkeit f"ur $H_1$ (die Daten sind nicht normalverteilt)
  372   {\em nicht} signifikant hoch ist. Die "`Beweislast"' liegt also bei
  373   $H_1$. Dies bedeutet, da"s $H_0$ desto besser abgesichert ist, je
  374   {\em h"oher} das Signifikanzniveau $\alpha$ liegt, denn $\alpha$ gibt
  375   jetzt die Wahrscheinlichkeit f"ur $H_0$ statt f"ur $H_1$ an. Es geht
  376   hier also genau umgedreht wie bei den anderen Tests zu!
  377 
  378   W"ahlt man den Test auf Normalverteilung, so gibt \st\ zuerst ein
  379   H"aufigkeitsdiagramm aus.
  380 
  381   Bei Angabe der Option {\tt -thist} (oder auch {\tt -noplot}, s.\
  382   Abschnitt \ref{sec:gnuplot}) wird dieses als Textgraphik
  383   dargestellt, ansonsten als {\tt gnuplot}-Graphik.
  384   
  385   Da beim {\sc KS-Lilliefors}-Test die theoretisch erwartete
  386   Normalverteilungsfunktion mit der Summenh"aufigkeitsfunktion der 
  387   Daten verglichen wird, werden diese Funktionen graphisch
  388   dargestellt. Zwei waagerechte Linien zeigen die gr"o"ste `vertikale'
  389   Differenz der beiden Funktionen auf, welche die Pr"ufgr"o"se $D$
  390   darstellt.
  391 \item Bei den t-Tests wird vorrausgesetzt, da"s die Varianzen der
  392   Grundgesamtheiten, aus denen die Stichproben vorliegen, gleich gro"s
  393   sind. Wenn man paarweise angeordnete Me"swerte testen m"ochte (z.B.
  394   Vergl.\ des Gewichtes von m"annl.\ und weibl.\ M"ausen aus je einem
  395   Wurf, s.\ \cite[S. 175 f]{weber86}), dann wende man den t-Test zum
  396   Vergleich paarweise angeordneter Stichproben an.
  397 \item Beim $\chi^2$-Vierfelder-Tafeltest gibt es zwei M"oglichkeiten
  398   zur Eingabe der Daten:
  399   \begin{enumerate}
  400   \item Wenn die beiden eingelesenen Spalten nur `0' oder `1'
  401     enthalten, bedeuted dies `Merkmal nicht vorhanden' bzw.\ `Merkmal
  402      vorhanden'. Dementsprechend werden die Merkmalskombinationen
  403     f"ur die Vierfeldertafel aus"-ge"-z"ahlt. Um z.B.\ eine Vierfeldertafel
  404     f"ur zwei Merkmale aufzustellen, k"onnte man folgende Datei eingeben:
  405 
  406     \begin{verbatim}
  407     # Merkmale einer Blume 1=gross 2=rot
  408     1 0
  409     1 0
  410     1 1
  411     1 1
  412     0 1
  413     0 0
  414     \end{verbatim}
  415 
  416     \st\ stellt aus dieser Eingabe die Vierfeldertafel auf, wie dies in
  417     Tabelle \ref{tab:vierfeld} dargestellt ist.
  418 
  419     \begin{table}[htb]
  420     \begin{center}
  421     \caption[]{\protect\label{tab:vierfeld} \fsize Beispiel f"ur eine
  422        Vierfeldertafel f"ur die Merkmale A und B.}
  423     \vspace{1ex}
  424     \begin{tabular}{|l|c|c|}
  425        \hline
  426                           &  A vorhanden &  A nicht vorhanden \\
  427        \hline
  428        B vorhanden        &         2    &         1          \\
  429        B nicht vorhanden  &         2    &         1          \\
  430        \hline
  431     \end{tabular}
  432     \end{center}
  433     \end{table}
  434 
  435   \item Wenn die zwei Spalten aus je nur 2 Werten bestehehen, wird
  436     davon ausgegangen, da"s die fertig ausgez"ahlte Vierfeldertafel
  437     eingelesen worden ist. Die Werte w"urden dann also wie folgt
  438     eingegeben:
  439 
  440     \begin{minipage}{10cm}
  441     \begin{verbatim}
  442     # Tafel fuer Merkmale `rot' und `gross' einer Blume
  443     2 1
  444     2 1
  445     \end{verbatim}
  446     \end{minipage}
  447 
  448   \end{enumerate}
  449 \item Beim $\chi^2$-Mehrfachtafel-Test k"onnen im Gegensatz zur
  450   Vierfeldertafel Merkmale in mehrere Klassen dargestellt werden.
  451   Ein Beispiel hierf"ur w"are die Untersuchung der Verteilung der Merkmale
  452   `Blattgr"o"se' und `Bl"utenfarbe' einer Pflanze. Das Merkmal Blattgr"o"se
  453   k"onnte z.B.\ in die Klassen `gro"s', `mittel' und `klein'eingeteilt
  454   werden und die Bl"utenfarbe in die Klassen `blau', `rot' und `wei"s'. Im
  455   Gegensatz zur Vierfeldertafel werden bei diesem Test nur
  456   ausgez"ahlte Tabellen von \st\ angenommen, also z.B.
  457 
  458     \begin{verbatim}
  459     # Tafel fuer die Merkmale `Bluetenfarbe' und `Blattgroesse'
  460     # Spalten: Bluete blau   rot    weiss
  461     # Zeilen   Blatt  gross  mittel klein
  462      29   11   6
  463     273  191  64
  464       8   31   4
  465     \end{verbatim}
  466 
  467 \item Beim U-Test werden zwei Variable $x$ und $y$ daraufhin
  468   untersucht, ob sie sich signifikant voneineander unterscheiden. Er
  469   ist somit das parameterfreie Gegenst"uck zum t-Test.  Beim U-Test
  470   erfolgt ein Test der Pr"ufgr"o"se {\em U\/} auf Signifikanz mit Hilfe
  471   der Normalverteilung, wenn sowohl f"ur x als auch y mindestens 8
  472   Werte vorhanden sind, sonst benutzt \st\ eine Tabelle
  473   der kritischen Werte.
  474 %  Sonst mu"s der Test
  475 %  f"ur die Verteilung von {\em U\/} leider mit Hilfe von Tabellen aus
  476 %  irgendwelchen Statistikb"uchern durchgef"uhrt werden.
  477 \item Beim Test von {\sc Kruskal} und {\sc Wallis} handelt es sich wie
  478   beim U-Test um einen parameterlosen Test, bei dem gepr"uft wird, ob
  479   drei oder mehr unabh"angige Stichproben der gleichen Grundgesamtheit
  480   entstammen. Dieser Test ist somit das Gegenst"uck zum parametrischen
  481   F-Test. Wenn die Stichproben jeweils mehr als 4 Werte enthalten,
  482   kann ein $\chi^2$-Test durchgef"uhrt werden, ansonsten mu"s die
  483   Pr"ufgr"o"se $H$ leider mit Hilfe von Tabellen getestet werden.
  484 \item Beim Zweistichprobentest von {\sc Wilcoxon} handelt es sich
  485   ebenfalls um einen parameterlosen Test, bei dem zwei
  486   Zufallsvariablen $x$ und $y$ paarweise verglichen werden und ist
  487   somit da"s parameterlose Gegenst"uck zum t-Test f"ur paarweise
  488   angeordnete Stichproben. Er eignet sich z.B. f"ur Fragestellungen,
  489   bei denen ein Objekt mit zwei verschiedenen Mitteln behandelt worden
  490   ist. $x$ und $y$ charakterisieren in diesem Fall die
  491   unterschiedliche Behandlung am gleichen Objekt. Die Hypothese $H_0$
  492   lautet dann: Es gibt keine Unterschiede in der Behandling $x$ und
  493   $y$.
  494 
  495   F"ur Stichproben $<$ 25 wird eine Tabelle der kritischen Werte
  496   benutzt, ansonsten wird die Wahrscheinlichkeit mit Hilfe einer
  497   Approximation an die Normalvewrteilung berechnet.
  498   
  499 \item Der Punkt-biserielle Korrelationskoeffizient wird benutzt, wenn
  500   die Korrelation zwischen einem quantitativen Merkmal und einem
  501   alternativen Merkmal berechnet werden soll (Bsp.: Korrelation
  502   `Durchmesser einer Bl"ute' -- `Bl"ute ist rot' ($\Longrightarrow$
  503   ja/nein Entscheidung).
  504 \item Bei der log-Transformation wird eine neue Spalte erzeugt, welche
  505   die logaritmierten Werte einer eingelesenen Spalte enth"alt. Dies ist
  506   n"utzlich, wenn man z.B.\ eine log-lineare statt einer
  507   linearen Korrelation berechnen und/oder testen will. Das gleiche
  508   gilt analog f"ur die Invertierungsfunktion 1/x, der Sortierfunktion
  509   und der Ausrei"serfunktion. 
  510 \item Unter dem Menuepunkt {\tt Verschiedens |Ausreisser +
  511     Box-Whisker-Plot} wird via {\tt gnuplot} ein sogenannter {\em
  512     Box-Whisker-Plot} \cite[S. 835 f\/f]{hartung86} erstellt (s.\ 
  513   Abb.\ \ref{fig:boxplot}). {\em Box-Whisker-Plots} sind gut geeignet,
  514   um auf einen Blick bestimmte Eigenschaften von Verteilungen zu
  515   erfassen. Zum Beispiel gibt die Lage des arithmetischen Mittelwertes
  516   im Vergleich zum Median einerseits und die Lage des
  517   Konfidenzintevalles des Medians zum 25\%- und 75\%-Quartil
  518   Aufschlu"s "uber die Schiefe einer Verteilung. Au"serdem kann man
  519   potentielle Ausrei"ser mit einem Blick erkennen.
  520 \item Unter dem Men"upunkt {\tt Regreesion und Korrelation} finden
  521   sich die Punkte {\tt Kreuz-Validierung multipler linearer
  522   Regression} und {\tt Randomisierung multipler linearer Regression}.
  523   Diese beiden Punkte dienen der Evaluierung der Prognosef"ahigkiet
  524   linearer Modelle \cite{wold91,wold95}.
  525 
  526   Die prognostizierte Varianz $Q^2$ wird beim
  527   Men"upunkt {\tt Kreuz-Validierung mul"-ti"-pler linearer Regression}
  528   folgenderma"sen berechnet: Ein Objekt wird aus dem Datensatz
  529   herausgenommen und die
  530   Regression mit den verbleibenden Daten durchgef"uhrt\footnote{ %
  531     Nach {\sc Wold} ist es g"unstiger, nicht ein, sondern mehrere
  532     Objekte aus dem gesamten Datensatz herauszunehmen. Dies ist bisher
  533     noch nicht implementiert}. %
  534   Mit Hilfe der so ermittelten Regressionskoeffizienten $a_i$ kann
  535   dann die abh"angige Variable $yo$ des fehlenden Objektes berechnet
  536   werden. Der so berechnete Wert kann als prognostizierter Wert $yp$
  537   bezeichnet werden. Dieses Verfahren wird f"ur alle Datens"atze
  538   angewendet, so da"s f"ur jeden gemessene Wert $yo$ ein
  539   prognostizierter Wert $yp$ existiert.  Anschlie"send kann die
  540   prognostizierte Varianz $Q^2$ aus den $yo$, $yp$ und dem Mittelwert
  541   $\bar{y}$ berechnet werden:
  542   \begin{equation}  
  543   \label{eq:q^2-def}
  544   Q^2 = 1 - \frac{\sum\limits_{i=1}^n (yo_i - yp_i)^2}
  545   {\sum\limits_{i=1}^n (yo_i-\bar{y})^2}
  546   \end{equation}
  547   
  548   Als weitere Ma"snahme zur Validierug wird von {\sc Wold} die
  549   Randomisierung des Response-Vektors genannt (Men"upunkt
  550   {\tt Randomisierung multiple linearer Regression}). Bei diesem
  551   verfahren werden die unabh"angigen Variablen intakt gelassen, w"ahrend
  552   der Vektor der $y$-Werte mittels Zufallsgenerator randomisiert wird.
  553   Dabei werden nicht die $y$-Werte selber ge"andert, sondern die
  554   Indizes des Vektors werden permutiert, die $y$-Werte werden also
  555   vertauscht. Dieses Randomisierung wird zahlreiche Male wiederholt
  556   und f"ur jeden so manipulierten Datensatz das Bestimmtheitsma"s $r^2$
  557   und die prognostizierte Varianz $Q^2$ berechnet. Die Verteilungen
  558   dieser Werte k"onnen in einem Histogramm dargestellt werden, so da"s
  559   erkennbar wird, ob das $r^2$ bzw. $Q^2$ des originalen Datensatzes
  560   mit hoher Wahrscheinlichkeit Produkt eines `Zufalls'-Datensatzes ist
  561   oder ob nicht. Der Benutzer kann w"ahlen, wieviel Tupel und somit
  562   wieviele aus permutierten Datens"atzen erzeugte $r^2$ und $Q^2$
  563   prodiziert werden sollen. Dies kann bei gr"o"seren Datens"atzen
  564   durchaus l"anger dauern! Zum Schlu"s werden zwei neue Spalten
  565   \verb|rquad| (enth"alt die $r^2$ Werte) und \verb|qquad| (enth"alt
  566   die $Q^2$ Werte) erzeugt. Diese Spalten k"onnen z.B. mit Hilfe eines
  567   Histogrammes (Men"upunkt {\tt Verschiedenes|Standardabweichung,
  568   Mittelwert, Median uva.}) ausgewertet werden. Man kann dann sehen,
  569   ob das `echte' $Q^2$ bzw. $r^2$ in einem H"aufigkeitsbereich liegen,
  570   in dem auch viele mit Hilfe der Zufallsdatensaetze erzeugte Werte
  571   liegen oder nicht. L"a"st die Verteilung des Histogrammes darauf
  572   schlie"sen, da"s das Auftreten des `echte' $Q^2$ bzw. $r^2$  in einem
  573   Zufallsdatensatz unwahrscheinlich ist, dann spricht das f"ur eine
  574   aussagekr"aftige Regression.
  575   
  576  \end{itemize}
  577 
  578 %\bibliographystyle{discit}
  579 %\bibliography{statist}
  580  
  581 %\bibliographystyle{myaplain}
  582 %\bibliography{myabbr,statist}
  583 %\bibliographystyle{plain}
  584  
  585 \bibliographystyle{plain}
  586 \bibliography{statist}
  587 
  588 \vfill
  589 
  590 \begin{figure}[htbp]
  591   \begin{center}
  592     \leavevmode
  593     \centerline{\psfig{figure=./box.ps,width=14cm}}
  594 %    \input{box.eep}
  595 %     \input{box.pstex_t}
  596   \caption[]{\fsize Beispiel f"ur einen Box-Whisker-Plot. Die
  597     {\em adjacent values} geben Werte an, die am dichtesten am sog.\ 
  598     {\em inner fence} liegen, welcher den `inneren' Bereich gegen
  599     potentielle Ausrei"ser abgrenzen \cite[S. 835]{hartung86}.}
  600   \label{fig:boxplot}
  601   \end{center}
  602 \end{figure}
  603 
  604 
  605 
  606 
  607 
  608 \end{document}
  609 
  610 
  611 
  612 % Local Variables:
  613 % mode: latex
  614 % TeX-master: t
  615 % End: