"Fossies" - the Fresh Open Source Software Archive 
Member "statist-1.4.2/doc/stat_man.tex" (23 Nov 2006, 25929 Bytes) of package /linux/privat/old/statist-1.4.2.tar.gz:
As a special service "Fossies" has tried to format the requested source page into HTML format using (guessed) TeX and LaTeX source code syntax highlighting (style:
standard) with prefixed line numbers.
Alternatively you can here
view or
download the uninterpreted source code file.
1 \documentclass[a4paper,11pt]{article}
2 \usepackage{german,epsfig,mydefs}
3
4 %%\documentstyle[german,11pt,psfig,mydefs]{article}
5
6 %%\documentstyle[german,11pt,epic,eepic,mydefs]{script_s}
7 %%%\documentstyle[german,11pt,psfig,mydefs]{script_s}
8
9 \voffset 1.0cm
10 \newcommand{\st}{{\tt sta"-tist}}
11 %%%\addtolength{\textwidth}{-2.5cm}
12 %%%\raggedright
13
14 \begin{document}
15
16 \title{Dokumentation zum Statistikprogramm \st}
17 \author{Dirk Melcher\\
18 Institut f"ur Umweltsystemforschung, Universit"at Osnabr"uck\\
19 Artilleriestr.\ 34, 49069 Osnabr"uck\\
20 email: Dirk.Melcher@usf.Uni-Osnabrueck.DE}
21 \date{Dokumentation vom 31.1.97 (f"ur {\tt statist v0.1})\\
22 {\small 16.2.1998 kleine Anmerkungen von Bernhard Reiter\\
23 18.8.1998 Selektive Aktualisierungen von B.Reiter
24 }\\
25 {\bf Achtung! Diese Dokumentation enth"alt
26 veraltete Informationen!}
27 }
28 \maketitle
29
30 %\begin{center}
31 %{\Large\bf Dokumentation zum Statistikprogramm \st \\ }
32 %\el
33 %{\small Dirk Melcher, Institut f"ur Umweltsystemforschung, Uni
34 % Osnabr"uck\\ Artilleriestr.\ 34, 49069 Osnabr"uck\\
35 % email: dmelcher@usf.Uni-Osnabrueck.DE}
36 %\el
37 %\el
38 % Version vom 31.1.97\\
39 %\end{center}
40
41
42 \section{Einleitung}
43 \label{sec:einleitung}
44
45 Zuerst einmal: Das Programm \st\ ist ein Laienprogramm, also keine
46 "uberzogenen Erwartungen! Es wurde geschrieben, um einfache,
47 allt"agliche Statistik ausf"uhren zu k"onnen, ohne jedesmal einen
48 "`Dinosaurier"' wie SAS oder SPSS bem"uhen zu m"ussen. Es soll aber
49 keineswegs dazu dienen, um wirklich aufwendige statistische Verfahren
50 durchzuf"uhren.
51
52
53 Das Programm hat den Anspruch
54 \begin{enumerate}
55 \item {\em einfach\/} und schnell zu bedienen zu sein
56 \item wirklich portabel zu sein. Daher wurde auf aufwendige
57 Ein/Ausgabe, Fenstertechnik, Men"uschn"uddel u.v.a.\ verzichtet
58 \item schnell und simpel um zus"atzliche Routinen zu erweitern zu sein
59 \item halbwegs speicherschonend zu sein
60 \end{enumerate}
61
62 {\bf \st\ befindet sich noch in der beta-Phase. Wie bei jedem Programm
63 "ublich wird auch bei \st\ ausdr"ucklich keine Garantie auf richtige
64 Ergebnisse "ubernommen!}
65
66 \section{Installation}
67 \label{sec:installation}
68
69 Die Installation ist denkbar einfach: Man kopiert das Programm eben
70 dorthin, wo man's haben will. G"unstig w"are es nat"urlich, wenn zu
71 diesem Verzeichnis auch ein Pfad gelegt w"are $\ldots$ Es gibt nur
72 einen einzigen Haken: f"ur jede Spalte (s.\
73 Abschnitt~\ref{sec:daten}), die eingelesen wird, legt \st\ eine
74 tempor"are Datei an. Wenn man Dateien mit vielen Spalten einliest,
75 kann unter {\sc dos} die Anzahl der ge"offneten Dateien zu gro"s
76 werden. In diesem Fall, falls es nicht schon geschehen ist, in der
77 {\tt config.sys} mit dem Befehl {\tt FILES=40} die Anzahl der
78 Dateipuffer auf 40 oder was anderes hochsetzen. Au"serdem ist f"ur
79 die {\sc dos}-Version darauf zu achten, da"s das Verzeichnis
80 \verb|c:\tmp| existiert, andernfalls mit \verb|md c:\tmp| das Verzeichnis
81 anlegen oder die entsprechende Zeile in den \st\ Quellen "andern und
82 neu "ubersetzen
83 (Datei {\tt data.c} am Ende von Funktion {\tt makefilename()}).
84
85
86 \section{Aufruf}
87 {\tt statist [-help -silent -log -nobell -nofile -noplot -thist] {\em
88 Datenfile}}
89 \par Die Option {\tt -help} gibt einen (sehr kurzen) Hilfetext aus.
90 Wie ein Datenfile auszusehen hat, wird in Abschnitt \ref{sec:daten}
91 beschrieben. Die Optionen {\tt -log} bewirkt, da"s die Ergebnisse in
92 der Datei {\tt statist.log} protokolliet werden und die Option {\tt
93 -nobell} bewirkt, da"s bei Fehlern und Warnungen kein Piepton ert"ont.
94 Die Optionen {\tt -silent}, {\tt -nofile}, {\tt -noplot} und {\tt
95 -thist} werden in den Abschnitten \ref{sec:batch}, \ref{sec:daten},
96 \ref{sec:gnuplot} und \ref{sec:funktionen} beschrieben.
97
98
99 \section{statist und gnuplot}
100 \label{sec:gnuplot}
101 {\tt gnuplot} ist ein interaktives Graphikprogramm zur Darstellung von
102 Daten und Funktionen. Es kann nicht nur im Dialog, sondern auch mit
103 Hilfe eines Skripts gesteuert werden.
104
105 L"auft \st\ unter {\sc Unix}, dann werden gewisse Funktionen von \st\
106 durch eine {\tt gnuplot}-Graphik unterst"utzt. Voraussetzung daf"ur ist
107 nat"urlich, da"s das {\tt gnuplot} installiert und
108 sich das entsprechende Verzeichnis in der {\tt PATH}-Variablen
109 befindet.
110
111 Unter {\sc Dos} wird von \st\ eine Kommandodatei namens {\tt
112 stat\_gpl.com} erzeugt, mit deren Hilfe nach Beendigung von \st\
113 eine {\tt gnuplot}-Graphik erzeugt werden kann. Nimmt man eine
114 Windows-Version von {\tt gnuplot}, dann kann man bequem unter
115 MS-Windows \st\ in einer DOS-Box laufen lassen und im anderen Fenster
116 {\tt gnuplot}.
117
118 Momentan werden folgende Funktionen (s.\ Abschnitt
119 \ref{sec:funktionen}) unterst"utzt:
120 \begin{itemize}
121 \item {\sc Box- und Whisker} Plot (Median, Standardabweichung etc.)
122 \item Lineare Regression (2- und 3-dimensional)
123 \item Polynomregression
124 \item Test auf Normalverteilung (H"aufigkeitshistogramm + Summenfunktion)
125 \item Probitanalyse
126 \end{itemize}
127 Au"serdem kann man unter dem Men"upunkt {\tt Datenverwaltung |
128 gnuplot-Befehle eingeben} direkt {\tt gnuplot}-Befehle eingeben, um so
129 eine Graphik interaktiv zu verfeinern oder f"ur den Ausdruck fertig
130 machen (nur unter {\sc Unix}). Will man {\em keine\/} {\tt
131 gnuplot}-Graphik haben, z.B. weil man im Batch-Betrieb arbeitet (s.\
132 Abschnitt \ref{sec:batch}) oder weil der Rechner zu langsam ist, dann kann das
133 Programm mit der Option {\tt -noplot} aufgerufen werden.
134
135
136
137 \section{Daten}
138 \label{sec:daten}
139 Daten werden dem Programm grunds"atzlich in Form von simplen
140 ASCII-Dateien zugef"uhrt. Entweder ruft man das Programm mit einer
141 ASCII-Datei auf, oder das Programm fragt gleich beim Aufruf nach dem
142 Namen einer Datendatei. Ohne Datendatei tut sich nix, es sei denn, man
143 gibt beim Aufruf die Option {\tt -nofile} an, um die Daten direkt
144 "uber die Tastatur einzugeben (Men"upunkt {\tt Datenverwaltung |
145 Spalte vom Terminal einlesen}). Das macht aber eigentlich nur selten
146 Sinn. Die Option ist mehr daf"ur gedacht, um unter {\sc Unix}
147 Men"ubefehle zusammen mit den Daten zu \st\ zu pipen.
148
149 Eine Datendatei besteht aus einer oder mehreren Zahlenspalten
150 (momentan max.\ 25). Die Zahlen in der Datei m"ussen durch ein oder
151 mehrere Leerzeichen voneinander getrennt werden. Es ist auch erlaubt,
152 eine Datei mit verschieden langen Spalten einzugeben. In diesem Fall
153 mu"s aber in der {\em k"urzeren\/} Spalte (in der sozusagen Zahlen
154 "`fehlen"') ein `M' {(Vor {\tt statist v0.12} mu"ste dies ein `.' sein.
155 Kann in Quell-Datei {\tt statist.h} bei {\tt \verb|#define NODATA|}
156 vor "Ubersetzung von \st\ ge"andert werden.)}
157 stehen, damit \st\ wei"s, welche Zahl welcher
158 Spalte zuzuordnen ist. Beispiel:
159
160 \begin{verbatim}
161 # Beispiel Datendatei fuer statist
162 1 3 5 6
163 7 8 9 10
164 11 12 13 14
165 15 M 16 M
166 \end{verbatim}
167
168 Wie man dem Beispiel entnehmen kann, sind auch Kommentarzeilen nach Art von
169 {\tt gnu"-plot} zugelassen, die mit einem `{\tt\#}' in der ersten Spalte
170 eingeleitet werden. Leerzeilen werden ebenfalls ignoriert.
171
172 Genauso gut h"atten die Daten auch so eingetippt werden k"onnen:
173
174 \begin{verbatim}
175 # Beispiel Datendatei fuer statist
176 # Ich glaube, hier ist was schief gelaufen
177 1 3 5 6
178 7 8 9 10
179 11 12 13 14
180 15 M 16 M
181 \end{verbatim}
182
183 Im Programm werden die Spalten jeweils Variablen zugeordnet.
184 Standardm"a"sig wird die 1. Spalte mit `a', die 2. mit `b', die 3. mit
185 `c' usw.\ bezeichnet. Um bei vielspaltigen Datendateien den "Uberblick
186 zu behalten, ist es aber auch m"oglich, die Spalten einzeln zu
187 benennen. Das hat den Vorteil, da"s man sich dann nicht merken mu"s,
188 in welcher Spalte eine bestimmte Variable steht. Dies ist innerhalb
189 der ersten Zeile der Datendatei m"oglich. Die Zeile mu"s mit einem
190 `{\tt\#}' als Kommentarzeile gekennzeichnet sein, gefolgt von einem
191 `{\tt\%}'. Dann werden den Zeilen folgenderma"sen Namen zugeordnet
192 (Beispiel):
193
194 \begin{verbatim}
195 #% kow kaw ec50
196 0.34 4.56 0.23
197 1.23 5.45 6.76
198 6.78 1.34 9.60
199 \end{verbatim}
200
201 Dabei ist folgendes zu beachten:
202 \begin{enumerate}
203 \item Es m"ussen genauso viele Variablennamen angegeben werden, wie
204 Spalten vorhanden sind.
205 \item Als Spaltennamen d"urfen {\em nur\/} Buchstaben, Ziffern
206 und `\_' benutzt werden
207 \end{enumerate}
208
209 "Altere Versionen von statist verwendeten die Zeichenkombination
210 \verb|#!|. {(Das alte Verhalten l"a"st sich leicht wieder herstellen,
211 wenn vor dem Kompilieren von statist in der Datei {\tt data.c}
212 in der Funktion {\tt parsecomment()}
213 die Konstante {\tt \verb|var_id|} ge"andert wird.)}
214
215 %Hat man ein Datenfile, in denen auch alphanumerische Daten, also keine
216 %Zahlen, vorhanden sind, dann k"onnen auch solche Dateien von \st\
217 %verarbeitet werden, wenn die alphanumerischen Spalten in der Kopfzeile
218 %mit einem \verb|$| gekennzeichnet werden. Beispiel:
219
220 %\begin{verbatim}
221 %#% $chemikalie kow kaw ec50 $Kommentar
222 %2,4-D 0.34 4.56 0.23 vorhanden
223 %Atrazin 1.23 5.45 6.76 nicht_vorhanden
224 %Nitralin 6.78 1.34 9.60 vorhanden
225 %\end{verbatim}
226
227 %Zu beachten ist, da"s in den alphanumerischen Spalten kein Leerzeichen
228 %stehen darf, da dies als neuer Spalte interpretiert w"urde! Deswegen
229 %mu"s es im obigen Beispiel auch \verb|nicht_vorhanden| hei"sen.
230
231 %Au"serdem kann man auch innerhalb des Programmes Spalten benennen, was
232 %aber relativ unpraktisch ist (Men"upunkt {\tt Daten"-ver"-wal"-tung |
233 %Spalten benennen}).
234
235 Manchmal arbeitet man mit Daten, deren einzelne Objekte benannt
236 sind. Den Objekten entspricht in einem \st-File eine
237 Zeile. Standardm"a"sig "`duldet"' \st\ lediglich Dateien, die nur
238 Zahlenspalten und Kommentarzeilen enthalten. Um jedoch auch mit
239 Dateien zu arbeiten, welche alphanumerische Spalten enthalten, kann
240 man diese Spalten explizit mit einem \verb|$|-Zeichen kennzeichen, so da"s
241 \st\ nicht versucht, diese als Zahl zu interpretieren:
242
243 \begin{verbatim}
244 #% $name kow kaw ec50
245 2,4-D 0.34 4.56 0.23
246 Benzol 1.23 5.45 6.76
247 Atrazin 6.78 1.34 9.60
248 \end{verbatim}
249
250 Zu beachten ist, da"s in den alphanumerischen Spalten kein Leerzeichen
251 stehen darf, da dies als neue Spalte interpretiert w"urde! Um beim
252 obigen Beispiel zu bleiben: \verb|2,4 D| w"are falsch.
253
254 Bei einigen Prozeduren ist die Anzahl der verwendeten Spalten
255 variabel. Z.B. k"onnen bei der multiplen linearen Regression 2 oder
256 auch 10 Spalten angegeben werden. Will man f"ur eine Prozedur alle
257 eingelesenen Spalten verwenden, so tippt man, sobald das Programm nach
258 der Anzahl der Spalten fragt, einfach `alle' ein. Damit entf"allt die
259 explizite Zuordnung der Spalten zu den Variablen.
260
261 Man kann auch Daten aus mehreren Dateien gleichzeitig einlesen und
262 somit Daten aus verschiedenen Dateien kombinieren. Dazu w"ahlt man den
263 Men"upunkt {\tt Daten"-ver"-wal"-tung | Neue Datei einlesen}.
264
265
266
267 \section{Men"u}
268 \label{sec:menue}
269 Durch das Programm wird man mit einem {\em sehr\/} einfachen Men"u gef"uhrt.
270 Grundz"atzlich werden Men"upunkte mit Ziffern gew"aehlt. `0' f"uhrt
271 immer in die n"achst h"ohere Men"uebene und beendet konsequenterweise
272 im Hauptmen"u das Programm. Ein Schmankerl gibt es aber doch: Man kann
273 immerhin jede Benutzerabfrage mit der Returntaste unterbrechen und
274 landet dann wieder in eines der Men"us.
275
276 Wenn man eine Statistikprozedur aufruft, wird man aufgefordert, den
277 Spalten Variablen zuzuordnen, das ist eigentlich selbsterkl"arend.
278
279
280
281 \section{Batch-Betrieb}
282 \label{sec:batch}
283
284 Wenn man zahlreiche Datens"atze auf immer die gleiche Art und Weise
285 durch \st\ durchnudeln m"ochte und es einem auf die Nerven geht, sich
286 immer wieder durchs Men"u durchzuhangeln, gibt es eine kleine Hilfe:
287 Da das Programm nur mit Standard-Ein/Ausgabe arbeitet, kann man sich
288 eine kleine "`Antwort"'-Datei basteln. Hierin schreibt man exakt das
289 hinein, was man sonst als Eingabe f"ur \st\ eintippen w"urde, also in
290 der Regel nur die Zahlen/Buchstaben, die man als Auswahl f"ur das
291 Men"u und die Spalten eingibt. Genauso kann man die Ausgabe in eine
292 Datei umleiten, um sich dann die Ergebnisse in Ruhe anzusehen oder
293 aber alternativ die Option {\tt -log} angeben (was bewirkt, da"s das
294 Ergebnis nicht nur in die Datei {\tt statist.log} sondern auch auf den
295 Bildschirm ausgegeben wird). Mit der Option {\tt -silent} wird die
296 Ausgabe von Dialogtexten unterdr"uckt, so da"s nur noch das Ergebnis
297 der Berechnungen ausgegeben wird. Au"serdem f"allt dann die
298 Auf"|forderung zum Dr"ucken der {\tt Return}-Taste zum Fortfahren des
299 Programmes weg. Will man z.B. im Batch-Modus eine lineare Regression
300 mit den Spalten a und b einer Datei durchf"uhren, dann s"ahe die
301 "`Antwort"'-Datei so aus (Vergleiche hierzu die Eingabe beim normalen
302 Men"u-Betrieb):
303
304 \begin{verbatim}
305 2
306 1
307 a
308 b
309 0
310 0
311 \end{verbatim}
312
313 Der Aufruf f"ur den Batch-Betrieb k"onnte dann also folgenderma"sen
314 aussehen:
315
316 \verb| statist daten.dat -silent < statist.ant > statist.log | \par
317 {\centering bzw.\\}\par
318 \verb| statist daten.dat -silent -log < statist.ant |
319
320
321 \section{Funktionen}
322 \label{sec:funktionen}
323
324 Momentan stehen folgenden Statistikfunktionen zur Verf"ugung. (Die
325 Angaben in Klammern beziehen sich auf die Literatur, denen der
326 Algorithmus entnommen wurde.):
327
328 \begin{enumerate}
329 \item Lineare Regression
330 \item Rank-Korrelationskoeffizient von {\sc Spearman} \cite[S. 175
331 f\/f]{bruning77}
332 \item Multiple lineare Korrelation \cite[S. 77 f\/f]{mueller85}
333 \item Partielle lineare Korrelation (max. 5 Variablen) \cite[S. 82
334 f]{weber86}
335 \item Polynomregression \cite[S. 65 f]{mueller85}
336 \item Korrelationsmatrix der linearen Korrelationskoeffizienten
337 \item Korrelationsmatrix der {\sc Spearman'schen} Korrelationskoeffizienten
338 \item Punkt-biserielle (lineare) Korrelation \cite[S. 182 f\/f]{bruning77}
339 \item t-Test zum Vergleich zweier Mittelwerte aus Stichproben \cite
340 [S. 10 f\/f] {bruning77}
341 \item t-Test zum Vergleich zweier Mittelwerte bei paarweiser Anordnung
342 der Stichproben \cite[S. 175 f]{weber86}
343 \item Test auf Normalverteilung ({\sc Kolmogoroff-Smirnoff-Lilliefors})
344 \cite[S. 100 f\/f]{neave88}
345 \item $\chi^2$-Vierfeldertafel \cite[S. 200 f\/f]{weber86}
346 \item $\chi^2$-Mehrfachtafel \cite[S. 209 f\/f]{weber86}
347 \item U-Test von {\sc Mann} und {\sc Whitney} \cite[S. 184
348 f\/f]{weber86}
349 \item Zweistichprobentest von {\sc Wilcoxon} \cite[S. 340 f\/f]{weber86}
350 \item Test von {\sc Kruskal} und {\sc Wallis} auf {\em k\/}
351 unabh"angige Stichproben \cite[S. 337 f\/f]{weber86}
352 \item Standardabweichung, Mittelwert, Median u.a.
353 \item Probitanalyse \cite[S. 534 f\/f]{weber86}
354 \item Log-Transformation (10er Logarithmus), Invertierung (1/x) und Sortieren
355 \item Elemenieren von vermuteten Ausrei"sern \cite[S. 835]{hartung86}
356 \item Kreuz-Validierung multipler linearer Regression (noch experimentell!).
357 \end{enumerate}
358
359 Bei Korrelations- bzw. Regressionsfunktionen wird immer zugleich ein
360 Test auf signifikante Korrelation durchgef"uhrt. Approximationen f"ur
361 t-Verteilung, Normalverteilung, $\chi^2$-Verteilung und
362 t-Verteilung wurden \cite{mueller85} entnommen.
363 \el
364
365
366 \noindent {\bf Anmerkung zu den Funktionen:}
367 \begin{itemize}
368 \item Beim Test auf Normalverteilung ({\sc
369 Kolmogoroff"=Smirnoff"=Lilliefors}) lautet die Hypothese $H_0$: die
370 Daten sind normalverteilt. Diese Hypothese wird akzeptiert, wenn die
371 Wahrscheinlichkeit f"ur $H_1$ (die Daten sind nicht normalverteilt)
372 {\em nicht} signifikant hoch ist. Die "`Beweislast"' liegt also bei
373 $H_1$. Dies bedeutet, da"s $H_0$ desto besser abgesichert ist, je
374 {\em h"oher} das Signifikanzniveau $\alpha$ liegt, denn $\alpha$ gibt
375 jetzt die Wahrscheinlichkeit f"ur $H_0$ statt f"ur $H_1$ an. Es geht
376 hier also genau umgedreht wie bei den anderen Tests zu!
377
378 W"ahlt man den Test auf Normalverteilung, so gibt \st\ zuerst ein
379 H"aufigkeitsdiagramm aus.
380
381 Bei Angabe der Option {\tt -thist} (oder auch {\tt -noplot}, s.\
382 Abschnitt \ref{sec:gnuplot}) wird dieses als Textgraphik
383 dargestellt, ansonsten als {\tt gnuplot}-Graphik.
384
385 Da beim {\sc KS-Lilliefors}-Test die theoretisch erwartete
386 Normalverteilungsfunktion mit der Summenh"aufigkeitsfunktion der
387 Daten verglichen wird, werden diese Funktionen graphisch
388 dargestellt. Zwei waagerechte Linien zeigen die gr"o"ste `vertikale'
389 Differenz der beiden Funktionen auf, welche die Pr"ufgr"o"se $D$
390 darstellt.
391 \item Bei den t-Tests wird vorrausgesetzt, da"s die Varianzen der
392 Grundgesamtheiten, aus denen die Stichproben vorliegen, gleich gro"s
393 sind. Wenn man paarweise angeordnete Me"swerte testen m"ochte (z.B.
394 Vergl.\ des Gewichtes von m"annl.\ und weibl.\ M"ausen aus je einem
395 Wurf, s.\ \cite[S. 175 f]{weber86}), dann wende man den t-Test zum
396 Vergleich paarweise angeordneter Stichproben an.
397 \item Beim $\chi^2$-Vierfelder-Tafeltest gibt es zwei M"oglichkeiten
398 zur Eingabe der Daten:
399 \begin{enumerate}
400 \item Wenn die beiden eingelesenen Spalten nur `0' oder `1'
401 enthalten, bedeuted dies `Merkmal nicht vorhanden' bzw.\ `Merkmal
402 vorhanden'. Dementsprechend werden die Merkmalskombinationen
403 f"ur die Vierfeldertafel aus"-ge"-z"ahlt. Um z.B.\ eine Vierfeldertafel
404 f"ur zwei Merkmale aufzustellen, k"onnte man folgende Datei eingeben:
405
406 \begin{verbatim}
407 # Merkmale einer Blume 1=gross 2=rot
408 1 0
409 1 0
410 1 1
411 1 1
412 0 1
413 0 0
414 \end{verbatim}
415
416 \st\ stellt aus dieser Eingabe die Vierfeldertafel auf, wie dies in
417 Tabelle \ref{tab:vierfeld} dargestellt ist.
418
419 \begin{table}[htb]
420 \begin{center}
421 \caption[]{\protect\label{tab:vierfeld} \fsize Beispiel f"ur eine
422 Vierfeldertafel f"ur die Merkmale A und B.}
423 \vspace{1ex}
424 \begin{tabular}{|l|c|c|}
425 \hline
426 & A vorhanden & A nicht vorhanden \\
427 \hline
428 B vorhanden & 2 & 1 \\
429 B nicht vorhanden & 2 & 1 \\
430 \hline
431 \end{tabular}
432 \end{center}
433 \end{table}
434
435 \item Wenn die zwei Spalten aus je nur 2 Werten bestehehen, wird
436 davon ausgegangen, da"s die fertig ausgez"ahlte Vierfeldertafel
437 eingelesen worden ist. Die Werte w"urden dann also wie folgt
438 eingegeben:
439
440 \begin{minipage}{10cm}
441 \begin{verbatim}
442 # Tafel fuer Merkmale `rot' und `gross' einer Blume
443 2 1
444 2 1
445 \end{verbatim}
446 \end{minipage}
447
448 \end{enumerate}
449 \item Beim $\chi^2$-Mehrfachtafel-Test k"onnen im Gegensatz zur
450 Vierfeldertafel Merkmale in mehrere Klassen dargestellt werden.
451 Ein Beispiel hierf"ur w"are die Untersuchung der Verteilung der Merkmale
452 `Blattgr"o"se' und `Bl"utenfarbe' einer Pflanze. Das Merkmal Blattgr"o"se
453 k"onnte z.B.\ in die Klassen `gro"s', `mittel' und `klein'eingeteilt
454 werden und die Bl"utenfarbe in die Klassen `blau', `rot' und `wei"s'. Im
455 Gegensatz zur Vierfeldertafel werden bei diesem Test nur
456 ausgez"ahlte Tabellen von \st\ angenommen, also z.B.
457
458 \begin{verbatim}
459 # Tafel fuer die Merkmale `Bluetenfarbe' und `Blattgroesse'
460 # Spalten: Bluete blau rot weiss
461 # Zeilen Blatt gross mittel klein
462 29 11 6
463 273 191 64
464 8 31 4
465 \end{verbatim}
466
467 \item Beim U-Test werden zwei Variable $x$ und $y$ daraufhin
468 untersucht, ob sie sich signifikant voneineander unterscheiden. Er
469 ist somit das parameterfreie Gegenst"uck zum t-Test. Beim U-Test
470 erfolgt ein Test der Pr"ufgr"o"se {\em U\/} auf Signifikanz mit Hilfe
471 der Normalverteilung, wenn sowohl f"ur x als auch y mindestens 8
472 Werte vorhanden sind, sonst benutzt \st\ eine Tabelle
473 der kritischen Werte.
474 % Sonst mu"s der Test
475 % f"ur die Verteilung von {\em U\/} leider mit Hilfe von Tabellen aus
476 % irgendwelchen Statistikb"uchern durchgef"uhrt werden.
477 \item Beim Test von {\sc Kruskal} und {\sc Wallis} handelt es sich wie
478 beim U-Test um einen parameterlosen Test, bei dem gepr"uft wird, ob
479 drei oder mehr unabh"angige Stichproben der gleichen Grundgesamtheit
480 entstammen. Dieser Test ist somit das Gegenst"uck zum parametrischen
481 F-Test. Wenn die Stichproben jeweils mehr als 4 Werte enthalten,
482 kann ein $\chi^2$-Test durchgef"uhrt werden, ansonsten mu"s die
483 Pr"ufgr"o"se $H$ leider mit Hilfe von Tabellen getestet werden.
484 \item Beim Zweistichprobentest von {\sc Wilcoxon} handelt es sich
485 ebenfalls um einen parameterlosen Test, bei dem zwei
486 Zufallsvariablen $x$ und $y$ paarweise verglichen werden und ist
487 somit da"s parameterlose Gegenst"uck zum t-Test f"ur paarweise
488 angeordnete Stichproben. Er eignet sich z.B. f"ur Fragestellungen,
489 bei denen ein Objekt mit zwei verschiedenen Mitteln behandelt worden
490 ist. $x$ und $y$ charakterisieren in diesem Fall die
491 unterschiedliche Behandlung am gleichen Objekt. Die Hypothese $H_0$
492 lautet dann: Es gibt keine Unterschiede in der Behandling $x$ und
493 $y$.
494
495 F"ur Stichproben $<$ 25 wird eine Tabelle der kritischen Werte
496 benutzt, ansonsten wird die Wahrscheinlichkeit mit Hilfe einer
497 Approximation an die Normalvewrteilung berechnet.
498
499 \item Der Punkt-biserielle Korrelationskoeffizient wird benutzt, wenn
500 die Korrelation zwischen einem quantitativen Merkmal und einem
501 alternativen Merkmal berechnet werden soll (Bsp.: Korrelation
502 `Durchmesser einer Bl"ute' -- `Bl"ute ist rot' ($\Longrightarrow$
503 ja/nein Entscheidung).
504 \item Bei der log-Transformation wird eine neue Spalte erzeugt, welche
505 die logaritmierten Werte einer eingelesenen Spalte enth"alt. Dies ist
506 n"utzlich, wenn man z.B.\ eine log-lineare statt einer
507 linearen Korrelation berechnen und/oder testen will. Das gleiche
508 gilt analog f"ur die Invertierungsfunktion 1/x, der Sortierfunktion
509 und der Ausrei"serfunktion.
510 \item Unter dem Menuepunkt {\tt Verschiedens |Ausreisser +
511 Box-Whisker-Plot} wird via {\tt gnuplot} ein sogenannter {\em
512 Box-Whisker-Plot} \cite[S. 835 f\/f]{hartung86} erstellt (s.\
513 Abb.\ \ref{fig:boxplot}). {\em Box-Whisker-Plots} sind gut geeignet,
514 um auf einen Blick bestimmte Eigenschaften von Verteilungen zu
515 erfassen. Zum Beispiel gibt die Lage des arithmetischen Mittelwertes
516 im Vergleich zum Median einerseits und die Lage des
517 Konfidenzintevalles des Medians zum 25\%- und 75\%-Quartil
518 Aufschlu"s "uber die Schiefe einer Verteilung. Au"serdem kann man
519 potentielle Ausrei"ser mit einem Blick erkennen.
520 \item Unter dem Men"upunkt {\tt Regreesion und Korrelation} finden
521 sich die Punkte {\tt Kreuz-Validierung multipler linearer
522 Regression} und {\tt Randomisierung multipler linearer Regression}.
523 Diese beiden Punkte dienen der Evaluierung der Prognosef"ahigkiet
524 linearer Modelle \cite{wold91,wold95}.
525
526 Die prognostizierte Varianz $Q^2$ wird beim
527 Men"upunkt {\tt Kreuz-Validierung mul"-ti"-pler linearer Regression}
528 folgenderma"sen berechnet: Ein Objekt wird aus dem Datensatz
529 herausgenommen und die
530 Regression mit den verbleibenden Daten durchgef"uhrt\footnote{ %
531 Nach {\sc Wold} ist es g"unstiger, nicht ein, sondern mehrere
532 Objekte aus dem gesamten Datensatz herauszunehmen. Dies ist bisher
533 noch nicht implementiert}. %
534 Mit Hilfe der so ermittelten Regressionskoeffizienten $a_i$ kann
535 dann die abh"angige Variable $yo$ des fehlenden Objektes berechnet
536 werden. Der so berechnete Wert kann als prognostizierter Wert $yp$
537 bezeichnet werden. Dieses Verfahren wird f"ur alle Datens"atze
538 angewendet, so da"s f"ur jeden gemessene Wert $yo$ ein
539 prognostizierter Wert $yp$ existiert. Anschlie"send kann die
540 prognostizierte Varianz $Q^2$ aus den $yo$, $yp$ und dem Mittelwert
541 $\bar{y}$ berechnet werden:
542 \begin{equation}
543 \label{eq:q^2-def}
544 Q^2 = 1 - \frac{\sum\limits_{i=1}^n (yo_i - yp_i)^2}
545 {\sum\limits_{i=1}^n (yo_i-\bar{y})^2}
546 \end{equation}
547
548 Als weitere Ma"snahme zur Validierug wird von {\sc Wold} die
549 Randomisierung des Response-Vektors genannt (Men"upunkt
550 {\tt Randomisierung multiple linearer Regression}). Bei diesem
551 verfahren werden die unabh"angigen Variablen intakt gelassen, w"ahrend
552 der Vektor der $y$-Werte mittels Zufallsgenerator randomisiert wird.
553 Dabei werden nicht die $y$-Werte selber ge"andert, sondern die
554 Indizes des Vektors werden permutiert, die $y$-Werte werden also
555 vertauscht. Dieses Randomisierung wird zahlreiche Male wiederholt
556 und f"ur jeden so manipulierten Datensatz das Bestimmtheitsma"s $r^2$
557 und die prognostizierte Varianz $Q^2$ berechnet. Die Verteilungen
558 dieser Werte k"onnen in einem Histogramm dargestellt werden, so da"s
559 erkennbar wird, ob das $r^2$ bzw. $Q^2$ des originalen Datensatzes
560 mit hoher Wahrscheinlichkeit Produkt eines `Zufalls'-Datensatzes ist
561 oder ob nicht. Der Benutzer kann w"ahlen, wieviel Tupel und somit
562 wieviele aus permutierten Datens"atzen erzeugte $r^2$ und $Q^2$
563 prodiziert werden sollen. Dies kann bei gr"o"seren Datens"atzen
564 durchaus l"anger dauern! Zum Schlu"s werden zwei neue Spalten
565 \verb|rquad| (enth"alt die $r^2$ Werte) und \verb|qquad| (enth"alt
566 die $Q^2$ Werte) erzeugt. Diese Spalten k"onnen z.B. mit Hilfe eines
567 Histogrammes (Men"upunkt {\tt Verschiedenes|Standardabweichung,
568 Mittelwert, Median uva.}) ausgewertet werden. Man kann dann sehen,
569 ob das `echte' $Q^2$ bzw. $r^2$ in einem H"aufigkeitsbereich liegen,
570 in dem auch viele mit Hilfe der Zufallsdatensaetze erzeugte Werte
571 liegen oder nicht. L"a"st die Verteilung des Histogrammes darauf
572 schlie"sen, da"s das Auftreten des `echte' $Q^2$ bzw. $r^2$ in einem
573 Zufallsdatensatz unwahrscheinlich ist, dann spricht das f"ur eine
574 aussagekr"aftige Regression.
575
576 \end{itemize}
577
578 %\bibliographystyle{discit}
579 %\bibliography{statist}
580
581 %\bibliographystyle{myaplain}
582 %\bibliography{myabbr,statist}
583 %\bibliographystyle{plain}
584
585 \bibliographystyle{plain}
586 \bibliography{statist}
587
588 \vfill
589
590 \begin{figure}[htbp]
591 \begin{center}
592 \leavevmode
593 \centerline{\psfig{figure=./box.ps,width=14cm}}
594 % \input{box.eep}
595 % \input{box.pstex_t}
596 \caption[]{\fsize Beispiel f"ur einen Box-Whisker-Plot. Die
597 {\em adjacent values} geben Werte an, die am dichtesten am sog.\
598 {\em inner fence} liegen, welcher den `inneren' Bereich gegen
599 potentielle Ausrei"ser abgrenzen \cite[S. 835]{hartung86}.}
600 \label{fig:boxplot}
601 \end{center}
602 \end{figure}
603
604
605
606
607
608 \end{document}
609
610
611
612 % Local Variables:
613 % mode: latex
614 % TeX-master: t
615 % End: