VP-PA: Konfidenzintervall von Mittelwerten mit R



Konfidenzintervall am Beispiel der mittleren Jahresniederschlagssummen

Der vorliegende Datensatz ist eine Teilmenge des Lageparameterdatensatzes und
beinhaltet die mittlere Jahressummen der Niederschläge zwischen
1961 und 1990 für einige der im Gesamtdatensatz vorhandenen Messtationen des DWD.
Die Leitfrage dieses Beispiels ist:

//Wie verhält sich die Stichprobe des Datensatzes zur Grundgesamtheit in Form des
Lageparameter-Datensatzes? //

Zur Beantwortung dieser Frage sind mehrere Schritte notwendig, die im folgenden
kurz erläutert werden.

Einlesen des Datensatztes

Bevor wir die Frage mit Hilfe einiger Befehle und Rechnunge beantworten, müssen
die Daten zunächst wieder eingelesen werden. Hierfür definieren wir zunächst das
Arbeitsverzeichnis, in dem die Datei liegt (alternativ kann natürlich auch der
Pfad + Dateinamen beim öffnen angegeben werden). Beim anschließenden Lesen der
Daten ist auf die korrekte Angabe des Trennzeichens zu achten (hier: “;”).

setwd("D:/active/vp-pa/2013_winter/seminarsitzungen/statistik")
dataset <- read.table("konfidenzintervall.csv", header = TRUE, sep = ";")
summary(dataset)
##                 Station.des.DWD  Hoehe.NN..m. Geogr..Breite..Grad.
##  ABENSBERG-SANDHARLANDEN: 1     Min.   :  1   Min.   :47.7        
##  ALBSTADT-LAUTLINGEN    : 1     1st Qu.:106   1st Qu.:49.1        
##  ASCHAU                 : 1     Median :298   Median :50.1        
##  BERLIN-FRIEDRICHSFELDE : 1     Mean   :311   Mean   :50.4        
##  BORKEN/HESSEN-GOMBETH  : 1     3rd Qu.:429   3rd Qu.:51.5        
##  BOXBERG                : 1     Max.   :805   Max.   :54.0        
##  (Other)                :24                                       
##  Geogr..Laenge..Grad. Jahresniederschlagssumme Erwartungswert
##  Min.   : 7.20        Min.   : 545             Min.   :798   
##  1st Qu.: 8.85        1st Qu.: 643             1st Qu.:798   
##  Median :11.40        Median : 722             Median :798   
##  Mean   :10.88        Mean   : 822             Mean   :798   
##  3rd Qu.:12.07        3rd Qu.: 897             3rd Qu.:798   
##  Max.   :14.60        Max.   :1994             Max.   :798   
## 

T-Test gegen Grundgesamtheit

Da es sich bei dem Datensatz um eine Teilmenge des aus dem vorherigen Beispiel
bekannten Lageparameterdatensatzes handelt, können wir letzteren als Grund-
gesamtheit betrachten und den vorliegenden Datensatz als Stichprobe.

Um die Frage zu beantworten, ob sich die Stichprobe von der Grundgesamtheit
statistisch signifikant unterscheidet, führen wir einen T-Test durch, bei dem
der Mittelwert der Niederschläge der Stichprobe gegen den Mittelwert der
Grundgesamtheit getestet wird. Letzterer ist in der Spalte “Erwartungswert”
im Datensatz enthalten.

t <- t.test(dataset$Jahresniederschlagssumme, dataset$Erwartungswert)
print(t)
## 
##  Welch Two Sample t-test
## 
## data:  dataset$Jahresniederschlagssumme and dataset$Erwartungswert 
## t = 0.4173, df = 29, p-value = 0.6795
## alternative hypothesis: true difference in means is not equal to 0 
## 95 percent confidence interval:
##  -94.13 142.39 
## sample estimates:
## mean of x mean of y 
##     821.6     797.5

Wie man sieht, sind die Mittelwerte der beiden Gruppen lediglich mit einer
Irrtumswahrscheinlichkeit von 0.6795 verschieden. Anders gesagt: die Mittelwerte
der beiden Datensätze sind statistisch nicht signifikant unterschiedlich, also
gleich.

Das ganze kann man dahingehend vereinfachen, als dass der Mittelwert der
Erwartungswerte gleich dem einzelnen Erwartungswert ist, weil in der entsprechenden
Spalte lauter gleiche Werte stehen.

t2 <- t.test(dataset$Jahresniederschlagssumme, mu = 797.5)
print(t2)
## 
##  One Sample t-test
## 
## data:  dataset$Jahresniederschlagssumme 
## t = 0.4173, df = 29, p-value = 0.6795
## alternative hypothesis: true mean is not equal to 797.5 
## 95 percent confidence interval:
##  703.4 939.9 
## sample estimates:
## mean of x 
##     821.6

Bei der Berechnung eines solchen Test mit nur einer Stichprobe erhält man
zudem das Konfidenzintervall (hier 95%) für den Mittelwert. Im aktuellen Beispiel
liegt es zwischen 703,37 und 939,89 (der Wert von mu spielt keine Rolle, solange
man nur das Konfidenzintervall des Mittelwerts berechnen möchte und nicht die
alternative Hypothese testet.)

Leave a Reply