Unsere Datenschutzrichtlinie wird in Kürze aktualisiert. Bitte sehen Sie sich die Vorschau an.

R und RStudio Grundkurs

Zusammenhänge zwischen Variablen

Testen Sie unsere 2016 Kurse

10 Tage kostenlos!

Jetzt testen Alle Abonnements anzeigen
Mit dem unscheinbaren Befehl "cor" bestimmen Sie den linearen und den monotonen Zusammenhang von metrisch skalierten Variablen. Die Trainerin demonstriert, wie Sie zwei Variablen in einem Streudiagramm abbilden und eine lineare Regressionsfunktion hinzufügen können.
12:56

Transkript

In diesem Video möchte ich Ihnen zeigen, wie Sie den Zusammenhang zwischen zwei Variablen bestimmen können. Öffnen Sie bitte RStudio und legen eine neue Scriptdatei an, indem Sie auf das kleine Plus klicken, R Script auswählen und das Ganze speichern unter Korrelationen. Ich habe im Vorfeld schon einmal einen Dataframe angelegt, den Dataframe gesund. Diesen Dataframe gesund können wir uns einmal anschauen. Der Dataframe hat vier Variablen, Name, Geschlecht, Größe und Gewicht. Möchten wir den Zusammenhang zwischen zwei Variablen bestimmen, müssen wir berücksichtigen, welches Skalenniveau diese Variable haben. Um das Skalenniveau herauszufinden, können wir uns mal die Datentypen unserer Variablen ansehen. Dafür gehen wir auf diesen kleinen Pfeil. Hier sehen wir unsere vier Variablen und die entsprechenden Datentypen dazu. Wie wir sehen, sind die Variablen Größe und Gewicht numerisch oder wir würden auch sagen metrisch skaliert. Für metrisch skalierte Variablen gibt es viele Kenngrößen, um Korrelationen zu bestimmen. Beispielsweise den Korrelationskoeffizient nach Pearson auf linearen Zusammenhang, oder den Korrelationskoeffizient nach Spearman auf monotonen Zusammenhang. Haben wir dagegen kategoriale Variablen, können wir diese Korrelationskoeffizienten nicht nutzen. Der Datentyp Factor zeigt uns hier an, dass wir kategoriale Variablen vorliegen haben, Name und Geschlecht. Würden wir probieren zwischen diesen beiden Variablen einen Zusammenhang feststellen zu wollen, dann müssten wir andere Kenngröße heranziehen. Beispeilsweise müssten wir einen CeQuadrat Test durchführen, den wir auch ein R machen könnten oder wir müssten den Kontingenzkoeffizienten bestimmen. Aus Vereinfachungsgründen beschränke ich mich in diesem Video jedoch nur auf die Korrelation zwischen zwei metrisch skalierten Variablen. Den Korrelationkoeffizient nach Pearson können wir wie folgt bestimmen. Mit dem kleinen Befehl cor geben wir anders wie hier Korrelation bestimmen wollen. Als erstes geben wir die beiden Variablen an, die uns interessieren. In unserem Fall können das nur zwei Variablen sein, nämlich Größe und Gewicht, denn das sind die einzigen Variablen in unserem Dataframe, die numerisch also metrisch skaliert sind. Wir sprechen wieder zuerst den Dataframe gesund an und können erst danach auf unsere Variable zurückgreifen. Im Grunde reicht dieser Befehl so aus. Jetzt wird automatisch beziehungsweise standardmäßig der Korrelationkoeffizient nach Pearson berechnet werden. Damit wir uns jedoch sicher sind, welcher Korrelationskoeffizient gerade bestimmt wird, gebe ich hier noch die Methode an, und die ist Pearson. Mit dem Korrelationkoeffizient nach Pearson bestimmen wir die Stärke eines möglichen linearen Zusammenhangs. Wir können das Ganze ausführen. Wir haben einen Korrelationskoeffizient von 0,91 beziehungsweise 0,92 bestimmt. Der ist relativ hoch. Sie müssen wissen, der Korrelationskoeffizient liegt zwischen -1 und +1. Werte -1 beziehungsweise +1 deuten auf einen starken Zusammenhang hin. Werte gegen 0 deuten auf gar keinen Zusammenhang hin. Haben wir einen negativen Korrelationskoeffizienten, deutet das Ganze auf einen negativen Zusammenhang hin. Haben wir dagegen einen positiven Korrelationsproeffizienten wie in diesem Fall, deutet das auf einen positiven Zusammenhang hin. Unseren Korrelationskoeffizienten können wir so interpetieren, das große Menschen auch eher schwerer sind beziehungsweise mit steigender Größe erwarten wir ein höheres Gewicht. Genauso können wir jetzt den Korrelationskoeffizient nach Spearman berechnen. Diese Kenngröße kann uns sagen, ob es einen monotonen Zusammenhang gibt. Das heißt, der Zusammenhang muss jetzt nicht rein linear sein wie im Fall von dem Korrelationskoeffizient nach pearson, sondern der Zusammenhang könnte auch exponentiell sein oder logarithmisch oder wie auch immer, aber eben monoton. Am Befehl ändert sich nicht viel. Wir können die Methode auch wieder über den Befehl cor abrufen und kopieren uns einfach mal ganz frech diese Zeile in unserem Befehl. Wir ändern lediglich die Methode. Wir ersetzen lediglich die Methode und tragen Spearman ein. Und so können wir auf einen monotonen Zusammenhang überprüfen. Und tatsächlich unser Korrelationskoeffizient nach Spearman ist größer als der Korrelationskoeffizient nach Pearson. Es liegt also ein starker Zusammenhang zwischen Größe und Gewsicht vor. An dieser Stelle bietet es sich an, den Zusammenhang zwischen Größe und Gewicht grafisch darzustellen, nämlich mit einem Streudiagramm. Den Streudiagramm können wir relativ einfach mit dem Befehl plot erzeugen. Als erstes geben wir die x-Variable ein, in unserem Fall Größe, und als zweites die y-Variable. Im Grunde können wir das jetzt schon so plotten. Ich bin nur ein Fan von beschrifteten Achsen und aus diesem Grund würde ich die x-Achse beschriften mit Größe in Metern und die y-Achse mit Gewicht in Kilogramm. Und dann können wir das Ganze mal ausführen. Das sieht nur nicht ganz so schön aus. Erhöhen wir einfach mal den Wertebereich für X, und zwar sei die x-Achse von 1,40 Meter bis 2 Meter sichtbar, und wir limitieren auch noch die y-Achse auf einen Wertebereich von 40 bis 100 Kilogramm. Und führen das Ganze aus. Jetzt sieht das Ganze schon etwas schöner aus, aber ich gebe zu, es sind etwas sehr wenige Punkte in unserem Streudiagramm, aber wir haben normal in diesem Beispiel nur vier Beobachtungen. Wie wir so wenige Beobachtungen haben, dann bietet es sich an die Namen dazu zu schreiben. Und das können wir mit dem kleinen Befehl text machen. Hier müssen wir wieder die Koordinaten angeben, also wo der Text dann stehen soll. Außerdem geben wir an, welchen Text wir denn haben möchten, und zwar möchten wir die Labels von Name haben. Das sind unsere Namen. Außerdem können wir die Positionen der Namen angeben und zwar starten wir unter dem Punkt, dann links des Punktes, oben und rechts des Punktes. Und genauso gehen wir bei der Beschriftung vor. Unten ist gleich die Eins, links ist die Zwei, oben ist die Drei und rechts ist die Vier. Ich möchte, dass der erste Name oben steht, der zweite Name unten, der dritte Name oben und der vierte Name auch oben, also oberhalb des Punktes. Und das Ganze noch einmal ausführen, und da stehen unsere Namen, Julia, Fred, Mia und Tom. Wenn wir ein Streudiagramm haben, dass hoffentlich mehr Punkte beinhaltet als mein kleines Beispiel, dann bietet es sich immer an mal zu schauen, ob ein linearer Zusammenhang vorliegt. Wir haben ja bereits festgestellt, dass anscheinend ein starker linearer Zusammenhang vorliegt und zwar mit dem Korrelationskoeffizient nach Pearson. In diesem linearen Zusammenhang kann man doch auch wunderschön durch eine lineare Regressionsgerade darstellen. Und diese Regressionsgerade können Sie mit dem Befehl abline erzeugen. Innerhalb des Befehls abline, der Ihnen diese Gerade zieht, greifen Sie auf die Funktion lm zurück. lm steht für lineare Regression. Mit dem kleinen Befehl lm können Sie univariate, aber auch multiple Regressionen durchführen. Innerhalb des Befehls geben Sie als aller erstes Ihre y-Variable an. In unserem Fall ist das Gewicht, weil wir gehen davon aus, dass Gewicht von der Größe abhängt und dass er weniger Sinn macht, dass die Größe vom Gewicht abhängt. Also kommt hier als erstes unsere y-Variable. Und diese y-Variable sei abhängig von einer x-Variable, in unserem Fall die Größe. Und jetzt können wir das Ganze ausführen. Wunderbar. Jetzt sehen Sie durch unsere Punktewolke, durch unser Streudiagramm läuft eine lineare Regressionsgerade. Möchten Sie noch mehr über solcherlei Grafiken wissen oder haben Sie jetzt ein Interesse an linearen Regressionen, dann gehen Sie einfach mal auf Ihre Hilfe und geben dort zum Beispiel lm an. Und dort erfahren Sie alles über die lineare Regression. Möchten Sie noch ein bisschen mit ihrer Grafik spielen, dann gehen Sie doch einfach mal auf plot und auch hier erfahren Sie weitere Möglichkeiten Ihre Grafik aufzuhübschen. In diesem Video habe ich Ihnen gezeigt, wie Sie den Zusammenhang, den linearen und auch den monotonen Zusammenhang, zwischen zwei metrisch skalierten Variablen bestimmen können. Außerdem habe ich Ihnen gezeigt, wie Sie diesen Zusammenhang grafisch darstellen können.

R und RStudio Grundkurs

Lernen Sie, wie Daten mit der Programmiersprache R statistisch ausgewertet, geplottet und exportiert werden können.

2 Std. 29 min (16 Videos)
Derzeit sind keine Feedbacks vorhanden...
 
Software:
R R 3
Exklusiv für Abo-Kunden
Erscheinungsdatum:17.11.2016

Dieser Online-Kurs ist als Download und als Streaming-Video verfügbar. Die gute Nachricht: Sie müssen sich nicht entscheiden - sobald Sie das Training erwerben, erhalten Sie Zugang zu beiden Optionen!

Der Download ermöglicht Ihnen die Offline-Nutzung des Trainings und bietet die Vorteile einer benutzerfreundlichen Abspielumgebung. Wenn Sie an verschiedenen Computern arbeiten, oder nicht den ganzen Kurs auf einmal herunterladen möchten, loggen Sie sich auf dieser Seite ein, um alle Videos des Trainings als Streaming-Video anzusehen.

Wir hoffen, dass Sie viel Freude und Erfolg mit diesem Video-Training haben werden. Falls Sie irgendwelche Fragen haben, zögern Sie nicht uns zu kontaktieren!