R und RStudio Grundkurs

Import und Export von Daten

LinkedIn Learning kostenlos und unverbindlich testen!

Jetzt testen Alle Abonnements anzeigen
In diesem Video erfahren Sie, welche Struktur Daten haben müssen, damit sie importiert und exportiert werden können. Dabei wird auch auf Fehlwerte, sogenannte Missing Values, eingegangen. Außerdem sehen Sie, wie Sie Daten importieren und in eine neue Datei exportieren können.
09:58

Transkript

Im nächsten Video möchte ich Ihnen zeigen, wie Sie Daten importieren und exportieren können. Bevor wir mit dem Importieren beginnen können, öffnen Sie mal bitte ein angelegtes Projekt. Gehen Sie auf File, Open Projekt, ich hatte hier schon mal ein Projekt angelegt, R_Einstieg, klicken Sie auf die Projektdatei und öffnen Sie diese bitte. Innerhalb dieses Arbeitsverzeichnis sehen Sie, dass hier eine CSV-Datei liegt. Diese CSV-Datei möchte ich gerne importieren. Wie muss so eine Datei aussehen? Im besten Fall haben Sie eine CSV- oder eine Textdatei. Diese Textdatei oder CSV-Datei hat eventuell Überschriften, nämlich die Überschriften von Variablen. Ja, wir haben ja eine UserID, wir haben Längen- und Breitengrad, Raucher, Trinkverhalten und so weiter und so fort, und die Überschriften sind mit Komma getrennt. Das heißt auch unsere ganze Informationen sind mit einem Komma getrennt. Die können auch mit einem Semikolon zum Beispiel getrennt sein. Haben wir wie hier die Trennung der Variablen mit Komma, dann sollten die Dezimalzahlen durch Punkt getrennt sein. Anderenfalls haben wir Semikolon, dann können die Dezimalzahlen durch Punkt aber auch durch Komma getrennt sein. So sieht das Ganze dann aus. Es konnte sein, dass wir Missing Values in den Daten haben, wie hier, diese müssen einfach eindeutig sein, so dass wir sie selber als Missing Values identifizieren können. Sie können als Fragezeichen dargestellt sein, so wie hier, oder einfach als leeres Feld, oder manche schreiben NA für not available und so weiter und so fort, aber die Missings müssen eindeutig zugewiesen sein. Hat eine Datei diese Form, dann können wir sie ohne Probleme einspielen. Und dafür können Sie auf Import Dataset klicken und dann entscheiden, ob Sie diese Datei lokal vorliegen haben, oder sie eben von einer Webseite herunterladen wollen. Ich habe die Datei lokal vorliegen, sie liegt in unserem Projektordner und heißt userprofile. Ich gehe auf diese Datei, klicke öffnen und habe hier allerlei Möglichkeiten. Ich kann als Erstes die Zeichenkodierung festlegen, aber die wird meistens schon automatisch richtig erkannt. Ich kann entscheiden, ob meine Daten eine Überschrift haben oder nicht. Im Falle eines DataFrames, und ich möchte gerne aus diesen Daten einen DataFrame erzeugen, das heißt Variablen mit variablen Namen, habe ich eine Überschrift. Würde ich eine reine Matrix importieren, hätte ich keine Überschrift. Der Zeilenname wird automatisch erkannt, es kann ausgewählt werden was der Seperator ist, also Komma oder Semikolon, Whitespace geht auch oder Tab, dann die Dezimalzahl als Punkt oder als Komma und so weiter und so fort. Haben wir Kommentare Nein. Wichtig ist für uns nur noch hier unten unsere Missing Various, also die Werte, die not available, nicht verfügbar sind, werden mit einem Fragezeichen gekennzeichnet. Außerdem mussen wir noch entscheiden, ob wir die Strings also die Zeichenketten als faktoren haben wollen. Ja, das wollen wir auf jeden Fall, das erleichtert uns ungemein das Leben bei der Auswertung der Daten. Import. Und jetzt öffnet sich hier oben ein Tablo, und wir sehen unsere Daten wunderschön in dieser Tabelle aufgelistet, können sie entsprechend sortieren, anschauen wie auch immer. RStudio hat automatisch view(userprofil) ausgeführt. Wir haben einen neuen DataFrame und dieser Dataframe heißt genau so wie die Datei userprofile. Und Sie sehen auch hier schon den Befehl zum Einlesen Ihrer Datei, das ist read.csv, dann geben Sie den FAT an, wo die userprofile beziehungsweise wo Ihre Datei liegt, und sagen noch, dass Ihre Missing Various entsprechend als frei gezeichnet oder not available, oder als Leerzeichen oder wie auch immer gekennzeichnet sind. Hätten wir Seperator Semikolon ausgewählt, würde hier hinten noch sep gleich und dann Semikolon stehen. In Ordnung. Wir wollen jetzt diese Datei wieder exportieren. Erstellen Sie dafür eine Skriptdatei, indem Sie auf dieses kleine Plus klicken, R Script und speichern Sie das Ganze unter Export, und Sie sehen an unserem Arbeitsverzeichnis wurde eine neue Skriptdatei eingelegt. Export eines Dataframes. Auch hierzu gibt es verschiedene Möglichkeiten. Angenommen Sie haben diesen Dataframe Userprofile überarbeitet, haben einige Spalten hinzugefügt, einiges gelöscht, wie auch immer, und Sie wollen das Ganze dann als userprofile_2 oder userprofile_neu abspeichern. Das können Sie mit dem Befehl write.table machen, und Sie sagen, Sie wollen diesen Dataframe userprofile abspeichern, und zwar unter einer neuen Datei, hier legen Sie einfach jetzt an, jetzt können Sie sich entscheiden, ob Sie als Textdatei, also TXT oder vielleicht wieder als CSV-Datei das Ganze abspeichern möchten. Wir haben keine Zeilnamen spezifiziert, wir haben lediglich ja Numern als Zeilnamen und wenn wir diese Nummern unterdrücken wollen, dann schreiben wir rownames=false, andererseits würden die halb einfach mit exportiert werden. Wir können nun ein bisschen experimentierfreudig sein und sagen, getrennt soll das Ganze werden mit Semikolon, und Dezimalzahlen sollen entsprechend durch ein Komma getrennt werden. Und das reicht im Grunde schon aus, markieren Sie das alles. Ja, hier habe ich einen Fehler gemacht, deswegen kommt die Fehlermeldung, row.names und jetzt muss das funktionieren, mit SCEGR. Ok, wir sehen schon, wenn wir hier auf Files klicken, dass unsere neue Datei userprofile_neu.csv in dem Arbeitsverzeichnis unsere Projektdatei angelegt wurde. Jetz kann ich diese Datei einfach mal aufmachen, und so sieht das Ganze dann aus. Hier hatten wir als Trennzeichen für die Spalten das Semikolon gewählt und das Trennzeichen für die Dezimalzahlen das Komma, das wurde alles richtig erkannt, und mein System ist jetzt noch auf deutsch eingestellt, deswegen konnte Exel die einzelnen Variablen gleich in einzelnen Spalten zuordnen. Was wir auch sehen, wir haben jetz nicht explizit bestimmt, wie die Missing Various aussehen sollen. Wir haben nicht extra bestimmt, dass die Missing Various als Fragezeichen gekennzeichnet werden sollen, deswegen steht jetz hier überall not available, wo eben kein Wert verfügbar ist. In diesem Video haben Sie gelernt, wie Sie Daten importieren und wie Sie Daten auch wieder exportieren können. Wenn Sie die Daten dann auch entsprechend als Dataframe vorliegen haben, dann können Sie schon damit herumspielen, Sie können Mittelwerte berechnen, Mediane, Sie können jetzt Häufigkeitstabellen bilden, Sie können die ersten Plots entwickeln und so weiter und so fort. Natürlich konnte der Kurs Ihnen jetzt nur nicht alles zeigen. Wenn Sie noch mehr Informationen möchten, dann gehen Sie bitte auf die Seite von cran.r-project.org. Gehen Sie auf Task Views und suchen Sie sich Ihr Thema heraus. Wenn Sie gerne schöne Grafiken erstellen wollen, aber Ihnen jetzt nur nicht genügend zu dem Thema Grafiken gesagt wurde, und tatsächlich es gibt tausende Möglichkeiten in R Grafiken zu erstellen, gehen Sie immer auf Task View, Graphics, schauen Sie sich an was es noch alles für tolle Packete gibt, die Ihnen helfen, die richtigen Grafiken für Ihr Problem zu erstellen. Oder schauen Sie einfach noch was Sie unter Cluster, Genetics, Multivariate und so weiter und so fort finden. Ich wünsche Ihnen viel Spaß mit R, und nutzen Sie die Zeit beziehungsweise nehmen Sie sich die Zeit in Ruhe einfach mal mit dem Programm und mit seinen Möglichkeiten zu spielen.

R und RStudio Grundkurs

Lernen Sie, wie Daten mit der Programmiersprache R statistisch ausgewertet, geplottet und exportiert werden können.

2 Std. 29 min (16 Videos)
Derzeit sind keine Feedbacks vorhanden...
Software:
R R 3
Exklusiv für Abo-Kunden
Erscheinungsdatum:17.11.2016

Dieser Online-Kurs ist als Download und als Streaming-Video verfügbar. Die gute Nachricht: Sie müssen sich nicht entscheiden - sobald Sie das Training erwerben, erhalten Sie Zugang zu beiden Optionen!

Der Download ermöglicht Ihnen die Offline-Nutzung des Trainings und bietet die Vorteile einer benutzerfreundlichen Abspielumgebung. Wenn Sie an verschiedenen Computern arbeiten, oder nicht den ganzen Kurs auf einmal herunterladen möchten, loggen Sie sich auf dieser Seite ein, um alle Videos des Trainings als Streaming-Video anzusehen.

Wir hoffen, dass Sie viel Freude und Erfolg mit diesem Video-Training haben werden. Falls Sie irgendwelche Fragen haben, zögern Sie nicht uns zu kontaktieren!