Da ich jetzt beruflich recht viel mit recht grossen Datenmengen (lies Milliarden Zeilen) von Transaktionsdaten (Migros/Denner) zu tun habe, muss ich mir doch mal vorher Gedanken um die Effizienz von Berechnungen machen, bevor ich einfach ein R-Skript schreibe und ausführe.
Manche Sachen laufen einfach nur vernünftig in der Datenbank (Teradata), andere auf der Google-Infrastruktur (Big Query), beides wird mit herkömmlichem SQL angesprochen und aggregierte Daten kann ich dann lokal weiterverarbeiten. Persönlich favorisiere ich ja das Ökosystem und die Denkweise von Hadley Wickhams Paketen, darunter ggplot2, BigRQuery und zuletzt dplyr. Letzteres ist eine Art Konkurrenzpaket für grössere Datenmengen zu data.table, bei dessen Autoren Matt Dowle und Arun Srinivasan ich gerade zu Gast in einem Workshop in London bin.
Es scheint, als ob data.table noch schneller als dplyr ist, aber ich werd’s dann noch mal ausprobieren. Ich bin einfach schon die vielen Packages und die Denkweise von Hadley Wickham gewohnt.
Morgen startet dann die EARL-Konferenz. Eine der wenigen Konferenzen, wo ich primär wegen der Inhalte und sicher nicht wegen des Orts bin. London ist einfach nur laut und gross und nervig. Ich will Kühe, Gras, Berge und Ruhe, und schnelles Internet gibt’s auch in der Ostschweiz 🙂
Siehe letzten Beitrag; schööön!