What’s a data scientist to do during a solar race, being embedded into a team of engineers and drivers, you may think? Well, if normal telemetry (as used by nowadays’ cars) is providing you with streams of data, a data scientist turns this into useful information. You’re essentially going from answering the question How fast are we driving? via How far can we go at that speed? to Where’s that going to rank our team in the end under different weather conditions for the next five days? This article will explain a few details of that job and may hopefully give you an idea of what all those data scientists do.
Auf dem Weg zum Flughafen Leipzig/Halle (mit ÖV) sind mir gestern mehrere Dinge aufgefallen. Nach einem nicht barrierefreien (neuen) S-Bahnhof am Samstag ist am Sonntag erstmal die S-Bahn mit 45 Minuten Verspätung gefahren, laut Aussage der Servicemitarbeiterin wegen eines polizeilichen Einsatzes in Zwickau aufgrund eines herrenlosen (Nebenbemerkung: wieso nicht damenlosen?) Gepäckstücks. Wie kann eine S-Bahn in einer Halbmillionenstadt und einem Ballungsraum, die (schlimm genug: nur) im Halbstundentakt fährt, denn eine 45-minütige Verspätung haben? Da fährt doch zwischendurch schon eine andere bzw. eigentlich sollte ein Betreiber genügend Wagenmaterial und Personal in Reserve haben, um einen anderen Zug in Leipzig bereitzustellen, wenn einer in Zwickau steckt. Sparclowns…
Aufgrund der ausgefallenen S5(X) hatte ich aber das Glück, mit einem der neuen Doppelstock-ICs der DB zu fahren. Mal davon abgesehen, dass da schon Graffiti-Hirnis am Werk waren, die die brandneuen Züge vandalisierend besprüht haben, fiel mir doch schon beim Einstieg extrem negativ auf, dass es zwei Stufen sind. Welches Jahr haben wir nochmal? Bei der Fahrt war dann noch auffällig, dass ein extremer Lärmpegel (zumindest im Vergleich zum IC2000) herrschte. Schlecht isolierte Verbindungstüren. Das sind eigentlich nur bessere S-Bahn-Doppelstockwagen und von denen sind sie ja wohl auch abgeleitet, wenn ich dem Artikel Bombardier Twindexx glaube. Noch dazu sind es lokbespannte Züge und auch das ist schon lange nicht mehr Stand der Technik. Über das fehlende Restaurant kann man sich streiten, aber das ist dann auch nicht mehr wichtig.
Damit ist die DB noch nicht mal auf dem Stand des IC2000 angekommen, der seit 1997 verkehrt und schon immer Niederflur-Einstiege (und auch dazu passende Bahnsteighöhen/Perrons, vielleicht fehlen die in Deutschland) hat. Es kommt wohl immer drauf an, was man bestellt. Die SBB haben jedenfalls von Bombardier genauso die Twindexx bestellt, aber halt in der Schweizer Variante: Twindexx Swiss Express. Das bewährte Konzept mit Niederflureinstieg und der Durchgangsebene im Oberstock wird wohl beibehalten, aber jetzt halt als Triebzug 🙂 Nur leider nicht von Stadler Rail, die könnten das auch.
So ungefähr wie in dem Bild sieht’s am späten Nachmittag vor der Rückfahrt aus. Schön leerer ICN, weil auf dem Gleis rechts kurz vorher der Schnell-IC nach St. Gallen abgefahren ist.
Nach den ersten anderthalb Monaten ist der neue Job doch ziemlich angenehm. Schickes Büro, recht gut gelegen, wenn man keinen Wert drauf legt (so wie ich), unbedingt tausend Restaurants und Läden drumherum zu haben. Pflanzen hab ich schon massig angeschleppt, das gehört einfach dazu. Nette Kollegen gibt’s auch, fachlich sehr gut ausgesucht und menschlich genauso. Die anderen Mobiliar-Leute sind auch irgendwie alle halbwegs gut drauf*. Ich hoffe, die anderen denken das Gleiche von mir 🙂 Es gibt auch was zu tun, die Laptops sind halbwegs eingerichtet, die IT ist sehr verständnisvoll und scheint auch flexibel. Grosse Hardware und zentrale Server können wir jedenfalls haben.
Den Arbeitsweg hatte ich schon in den letzten Monaten des alten Jobs evaluiert: mit dem Zug und Velo bis zum Flughafen und von dort auf zwei Rädern weiter, eventuell mit Umweg, so dass ein paar Bewegungskilometer zusammenkommen. Das geht jetzt im Winter genauso weiter, wie üblich mit Spikes. Nach der Arbeit geht’s dann mit dem Velo bis zum Bahnhof (Zürich HB) und von dort mit dem Zug zurück. Die einzige Unwägbarkeit ist der Fahrplanwechsel vom Sonntag, weil ich nicht vollständig weiss, was dann für Rollmaterial eingesetzt werden wird. Einige Quellen sagen, der Doppelstöcker (IC2000) fährt nicht mehr (bzw. fährt ohne Halt von St. Gallen bis Winterthur), andere meinen, der Doppelstöcker fährt ja noch. Die Frequenz der Züge wird jedenfalls nicht abgebaut und es gibt sogar eine durchgehende S-Bahn um 17:27 von Oerlikon nach Wil.
*das bedeutet soviel wie alles im grünen Bereich oder bisher keine Vollpfosten getroffen, ist also positiv zu lesen.
-4°C morgens, perfektes Velowetter, da trocken und sonst niemand unterwegs.
Sonnenuntergang 11.12., reformierte Kirche und Glärnisch im Hintergrund
Das Wetter spielt hier schon lustige Kapriolen. Den allgegenwärtigen und seit Jahrhunderten normalen Föhn bin ich ja inzwischen gewohnt, mit diesem kann’s auch im Winter mal zweistellige Celsius-Temperaturen geben. Aber dass man im November noch warme Velotouren (nicht im Tessin) machen kann und ich diese Woche noch in Bern in der Mittagspause mir mit T-Shirt fast einen Sonnenbrand geholt habe, ist doch nicht ganz normal.
Weil es jetzt auch so lange trocken war, hab ich mich doch noch mal entschlossen, einen schon lange gelösten Geocache (GC37RT2 (Im Park)anzugehen. Ich wusste, dass der unterirdisch sein würde. Der Krebsbach, der in Wil ein paar Meter nach dem Weier unterirdisch verschwindet, taucht irgendwo wieder auf, ist also vollständig verrohrt unter der Stadt. Dort, wo der Bach wieder auftaucht, muss man in den Tunnel einsteigen. Eben wegen der Trockenheit geht das momentan recht bequem mit Badelatschen und kurzer Hose.
Am 17.11. noch mit Badelatschen in den Krebsbach.
Dann folgen etwa 250 Schritte im Tunnel, bevor es im 10m langen Rohr recht eng wird (ja, da muss man durch). Danach zeigt sich ein vielleicht 3x3m grosser Raum und dort drin ist der Cache versteckt.
100-200m nach dem Tunneleingang wurde es für 10m noch enger.
Die SBB haben derweil schon auf Winterbetrieb umgestellt. Das bedeutet weniger Platz für antizyklisch Veloreisende wie mich. Auch ganz interessant: da ich jetzt nach Oerlikon muss, ist die morgendliche Fahrt (mit Velo im Zug) zum Flughafen und von dort die Runde nach Oerlikon ganz passend, im Minimum 6.5km. Wenn man natürlich noch Caches suchen geht, wird’s länger. Und wenn man dabei das Portemonnaie im Wald verliert (weil die Travel Bugs ganz unten in der Tasche sind), das erst im Büro bemerkt und dann nochmal zurückfährt, wird’s noch länger. Aber besser 10km mehr gefahren als Stress mit dem Sperren und Neubeantragen von Karten. Ab dem Fahrplanwechsel gibt es den morgendlichen Direktzug Wil-Oerlikon nicht mehr (07:11 Uhr, eh viel zu früh), dafür gibt es aber neu einen direkten Zug um 17:37 in der Gegenrichtung, wie ich festgestellt habe. Die Umsteigeverbindungen sind alle halbe Stunde 46 und 49 Minuten lang, da kann man auch nicht meckern.
SBB mit saisonaler Skihalterung (ein Rollkoffer ist sicher ein Ski) — ich wieder antisaisonal unterwegs.
Noch in der warmen Morgensonne wurde schon die Weihnachtsbeleuchtung in der Altstadt aufgehängt. Ich dachte schon, die Männer wollten den Blauregen beschneiden.
Weihnachtsbeleuchtungsmontage in der warmen Morgensonne
Der Wintereinbruch folgte gestern, wie angekündigt. Endlich monatsadäquates Wetter.
Schneefall am 21.11., Weihnachtssterne sind montiert
Ein bisschen saisonal bin ich dann doch — aber das Velo wird nicht eingemottet, sondern nur für Winterbetrieb fitgemacht.
Spikemontage am 22.11.
Nächste Woche bin ich öfter in Thun, beim Mobiliar Forum Thun. Ich würde da ja mindestens einen Bindestrich dazwischensetzen, aber das interessiert eh keinen.
Das Bild spricht, denke ich, für sich selbst. Es sind mindestens drei Fehler vorhanden (fehlende Bindestriche zählen auch). Wenn ich mir dann den dritten Punkt in den Empfehlungen so anschaue, bin ich mir nicht sicher, ob ich den Online-Kurs noch weiter belegen soll. Könnte ja aus krimineller Quelle stammen.
Ich hab jetzt schon einige Sicherheitsempfehlungen und -system von Firmen gesehen. Bitlocker für Festplatten ist wohl Standard, auch die Authentifizierung mit Smartcard (=Badge). Um die Smartcard freizuschalten, braucht man natürlich immer ein Passwort und das muss sicher gewählt sein. Meistens gibt es für Windows und für die Smartcard zwei (theoretisch) verschiedene Passwörter. Natürlich wird gleich mal empfohlen, das Windows- und das Smartcard-Passwort einander anzugleichen. Das allein ist schon eine Sicherheitslücke, wenn auch keine grosse, solange das Passwort sicher gewählt ist, nirgends anders verwendet und vielleicht noch regelmässig geändert wird. Witzig ist dann aber der Hinweis auf dem Willkommensblatt, dass ich doch das Passwort beispielsweise auf den gleichen Wert wie die PIN meiner EC-Karte setzen solle. Ähm, hallo? Das widerspricht ja allen Sicherheitsregeln. Wenn jemand mein Windows-Passwort klaut, kann er gleich noch Geld abheben. Oder wenn jemand mich beim Geldabheben beobachtet, kann er mir hinterher gleich noch den Laptop klauen (Portemonnaie hat ja die Smartcard drin) und dann Daten aus dem Firmennetzwerk absaugen.
Als ob das nicht schon widersprüchlich genug wäre, hab ich natürlich (wegen vier neuer Hochsicherheitspassworte inklusive PIN-Briefen etc.) gleich mal das falsche Passwort eingetippt und damit meine Smartcard gesperrt. Also musste ich bei der Hotline anrufen. Wie das bei modernen Firmen so zu sein scheint, haben wir aber ausschliesslich den Laptop als Arbeitsgerät und das Telefon hängt an diesem dran und läuft (per Headset) nur dann, wenn man auch im Windows angemeldet ist. Was mache ich jetzt, wenn ich mich nicht anmelden kann? Den Servicedesk kann ich ja nicht erreichen… Na gut, es gibt ja Arbeitskollegen. Also mit dessen Headset die Hotline angerufen. Die Passwort-Rücksetzprozedur funktioniert dann sogar absolut hochsicher mit Challenge-Response, d.h. ich muss einen 16-stelligen Hexadezimal-Code per Telefon durchgeben und kriege einen 16-stelligen Hex-Code zurück, den ich eintippe und kann dann ein neues Passwort setzen. Der Hotline-Mitarbeiter hatte allerdings keine Ahnung, dass das Hexadezimal war, sonst hätte er mich zum Verständnis nicht gefragt, ob ich “D” oder “G” gesagt habe. Nachdem ich dann im NATO-Alphabet buchstabiert habe, ging es reibungslos. Immerhin nicht A wie … im August 2012.
Keine theoretische Sicherheit der Welt nützt was, wenn man die Benutzer nicht dazu zwingt, mitzumachen. Andererseits bringt’s auch nichts, wenn die Hotline den halben Tag damit verbringt, Passworte der Benutzer zurückzusetzen und sich alle beschweren.
Da meine Mikrowelle schon immer total nervig piepst, mir das jetzt aber wirklich mal auf den Zeiger ging, hab ich sie nachhaltig (aber reversibel) entpiepst. Erst dachte ich ja dran, den Piepser nur etwas leiser zu machen. Aber erstmal hab ich die Mikrowelle geöffnet. Das ist ja nichts Neues, ich tendiere sowieso dazu, alle meine Haushaltsgeräte erstmal zu öffnen. Meist krieg ich sie auch wieder zu, ohne dass was übrigbleibt.
Bedienpanel abgeschraubt
Das Bedienpanel war relativ leicht zu lösen, nachdem ich die zuständige Schraube gefunden hatte (oben mittig, Rückseite vom Panel). Ich war grad dran, alle Kabel abzuziehen, als mir der grosse Piepser schon ins Auge stach. Also hab ich die Kabel drangelassen und gleich mal probiert, wie ich den leiser bekomme. Draufdrücken hätte funktioniert, abkleben mit Duct-Tape ging nicht so besonders gut. Also religiös-radikal: Pinbeschneidung. Knips. Ruhe.
Der Piepsübeltäter und die Entpiepsmassnahme.
Wahrscheinlich werde ich das Teil noch mal öffnen müssen, weil der Drehknopf für die Zeiteinstellung vermutlich optisch abgetastet wird (wie der Scrollring an meinem Trackball) und da Staub drin ist, so dass er nicht mehr sauber und diskret springt, sondern beim Drehen unkontrollierbar hüpft und damit die Zeit nicht voraussehbar herumspringt.
Ich bin jetzt im Herbst fleissig mit dem Velo und zu Fuss unterwegs. Dabei zeichne ich mit der App von sensorly gleich noch die Salt-Netzabdeckungskarte fürs 4G-Netz auf. Weil die tollen modernen Züge aber das GPS-Signal recht gut blocken und es nur in Fensternähe halbwegs akzeptabel wird, muss halt das Smartphone ans Fenster. Nur die ganze Zeit den Arm hochhalten wollte ich auch nicht. Also: die Magnethalterung an die Türstange (zwischen Wil und Flughafen kein Ausstieg auf der Seite) geklemmt und schön GPS und 4G-Netzstärke aufgezeichnet.
Die Smartphonehalterung vom Velo am Zug befestigt.
In der Mittagspause war ich dann zum Üetliberg unterwegs und hab auf dem Abstieg (zu Fuss) gleich noch zwei schicke Geocaches gefunden. Der Aufstieg war mit der SZU ziemlich bequem.
Der Blick vom Üetliberg.
Auf den morgendlichen Touren vom Flughafen via Rümlang, Affoltern und/oder Höngg hab ich jetzt auch schon relativ viele Geocaches abgegrast. Die Flughafenauswirkungen (Abgase, Kerosin (?), Lärm) bemerkt man noch recht weit weg. Trotzdem ist alles nur ein paar Kilometer von Zürich weg sofort sehr ländlich.
Hmm, ein Abschnittsbevollmächtigter von früher?
Und ja, die herbstliche Aussicht vom Balkon zum Sonnenaufgang ist auch nicht zu verachten. Neulich waren die Berggipfel schon frisch geschneepudert, inzwischen ist davon nichts mehr zu sehen.
Der morgendliche Blick von Balkon/Schlafzimmer/Wohnzimmer.
Der Titel klingt ähnlich wie Schwerter zu Pflugscharen, aber technisch geht’s nur darum, die knapp 340’000 Hektarrasterzellen vom BfS (mit Bevölkerung/Haushalten) bestimmten Postleitzahlen zuzuordnen. Sicher gibt’s die Zuordnung schon irgendwo, aber man kann sie ja auch berechnen. Ein Anwendungsfall wäre, dass man pro Postleitzahl die Bevölkerung ausrechnen möchte, aber nur die Zählung pro Hektarrasterzelle hat. Ein weiterer Anwendungsfall, etwas allgemeiner: ich möchte für einen beliebigen Flächenumriss wissen, wieviele Leute dort wohnen, das könnten also auch Gemeindegrenzen, Kantonsgrenzen, Verkaufsgebiete o.ä. sein.
Damit lässt sich schon mal eine Karte der PLZ erstellen. Im QGIS sind das drei Layer: PLZ-Polygone, Wasserwege und Bahnlinien, bisschen Transparenz, passende Farben, fertig.
Dazu kommen dann die BfS-Hektarrasterzellendaten z.B. aus STATPOP, wie bereits hier schon verlinkt: Grenznäheberechnung mit R. Erstmal gucken wir uns die Hektarrasterzellendaten im GIS an und stellen ein Problem fest:
PLZ-Polygone und Hektarrasterzellen als Punkte.
Die Hektarrasterzellen sind aber Zellen von 100x100m, also geometrische Flächen, keine Punkte. Dementsprechend ungeeignet sind sie für die Berechnung eines Verschnitts von HR-Zellen und Postleitzahl-Polygonen. Eine Umwandlung der Hektarraster-Punkte in Hektarraster-Polygone ist notwendig. “Klingt komisch, is aber so”, um es mal mit der Sendung mit der Maus zu sagen.
Nach ein bisschen Berechnung und Umwandlung (auch in R, kombiniertes Skript s.u.) sieht die Karte schon viel schöner aus:
PLZ-Polygone und Hektarrasterzellen als Polygone. Grossraum Zürich.
Ein Kartenausschnitt zeigt es noch deutlicher, dass die Punkte jetzt Polygone mit scharfen Grenzen sind:
Kartenausschnitt Zürich Hardbrücke, PLZ und Hektarrasterpolygone.
Jetzt sind die PLZ-Polygone und die Hektarrasterzellen-Polygone in der Form, die es braucht, um eine Überschneidung zu berechnen. Da treten wieder zwei Fälle auf: einerseits kann eine HR-Zelle vollständig in einer Postleitzahl liegen; andererseits kann sie zu mehreren PLZ gehören. Der Einfachheit halber wird am Ende also eine Tabelle ausgegeben, die zu jeder HR-Zelle eine Postleitzahl aufführt und den Zugehörigkeitsgrad zu dieser PLZ. Den flächenmässigen Verschnitt habe ich nicht weiter berücksichtigt. D.h. wenn eine HR-Zelle sich mit drei PLZ überschneidet, dann bekommt sie einen Zugehörigkeitsgrad von jeweils 1/3 zu jeder der PLZ.
Für die Berechnung des Verschnitts gibt es die R-Funktion “over” aus dem allseits bekannten sp-package. Die scheint nicht besonders effizient zu sein oder es dauert einfach ziemlich lange. Aber mit Parallelisierung geht’s wiederum in akzeptabler Zeit und auch hier muss man das ja nicht permanent neu berechnen, sondern macht es nur einmal.
Selektion von Hektarrasterzellen nach Postleitzahl jetzt möglich.
Eine Beispielausgabe des Skripts kann jetzt so aussehen: CSV-File (Sample). RELI der HR-Zelle, PLZ, Zugehörigkeitsgrad und als Zahlenbeispiel die Totalbevölkerung der Zelle (gewichtet und ungewichtet).