Sprachstatistik der Schweizer Statistiktage 2021

Wenn man eh grad Zug fährt, kann man sich ja auch mal die aufgezeichneten Videos der Schweizer Statistiktage 2021 anschauen und von Hand alle 75 Vorträge nach Foliensprache, Vortragssprache und Moderationssprache kategorisieren 🙂 Fun. Oder Fönn auf Berndeutsch.

Code, Grafiken und Datensatz gibt’s drüben bei github: https://github.com/datacyclist/sst21 Die Moderationssprache hab ich noch gar nicht mit ausgewertet, aber auch so war’s schon nett, nochmal die gefühlte Sprachmischung in den Zahlen bestätigt zu sehen. Das BfS bzw. OFS hat da häufiger knallhart bilingue durchgezogen.

Deutsch führt vor Englisch und Deutsch_Französisch.
In einem Fünftel der Vorträge haben die Sprache der Folien und die Sprache des Vortrags nicht zusammengepasst. Könnte man noch genauer auswerten.

Interessanterweise hat die Farbskala Set2 von RColorBrewer in den Grafiken oben ziemlich viel Ähnlichkeit mit derjenigen des Statistischen Atlas Schweiz, den ich im letzten Beitrag erwähnt hatte. Und auf die Eignung für Farbenblinde hab ich auch gleich noch geachtet — es steht sogar direkt bei den Farbpaletten mit dabei, man muss es halt nur beachten. Das sind dann wohl zwei wertvolle Take-Home-Points der Konferenz.

Schweizer Statistiktage [3]

Am dritten Tag der SST21 kam für mich nicht mehr viel, bzw. einige Sachen muss ich noch in den Videos nachschauen. Wenn ich’s schaffe, mache ich damit auch noch eine statistische Auswertung zu den Sprachen der jeweiligen Vortragsfolien und der Vortragenden. Aber der statistische Atlas 1914-2014 des BfS ist bestellt.

Diese einfachen Grafiken rücken den aktuellen Corona-3G-Impf-Knatsch doch etwas in eine andere Perspektive. Von Todesfällen wegen Scharlach, Masern und Diptherie redet heute wohl niemand mehr. Und die Zahlen in der Grafik müsste man etwa mit dem Faktor 2.5 multiplizieren, weil damals nur 3.3 statt heute 8.5 Mio Menschen in den Landesgrenzen lebten — umgerechnet 15’000 Tote im Jahr allein durch Tuberkulose. Wir haben aktuell während der gesamten Pandemie “nur” 10’558 Tote durch/wegen/mit Covid-19 (Zahlen vom 09.09.)

Und es ist sehr angenehm mit der 3G-Zertifikats-Kontrolle am Eingang. Hat was von der Einführung des Rauchverbots in Kneipen, und es sind vermutlich sogar ähnliche Leute, die sich drüber aufregen.

Schweizer Statistiktage [2]

Wenn sie in Lugano mal nicht die Hauptstrasse an der Seepromenade entlanggelegt hätten, wäre es deutlich angenehmer, sich dort zu bewegen. Um die Jahreszeit ist es mir hier aber immer noch etwas zu warm. Inhaltlich ist natürlich wieder nicht alles mitzunehmen, aber ich hab wieder gute Ideen zu Datenvisualisierungen notiert und sollte auch so einfache Sachen wie Barrierefreiheit bedenken — da gehören auch Farbskalen dazu, die ich vielleicht nicht mit Rot und Grün, sondern lieber mit Rot und Blau machen sollte. Es sind ziemlich viele Behörden und öffentliche Arbeitgeber hier, die sind gesetzlich dazu gezwungen und das macht für alle Menschen Sinn, es gleich richtig zu machen, zumal es mich ja nicht mal einschränkt bei meinen Auswertungen.

Unser Departementsvorsteher des EDI, Bundesrat Alain Berset, war zu einem Kurzbesuch auch da, hat uns 20 Minuten zweisprachig was darüber erzählt, wie wichtig gute, korrekte Daten und Statistiken sind, grad jetzt in der Pandemie (natürlich aber auch sonst). Dass er Humor hat, weiss man ja. Er wurde anmoderiert, dass er neulich in einem Interview auf die Frage, ob er wisse, was es denn in der Covid-Impfung für Inhaltsstoffe drin habe, geantwortet hat: “Nein, aber sicherlich kein Haarwuchsmittel.”

Interessant war auch der Vortrag zur AHV-Statistik, wie die Renten berechnet werden und wie sich Beitragsjahre, Witwenrenten, Plafonierung etc. auswirken. Kannte ich alles schon, war aber schön, das nochmal in Zahlen und Grafiken aufbereitet zu sehen. Die Umverteilung in der AHV ist massiv und aus meiner Sicht okay so. Je nach politischer Einstellung wird halt was anderes behauptet, aber die Zahlen lügen ja nicht. Muss mal noch rauskriegen, in welche Kategorie (CH oder Ausländer) sie Leute reinrechnen, die mehrere Staatsbürgerschaften haben oder ob die umgruppiert werden, wenn sich da was ändert. Jedenfalls werden 68% der AHV ins Inland und entsprechend 32% der Summe ins Ausland ausgezahlt. Weitere Zahlen sind alle online: https://www.bsv.admin.ch/bsv/de/home/sozialversicherungen/ahv/statistik.html

Vor ein paar Jahren wäre das noch nicht möglich gewesen, aber dank Ceneri und GBT kann ich sogar Lugano um 15:02 mit dem Giruno verlassen, um 17:30 an einem Debriefing-Apéro zur SDS2021 in Zürich sein und bin dann um 22:58 Uhr wieder in Lugano für den letzten Konferenztag morgen. Sag noch einer, dass neue Verkehrswege keinen Mehrverkehr erzeugen. Funktioniert mit Velowegen auch, aber bis das die Stadt Wil begreift, dauert’s noch Jahre.

Schweizer Statistiktage [1]

Da ich ja in der täglichen Arbeit zwar als Data Scientist zähle, aber viel mehr mit Statistik als mit Machine Learning zu tun habe, bietet sich mal ein Besuch der Schweizer Statistiktage an. In Lugano war ich ja sonst auch eher liegend auf der Durchreise, diesmal also auch mit Übernachtung am See. Ich hab schon erstaunlich viele bekannte Gesichter gesehen, von Meetups und ähnlichen Treffen im Land. Rein sprachlich ist das eh der Hauptgewinn, man sollte davon ausgehen, mit jeder Landessprache in Berührung zu kommen, plus Mundart und Englisch. Da kommt dann auch die Einleitung zum Grusswort auf Deutsch, das Grusswort auf Italienisch, die Keynote auf Englisch, beim Essen changiert man von Französisch zu Deutsch und umgekehrt und vorlaute Zürcher hört man auch. Kein Wunder, bei der Bahnanbindung ist man ja in 2h da.

Der Keynote Speaker Jürgen Schmidhuber wurde grad live von der Bühne aus angerufen und war noch mit dem Velo unterwegs. Sympathisch, und erzählt gleich erstmal n Witz 🙂

Ach ja: das erste Mal ein 3G-Event. Zertifikat am Eingang vorweisen und dann ist drin alles wie vor Covid. Mal schauen, was der Bundesrat Berset uns morgen so als halbstündige Keynote hier erzählen wird. Und ob er die Konferenz hier als positives Beispiel für die Zertifikatspflicht (die möglicherweise am Mittwoch von oben beschlossen wird) heranzieht.

#SDS2020 — behind the scenes

Meine vierte Swiss-Data-Science-Konferenz ist vorbei, zuerst war ich 2017 dabei, letztes Jahr im Sommer im Kursaal in Bern auch schon hinter den Kulissen. Ich hatte sogar schon vergessen, dass damals 2017 David Kriesel dabei war, der ja beim 36C3 (Ende 2019, kein Blogbeitrag) seinen genauso unterhaltsamen Vortrag zum Thema BahnMining hatte.

Aufgrund der Umstände wurde Ende April schon entschieden, die SDS2020 statt im KKL Luzern prinzipiell online stattfinden zu lassen. Damit das aber in einem professionellen Rahmen geschieht, wurden professionelle Audio-/Video-/Übertragungsstudios von habegger.ch gemietet und genutzt. Insgesamt: es war klasse, hat im Wesentlichen total reibungslos funktioniert und war genauso unterhaltsam wie eine Vor-Ort-Konferenz. Die Teilnehmerzahlen waren mit >400 auch im ähnlichen Rahmen wie sonst.

Technisches:

  • die Speaker, die vor Ort im Studio (in Regensdorf ZH) waren, wurden dort ganz normal gefilmt, und die professionell aufbereitete Videokombination (Folien plus Kamera) wurde per Livestream an die Teilnehmer geschickt.
  • die Speaker, die aus der Ferne zugeschaltet waren, wurden per MS Teams hinzugeholt. Das Videobild plus die Folien wurden wiederum abgemischt und im Livestream versendet.
  • es gab drei parallele Livestreams (=drei Sessions); eine aus dem ganz grossen Studio 1 und zwei aus kleineren Studios, die ungefähr 20qm hatten und genauso voll mit Technik waren
  • Jede der Sessions wurde von mindestens zwei Technikern betreut plus einem Moderator und einem Talque-Beobachter für den Live-Chat mit Fragen zum Vortrag (das war meine Rolle)
  • Für die normalen Konferenzteilnehmer lief alles über die talque-Plattform (Videos/Streams, Chat/Fragen zum Vortrag, Matchmaking aller Teilnehmer aufgrund von Interessen, private Chats, Online-Postersessions etc.)

Impressionen Aufbautag 25.06.

Im Studio 1 hatten wir einen professionellen Moderator mit Fernseherfahrung, das war deutlich zu merken. Ganz ungezwungen und als ob er das jeden Tag machen würde, stand er vor der Kamera und hätte mit Standup-Comedy auch locker einen Speaker-Ausfall überbrücken können. Er hat in der Probe schon folgendes gesagt:

[…] you may know me from TV… or from Tinder, I’m quite active there as well […]

Das kam dann auch in der Live-Anmoderation am Freitag so 🙂 Leider konnte ich seinen Text nicht immer verfolgen, ich war ja für Stream 3 zuständig.

Impressionen Konferenztag 26.06.

Die Techniker von der Bildregie sassen draussen in ihrem Ü-Wagen, es lief aber nichts über Satellit/Funk, sondern alles über eine normale 1GBit/s-symmetrische Leitung (wie ich sie auch daheim habe). Parallel dazu habe ich noch Twitter bespielt unter #SDS2020.

Zum Glück war das Wetter nicht ganz so heiss wie erwartet, es war sowieso schon viel zu warm in den Räumen aufgrund der vielen Technik.

Einen Mobiliar-Beitrag gab’s auch, Chefchef nicht in Rot wie ich.

Die Konferenz war perfekt durchorganisiert, der Vorbereitungsaufwand von Gundula und Team war enorm. Ich hab ja schon öfter mal Sessions an einer Konferenz moderiert, aber da musste ich mir die Fragen selbst ausdenken — das war hier hingegen alles schon vorbereitet, nur die Live-Fragen aus dem Chat musste ich (leserlich+handschriftlich) auf Moderationskarten notieren und Cristina reinreichen. Dort, wo viele Menschen unterwegs waren, wurden Masken getragen, in anderen ungefährdeten Bereichen nicht.

Kloster Iddaburg und Open Data Beer

Als ich neulich so im Tal nach Fischingen hinunterglitt, fiel mir das 200m über mir gelegene Kloster auf, wo ich auch noch nie war. Das gibt nochmal extra Höhenmeter, um bis auf 950m hinaufzufahren, mit 13-14% Steigung. Gute Aussicht gibt’s und auch ein Selbstbedienungsrestaurant. Auffahrt 1:15h, Abfahrt 45min. Der Ottermobilsitz ist jetzt sogar mal knarzfrei, nachdem ich die obere Befestigung neu verschraubt habe. Mal sehn, wie lange.

Aussicht von Kloster Iddaburg übers Toggenburg.

Noch keine Öffnungszeit.

Neu: HDR-Bilder haben jetzt auch Geokoordinaten — total simpel, hätte ich schon früher drauf kommen können:

exiftool -TagsFromFile srcimage.jpg “-all:all>all:all” targetimage.jpg

(ich kopiere einfach alle Metadaten aus einem der Einzelbilder in das neue HDR-Bild hinein).

Gestern abend war ich noch am Hauptsitz der SBB in Wankdorf zum vierten Open Data Beer. Sie hatten doch tatsächlich Quöllfrisch und nicht nur Bärner Müntschi da. Bei dem vorgängigen Vortrag wurde der open data show room der Forschungsstelle Digitale Nachhaltigkeit der Uni Bern vorgestellt, die haben ziemlich viele coole Visualisierungen mit open data gemacht. Hinterher ging es ums Networking und auch da hat es sich gelohnt 🙂

Konferenz: opendata.ch

Ab ins Casinokino
Ab ins Casinokino

Nachdem ich letzte Woche schon auf der ziemlich grossen und unübersichtlichen Kombination aus Messe und Konferenz geosummit.ch in Bern war, war heute die eintägige opendata-Veranstaltung in Lausanne dran. 3h Hinfahrt, 7h Programm, 3h Rückfahrt für jeweils etwa 300km Strecke. Bei 1.8 GB mobilem Datenverbrauch macht das 300 MB auf 100km. Ich finde, das sollte die Ressourcenverbrauchseinheit pro Streckenkilometer sein, nicht sowas ödes wie Wattstunden/km oder Liter/100km. Am besten an der ganzen Veranstaltung war der Vormittag, weil da fast alle Vorträge auf Französisch liefen. Es ist viel einfacher zu verstehen, wenn’s mich inhaltlich auch noch interessiert und ich nicht nur französisches Radio nebenbei höre. Der Unterschied zwischen Westschweizer und französischem Französisch (z.B. vom SNCF-Transparenzmann Guillaume Leborgne) war deutlich zu bemerken. Inhaltlich war die ganze Veranstaltung aber sowieso, wie wenn man Gläubige ein zweites Mal zum selben Glauben bekehren möchte. Stellt’s halt einfach Daten zur Verfügung und die Leute machen dann schon was Sinnvolles draus 🙂

Zum Nachlesen hier der Twitter-Feed zu #opendatach. Ziemlich lustig, wenn alle Speaker ein Twitter-Handle haben und man sich mit seinesgleichen im Konferenzraum über Tweets unterhält. Da landet man dann sogar mal selbst auf Fotos. Und es gab lustige WiFi-Namen.

Continue reading “Konferenz: opendata.ch”

Start Summit 2016

Start Summit 2016
Start Summit 2016

Fast direkt um die Ecke fand letzten Freitag/Samstag das Start Summit 2016 statt, eine Art Messe für Startups. In den Präsentationen kam des öfteren eine Silicon-Valley-Gründeratmosphäre rüber, hatte ich das Gefühl. Irgendwie Faszination, Begeisterung, Verkaufschancen, es wirkte ansteckend. Der Futurist (nette Jobbezeichnung an der Singularity University) José Luis Cordero hat ziemlich viele Themen miteinander verschränkt und zusammengebastelt, häufig mal Exponentialkurven gezeigt und dazu viele Storys erzählt. Von den vielen Ideen in einem der Wettbewerbe hat am Ende Gamaya gewonnen, mit einem Precision-Agriculture-Thema. Fand ich nicht besonders spannend, weil ich sowas ja thematisch selbst länger von den Daten her bearbeitet habe, aber es hiess halt Crop Analytics und vielleicht verkauft es sich so besser.

Am meisten Faszination kam am Samstagmorgen beim Thema Hyperloop auf, der Rohrpost für Menschen, wie ich das immer bezeichne. Die erste Strecke soll zwischen Los Angeles und San Francisco verlaufen und man soll mit 1200km/h in einer Kapsel durch eine fast luftleere Röhre (wegen Strömungswiderstand) geschossen werden. Der Mitgründer Bibop Gresta hat ziemlich lange und packend darüber erzählt und konnte die Leute begeistern. Für mich war das thematisch nichts Neues, trotzdem war ich beeindruckt. Die lassen sich da einfach durch nichts (Regulatorisches) aufhalten, sondern machen einfach das, was technisch möglich ist. Da bin ich fast sicher, dass das was wird, zumindest in Kalifornien.

Hyperloop (das Problem mit den  vielen Autos da könnte man aber auch anders lösen)
Hyperloop (das Problem mit den vielen Autos da könnte man aber auch anders lösen)

Überpreistes Hotel

Immerhin halbwegs gute Aussicht.
Immerhin halbwegs gute Aussicht.

Das Guoman-Hotel direkt an der Tower Bridge in London ist zwar auf dem Papier ganz okay, aber wenn man sich das Zimmer (gut, ich hab jetzt nur meins gesehn) genauer anschaut, kommen einem doch Zweifel, ob ein Preis von 250 Franken pro Nacht (ohne Frühstück) da gerechtfertigt ist.

Der Blick ist okay, die Fenster halten den Lärm halbwegs draussen und das Internet funktioniert, aber das war’s auch schon. Die Klimaanlage lässt sich nicht regeln (es sind nur vier Knöpfe am Regler dran, hab alle Möglichkeiten systematisch probiert), die Schranktüren sind schief, die Zimmertür klemmt genauso wie andere Türen, die Badfugen sehen saumässig aus, es gibt massig lockere Schrauben, die Tapete blättert ab, im Klimaschacht sieht’s chaotisch und dreckig aus, die Liftwartezeit ist unterirdisch und die “Grösse” der Projektionsleinwand beim gestrigen Workshop war ein Witz. Letztere reicht bei der Raumgrösse eventuell für Powerpoint-Bullshit-Bingo, aber nicht für inhaltsreiche und technische Darstellungen. Das Preis-Leistungs-Verhältnis find ich jedenfalls falsch.

Kaputte Befestigungen
Kaputte Befestigungen

Tolle Badfugen und lose Dusche
Tolle Badfugen und lose Dusche

Nicht regelbare Klimaanlage. Oder doch die Solltemperatur?
Nicht regelbare Klimaanlage. Oder doch die Solltemperatur?

Eigene Regelung der Klimaanlage. Leider kein Duct-Tape dabei.
Eigene Regelung der Klimaanlage. Leider kein Duct-Tape dabei.

Toller Klimaschacht. Tolle Verkabelung.
Toller Klimaschacht. Tolle Verkabelung.

EARL-Konferenz und Workshops in London

Da ich jetzt beruflich recht viel mit recht grossen Datenmengen (lies Milliarden Zeilen) von Transaktionsdaten (Migros/Denner) zu tun habe, muss ich mir doch mal vorher Gedanken um die Effizienz von Berechnungen machen, bevor ich einfach ein R-Skript schreibe und ausführe.

Manche Sachen laufen einfach nur vernünftig in der Datenbank (Teradata), andere auf der Google-Infrastruktur (Big Query), beides wird mit herkömmlichem SQL angesprochen und aggregierte Daten kann ich dann lokal weiterverarbeiten. Persönlich favorisiere ich ja das Ökosystem und die Denkweise von Hadley Wickhams Paketen, darunter ggplot2, BigRQuery und zuletzt dplyr. Letzteres ist eine Art Konkurrenzpaket für grössere Datenmengen zu data.table, bei dessen Autoren Matt Dowle und Arun Srinivasan ich gerade zu Gast in einem Workshop in London bin.

Es scheint, als ob data.table noch schneller als dplyr ist, aber ich werd’s dann noch mal ausprobieren. Ich bin einfach schon die vielen Packages und die Denkweise von Hadley Wickham gewohnt.

Morgen startet dann die EARL-Konferenz. Eine der wenigen Konferenzen, wo ich primär wegen der Inhalte und sicher nicht wegen des Orts bin. London ist einfach nur laut und gross und nervig. Ich will Kühe, Gras, Berge und Ruhe, und schnelles Internet gibt’s auch in der Ostschweiz 🙂

Ausblick von der Konferenz. Ganz okay.
Ausblick von der Konferenz. Ganz okay.