Tag -8: Biases mit Ricardo Baeza-Yates

Heute morgen waren es aber unter 10°C, mich überkam ein leichtes Frösteln. Meine Gastgeber meinten, dass sich genau so ungefähr ein Tag im Januar anfühlen würde, vielleicht noch mit Bodenfrost dazu. Für mich würde das also spikefreies Velowetter bedeuten. Heute war aber doch mal lange Hose angezeigt und die Fingerspitzen hatten auch ein halbes Grad zuwenig. Aber nach der Aufwärmrunde bis Mountain View war ich heute auf dem Bay Trail mit 25-30km/h unterwegs, das wusste ich selbst gar nicht, dass ich das kann. Muss wohl doch ein gewisser Trainingseffekt sein, denn die 2Mm sind fast voll.

Okay, nach dem heutigen Morgen kann ich mir “icy” vorstellen.

Insbesondere auf der California Avenue Richtung Osten schaffe ich fast ohne Ampelstopp zu fahren: durch viel vorausschauendes Fahren und unter tatkräftiger Mithilfe dieser Zeitanzeigen an den Fussgängerampeln, die es mir ermöglichen, das Tempo entsprechend anzupassen.

Sehr nützliche Erfindung: die runterzählende Sekundenanzeige an der Fussgängerampel.

Der Tag ging am Ende wieder in ein Meetup über, heute mit Ricardo Baeza-Yates, dessen Buch Modern Information Retrieval damals Standardlektüre war an der Uni.

Ich hab die ganze Zeit überlegt, was das für ein Berg sein könnte.

Zwischendurch wurden die 20 wichtigsten cognitive biases gezeigt, was auch ein bisschen was von Rolf Dobelli: Die Kunst des klaren Denkens hatte. Für mich als Data Scientist ist das daher mmer wieder enorm wichtig, dass ich weiss, wie die Daten, mit denen ich arbeiten soll, zustande gekommen sind, was für Annahmen, Vorurteile und eben Biases drinstecken. Das hat Hadley gestern schon gemeint: je näher man an den Entstehungsprozess der Daten kommt, desto besser. Leider gibt’s da so dämliche Projektmanager, die das nicht verstehen, dass ich das auch wissen muss — die denken, die können mir einen Sack Daten hinkippen und ich mache da Gold draus. Nee, is nich. Das Verständnis geht daher auch nicht schnell, sondern besteht aus Nachdenken, Nachfragen, Programmieren, Ergebnisse zeigen und wieder von vorne. Man lernt halt nie aus.

Ein Beispiel für einen Bias ist der Activity Bias: auf Twitter produzieren 2% der Benutzer 50% der Tweets, die anderen 98% machen die restlichen 50% der Tweets. Das ist keine Gleichverteilung — ergo muss man bei Analysen solcher Daten aufpassen, was man draus schlussfolgert bzw. muss die Teilmenge an Daten richtig auswählen. Schon allein die Vorauswahl an Menschen, die überhaupt auf Twitter sind, schränkt beispielsweise die Allgemeingültigkeit für die gesamte Menschheit ein. Eine nette Folie hat auch noch gezeigt, wie die Verteilung von Wikipedia-Artikeln über berühmte Frauen und berühmte Männer aussieht und sich im Zeitverlauf entwickelt. Man sollte annehmen, dass es etwa auf 50-50 hinausläuft, aber weil auf Wikipedia ein sehr grosser Teil der Autoren Männer sind, wird natürlich weniger über Frauen geschrieben (so die Vermutung).

Aus Ricardos Sicht ist affirmative action ein positiver Bias. Im Vortrag hat er ausserdem noch gefragt, welches die erste Suchmaschine war — ich hab ihm das hinterher mit excite? beantwortet. Oha, das ist extrem lange her.

Hinterher gab’s noch ganz viel Essen und ich hab auch noch viel mitnehmen dürfen/sollen. Es war nur die Hälfte der erwarteten Leute gekommen, etwa 30 Personen waren da. Zu Gast waren wir bei Criteo, die im Bereich von Displaywerbung (in diesem sogenannten Internet) tätig sind. Hatte ich vorher noch nie gehört, aber hab mich dann mit einer der Angestelltinnen (ja, das muss man auch dschändern!) drüber unterhalten.

Die ungezwungene Meetup-Kultur gefällt mir schon richtig gut, so entstehen tatsächlich Netzwerke, Bekanntschaften, Geschäftsideen und Startups.

Und weil’s so schön war, nochmal das Morgenfoto vom Bay Trail, das macht echt gute Laune, da langzufahren:

M	T	W	T	F	S	S
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30

Leave a Reply Cancel reply