Workshop: Big Data in den Sozialwissenschaften

Am 28. November 2019 war ich bei Interface (Unternehmen für Politikevaluation und -beratung) in Luzern eingeladen, einen Weiterbildungsworkshop zu leiten. Dieser stand unter dem Titel: Big Data in den Sozialwissenschaften.

(1) Was ist Big Data?

10 Charakteristika (Salganik 2018:17ff):

  • Big:
    Large datasets are a means to an end; they are not an end in themselves.
  • Always-on:
    Always-on big data enables the study of unexpected events and real-time measurement.
  • Nonreactive:
    Measurement in big data sources is much less likely to change behavior.
  • Incomplete:
    No matter how big your big data, it probably doesn’t have the information you want.
  • Inaccessible:
    Data held by companies and governments are difficult for researchers to access.
  • Nonrepresentative:
    Nonrepresentative data are bad for out-of-sample generalizations, but can be quite useful for within-sample comparisons.
  • Drifting:
    Population drift, usage drift, and system drift make it hard to use big data sources to study long-term trends.
  • Algorithmically confounded:
    Behavior in big data systems is not natural; it is driven by the engineering goals of the systems.
  • Dirty:
    Big data sources can be loaded with junk and spam.
  • Sensitive:
    Some of the information that companies and governments have is sensitive.

big-data-charakteristika

Neue Möglichkeiten

  • Re-Integration von quantitativer und qualitativer Expertise: gemeinsame Nutzbarmachung quantitativer (quantifizierte Daten, Umgang mit statistischer Software) wie qualitativer Kompetenzen (interpretative Kompetenzen, Vielfalt von Datensorten: neben Zahlen, Text, Bilder, Videos, etc.)
  • Erweiterung des Methodenwissens
  • Überwindung von Disziplinengrenzen und Kollaboration mit Natur- und Technikwissenschaften

Neue Stolpersteine und ungelöste Fragen

  • Gefahr neo-positivistisch-technokratischer Evidenzproduktion ohne Berücksichtigung sozialer Kontexte
  • ‘Kolonisierung’ der Sozial- durch Technikwissenschaften (zum Beispiel aktuelle Situation im Feld Computational Social Science) – interdisziplinäre Zusammenarbeit ist bisher eher die Ausnahme
  • Dominanz von Open Data (und anderen “Open-Feldern”: Open Science, Open Government etc.) > der grosse “Datenschatz” ist heute privatisiert
  • Infrastrukturen für entsprechende Forschung/Datenzugänge
  • Wer ist für die ethischen Fragen zuständig?

 

(2) Die Rolle der Sozialwissenschaften

  • ‘Domain knowledge’ natürlich 🙂
    grosse Datensätze werden fast ausschliesslich in heterogenen Teams zusammengesetzt aus verschiedenen Disziplinen bearbeitet. Sozialwissenschaftliche Expertise je nach Thema sehr wichtig
  • Verständnis für Methoden, Vorgehens- und Denkweisen der anderen Disziplinen
  • qualitativ-evaluative Expertise in den quantifizierenden Diskurs einbringen;
    > kritischer Blick auf Prozesse der Datenkonstruktion – welche sozialen und soziotechnischen Prozesse haben Daten mitgeformt statt objektiv abgebildet zu werden?

Herausforderung: Methoden- und Informatikwissen tendenziell ausbauen, ohne allerdings zur reinen ‘sozialen Physik’ (Pentland) zu verkommen.
Beispiel: Der Lucerne Master in Computational Social Sciences, der seit Herbst 2019 an der Universität Luzern angeboten wird.

 

(3) Aktuelle Forschungsfragen

Methoden:
Methodische Fragen und Probleme in verschiedenen Disziplinen, beispielsweise empirische Sozialforschung:

  • wie fehlende/mangelnde Kausalität oder Inferenz von Big Data
  • neue Modi der Datenerhebung (Apps)
  • «text as data» als methodische Herausforderung aufgrund der interpretativen Offenheit, die bestehen bleibt bei Verfahren computergestützter Textanalyse

Algorithmen:
In den letzten 2 bis 3 Jahren ist die Aufmerksamkeit für Algorithmen stark gestiegen, insbesondere Fairness-, Accountability- und Transparency-Aspekte werden vermehrt erforscht/thematisiert.

 

(4) Hands-On!

 Daten

Open-Data-Repositorien:

 

Social Media:

 

Sonst im Netz:

 

Werkzeuge

  • R ist heute für statistische Auswertungen die gängige Programmiersprache
    > R-Studio als Programmier-Umgebung
    > Es gibt gute Packages für Visualisierungen der Auswertungen (ggplot2) und auch Textanalyse
    > Heute wird Statistik an der Uni mit R gelehrt und gelernt
  • Python ist heute unter Data Scientists die verbreitetste Programmiersprache

 

In einem ersten Schritt: Mitreden können in den spezifischen Programmiersprachen-Communities ist der erste und wichtigste Schritt!

Auf diesem Grundstock kann man dann für spezifische Interessen und Projekte sein Wissen vertiefen und Packages nach seinen Bedürfnissen suchen.

r-python

Wichtig zudem:

 

Wie einsteigen?

Matt Salganik (2018): Bit by Bit. Social Science Research in the Digital Age. Princeton: Princeton University Press.
https://www.bitbybitbook.com/

Etwas theoretischer:

Noortje Marres (2017): Digital Sociology. The Reinvention of Social Research. Cambridge: Polity.
http://noortjemarres.net/index.php/books/

Böser Algorithmus, guter Algorithmus – wie leben damit?

Böser Algorithmus, guter Algorithmus. Wie leben damit?

Diese Frage stellen wir uns in der Arbeitsgruppe Netzpolitik der Grünen Schweiz sehr oft. Entscheidungen werden uns zunehmend von automatisierten Entscheidungsverfahren (Algorithmen) abgenommen. Ganz gleich, ob es um die nächste Mahlzeit geht oder um eine Gefahreneinschätzung unserer Person vor Gericht: Die Entscheide sind an Kategorisierungen und Berechnungen von Maschinen gebunden.

Die Fragen können wir in zwei Dimensionen aufteilen:

  • Die private Seite: Wie können wir lernen und verstehen, wie Algorithmen funktionieren – und ihre Ergebnisse kritisch entgegennehmen? Welches Wissen, welche Informationen und welche Fähigkeiten braucht es dazu?
  • Die gesellschaftliche Seite: In welchen Situationen sollen Algorithmen kritisch begutachtet werden? Welche Bereiche sind zu sensibel, um sie von Maschinen gestalten zu lassen? Wann braucht es Transparenz und Regulation? Mit welchen Mitteln sollen Algorithmen reguliert werden – Gesetze, Zertifizierung, zivilgesellschaftlicher Protest?

Einfache Antworten gibt es nicht. Und gerade deshalb interessierte uns, diese Frage mit vielen Interessierten aus dem Bereich Netzpolitik zu erörtern. Das geeignete Mittel dazu: Im Rahmen des Winterkongress 2019 der Digitalen Gesellschaft organisierten Markus Schmidt und ich im Namen der AG Netzpolitik der Grünen einen Workshop zum Thema.

Die Fragen interessieren und bewegen: Über 70 Personen diskutierten mit uns. Wir unterteilten in Arbeitsgruppen, die je einen Aspekt zum Thema Algorithmen anhand eines Textes diskutierten.

  1. Mit welchem Daten-Input sollen Algorithmen trainiert werden?
    https://www.blaetter.de/archiv/jahrgaenge/2018/august/wider-die-digitale-manipulation (Abschnitt 7)
  1. Wieviel Transparenz und Kontrolle benötigen selbstlernende Algorithmen?
    https://www.wired.de/article/ubernehmt-endlich-verantwortung-fur-eure-algorithmen
  1. Wo darf der Staat Algorithmen einsetzen und wie muss er sie regulieren?
    https://www.republik.ch/2018/09/19/die-tyrannei-des-wahrscheinlichen-in-der-justiz
  1. Wie sich gegen Algorithmen wehren?
    https://www.medienpolitik.net/2017/08/netzpolitikwir-sind-nicht-hilflos/
  1. Können Algorithmen diskriminieren?
    https://verfassungsblog.de/koennen-algorithmen-diskriminieren/
  1. Wie in der Schule auf Algorithmen vorbereiten?
    https://www.nzz.ch/feuilleton/soll-der-mensch-wie-ein-computer-denken-ld.1292090
  1. Algorithmen anstelle von Vertrauen? China und der Social Credit
    https://www.zeit.de/2019/03/china-regime-ueberwachungsstaat-buerger-kontrolle-polizei
  1. Wirtschaft: Wenn der Algorithmus Preisabsprachen macht
    https://www.nzz.ch/wirtschaft/wenn-algorithmen-kartelle-bilden-ld.1415028

Anschauungsbeispiel: Erfolgreich gegen den Algorithmus gewehrt!

Angeregte Diskussionen in den Arbeitsgruppen folgten. Zum Schluss standen die Gruppen vor der Herausforderung, ein Fazit in Tweet-Länge zu fassen. Und: Die oder der Präsentator*in des Fazits bestimmte ein (vorerst intransparenter) Algorithmus. Im Sinne von der Forderung nach transparenten Algorithmen liessen wir das Rätsel nicht ungelöst: Diejenige Person mit dem „vordersten“ Buchstaben (gemäss Alphabet) an dritter Stelle des Vornamens war auserwählt. In einem Fall von zwei identischen Vornamen diskriminierte der Algorithmus nach Lust und Laune – wie im Leben halt. Im Sinne von „Wehr dich gegen den intransparenten Algorithmus!“ setzte die auserwählte Person aus der Arbeitsgruppe 4 das Thema gleich um und wehrte sich gegen die Präsentation – erfolgreich. Mit menschlicher Kompetenz fand die Gruppe einen anderen Präsentator.

Herzlichen Dank allen, die diskutiert haben! Wir freuen uns, mit euch viele weitere Debatten in Politik und Gesellschaft zum Thema Algorithmen zu führen.

Hier die Tweet-Fazite, die wir sogleich auf Twitter und Mastodon teilten (rangiert nach dem Beliebtheitsalgorithmus von Twitter):