Workshop: Big Data in den Sozialwissenschaften

Am 28. November 2019 war ich bei Interface (Unternehmen für Politikevaluation und -beratung) in Luzern eingeladen, einen Weiterbildungsworkshop zu leiten. Dieser stand unter dem Titel: Big Data in den Sozialwissenschaften.

(1) Was ist Big Data?

10 Charakteristika (Salganik 2018:17ff):

  • Big:
    Large datasets are a means to an end; they are not an end in themselves.
  • Always-on:
    Always-on big data enables the study of unexpected events and real-time measurement.
  • Nonreactive:
    Measurement in big data sources is much less likely to change behavior.
  • Incomplete:
    No matter how big your big data, it probably doesn’t have the information you want.
  • Inaccessible:
    Data held by companies and governments are difficult for researchers to access.
  • Nonrepresentative:
    Nonrepresentative data are bad for out-of-sample generalizations, but can be quite useful for within-sample comparisons.
  • Drifting:
    Population drift, usage drift, and system drift make it hard to use big data sources to study long-term trends.
  • Algorithmically confounded:
    Behavior in big data systems is not natural; it is driven by the engineering goals of the systems.
  • Dirty:
    Big data sources can be loaded with junk and spam.
  • Sensitive:
    Some of the information that companies and governments have is sensitive.

big-data-charakteristika

Neue Möglichkeiten

  • Re-Integration von quantitativer und qualitativer Expertise: gemeinsame Nutzbarmachung quantitativer (quantifizierte Daten, Umgang mit statistischer Software) wie qualitativer Kompetenzen (interpretative Kompetenzen, Vielfalt von Datensorten: neben Zahlen, Text, Bilder, Videos, etc.)
  • Erweiterung des Methodenwissens
  • Überwindung von Disziplinengrenzen und Kollaboration mit Natur- und Technikwissenschaften

Neue Stolpersteine und ungelöste Fragen

  • Gefahr neo-positivistisch-technokratischer Evidenzproduktion ohne Berücksichtigung sozialer Kontexte
  • ‘Kolonisierung’ der Sozial- durch Technikwissenschaften (zum Beispiel aktuelle Situation im Feld Computational Social Science) – interdisziplinäre Zusammenarbeit ist bisher eher die Ausnahme
  • Dominanz von Open Data (und anderen “Open-Feldern”: Open Science, Open Government etc.) > der grosse “Datenschatz” ist heute privatisiert
  • Infrastrukturen für entsprechende Forschung/Datenzugänge
  • Wer ist für die ethischen Fragen zuständig?

 

(2) Die Rolle der Sozialwissenschaften

  • ‘Domain knowledge’ natürlich 🙂
    grosse Datensätze werden fast ausschliesslich in heterogenen Teams zusammengesetzt aus verschiedenen Disziplinen bearbeitet. Sozialwissenschaftliche Expertise je nach Thema sehr wichtig
  • Verständnis für Methoden, Vorgehens- und Denkweisen der anderen Disziplinen
  • qualitativ-evaluative Expertise in den quantifizierenden Diskurs einbringen;
    > kritischer Blick auf Prozesse der Datenkonstruktion – welche sozialen und soziotechnischen Prozesse haben Daten mitgeformt statt objektiv abgebildet zu werden?

Herausforderung: Methoden- und Informatikwissen tendenziell ausbauen, ohne allerdings zur reinen ‘sozialen Physik’ (Pentland) zu verkommen.
Beispiel: Der Lucerne Master in Computational Social Sciences, der seit Herbst 2019 an der Universität Luzern angeboten wird.

 

(3) Aktuelle Forschungsfragen

Methoden:
Methodische Fragen und Probleme in verschiedenen Disziplinen, beispielsweise empirische Sozialforschung:

  • wie fehlende/mangelnde Kausalität oder Inferenz von Big Data
  • neue Modi der Datenerhebung (Apps)
  • «text as data» als methodische Herausforderung aufgrund der interpretativen Offenheit, die bestehen bleibt bei Verfahren computergestützter Textanalyse

Algorithmen:
In den letzten 2 bis 3 Jahren ist die Aufmerksamkeit für Algorithmen stark gestiegen, insbesondere Fairness-, Accountability- und Transparency-Aspekte werden vermehrt erforscht/thematisiert.

 

(4) Hands-On!

 Daten

Open-Data-Repositorien:

 

Social Media:

 

Sonst im Netz:

 

Werkzeuge

  • R ist heute für statistische Auswertungen die gängige Programmiersprache
    > R-Studio als Programmier-Umgebung
    > Es gibt gute Packages für Visualisierungen der Auswertungen (ggplot2) und auch Textanalyse
    > Heute wird Statistik an der Uni mit R gelehrt und gelernt
  • Python ist heute unter Data Scientists die verbreitetste Programmiersprache

 

In einem ersten Schritt: Mitreden können in den spezifischen Programmiersprachen-Communities ist der erste und wichtigste Schritt!

Auf diesem Grundstock kann man dann für spezifische Interessen und Projekte sein Wissen vertiefen und Packages nach seinen Bedürfnissen suchen.

r-python

Wichtig zudem:

 

Wie einsteigen?

Matt Salganik (2018): Bit by Bit. Social Science Research in the Digital Age. Princeton: Princeton University Press.
https://www.bitbybitbook.com/

Etwas theoretischer:

Noortje Marres (2017): Digital Sociology. The Reinvention of Social Research. Cambridge: Polity.
http://noortjemarres.net/index.php/books/

Kurz-Interview: Was tut unser Forschungsprojekt?

Das Dach meines Forschungsprojekts („Facing Big Data: Methods and skills needed for a 21st centruy sociology“), das NFP75, hat nun eine Dialogplattform. Dort habe ich für einige Fragen Red und Antwort gestanden. Du findest eine Kopie des Interviews untenstehend.

Und: Du kannst dich mit deinen Fragen zu Big Data nun aus der Deckung wagen. Die Dialogplattform verfügt über ein einfaches Online-Formular und verspricht, auf alle Fragen fundierte Antworten einer Expertin oder eines Experten zu suchen. Loslegen!


12. November 2018

Welche Ziele verfolgen Sie mit Ihrem Projekt, und was haben Sie bereits realisiert?

Rahel Estermann: Das Projekt untersucht den digitalen Wandel in den drei Feldern Soziologie, Datenjournalismus und Data Science im Hinblick auf die dort genutzten und notwendigen Methoden, Fähigkeiten und analytischen Werkzeuge und zeichnet den aktuellen Stand und Entwicklungslinien auf.

In allen drei Teilprojekten, die sich mit je einem der drei genannten Feldern beschäftigen, läuft die Erhebung von Daten, erste Analysen wurden durchgeführt. Alle drei Projekte kombinieren verschiedene Methoden, seien sie quantitativ (Sammlung und Analyse von Job-Inseraten oder Lehrplänen, text- und netzwerkanalytische Auswertungen) oder qualitativ (Interviews, ethnografische Feldbeobachtung, Dokumentenanalyse). In einem iterativen Prozess werden Erkenntnisse aus dem Feld mit theoretischen Angeboten abgeglichen und gedeutet – um danach weitere Schritte im Untersuchungsfeld zu planen.

Alle Forschenden präsentieren ihren aktuellen Stand des Projekts immer wieder durch Vorträge im Rahmen von Konferenzen, teilweise auch bereits in Artikeln in wissenschaftlichen Zeitschriften.

«Big Data» ist nicht einfach ein technisches Phänomen, sondern erweitert die Möglichkeiten, wie wir die Welt sehen und Wissen darüber gewinnen können.

Worauf sind Sie und Ihr Team besonders stolz?

Rahel Estermann: Wir thematisieren als eines der wenigen Projekte im Rahmen des NFP75 grosse Datenmengen aus sozialwissenschaftlicher Perspektive. «Big Data» ist nicht einfach ein technisches Phänomen, sondern erweitert die Möglichkeiten, wie wir die Welt sehen und Wissen darüber gewinnen können. Wir sind stolz darauf, dass der SNF uns darin unterstützt, die Methoden, Fähigkeiten und Werkzeuge zu erforschen, die in verschiedenen Feldern im Zusammenhang mit «Big Data» angewendet werden – und dass diverse Wissenschaftler*innen wie auch Journalist*innen uns in den Einzelprojekten unterstützen, indem sie uns Zugang zu ihrem Arbeitsalltag gewähren. Der Vergleich über verschiedene Felder ermöglicht uns immer wieder, übergreifende Muster bzw. Spezifitäten zu erkennen und zu diskutieren.

Welche Veränderungen bewirkt Ihr Projekt?

Rahel Estermann: Unser vertiefter Blick auf die neuen Chancen und Herausforderungen, vor denen Soziologie, Datenjournalismus und Data Science durch die Verfügbarkeit grosser Datenmengen stehen, liefert nicht nur Erkenntnisse dazu, wie die Digitalisierung Prozesse der Wissensgenerierung verändert, sondern begleitet diese Veränderungen zudem kritisch. Unsere Gesellschaft braucht nicht nur Wissen über jene soziotechnischen Veränderungen, die wir Digitalisierung nennen, sondern auch eine kritische Überprüfung jener, die diese Prozesse mit «digitalen Methoden» erklären und mitgestalten. Von welchen (mal mehr mal weniger) neuen Methoden, Fähigkeiten und Werkzeugen unserer drei Felder können auch andere gesellschaftliche und wissenschaftliche Bereiche profitieren? Welche Praktiken und Konventionen gilt es jedoch auch kritisch auf ihre Sensibilität bezüglich der sozialen Konstruktion von «Big Data» und Co. zu überprüfen? Dank unseren Erkenntnissen können wissenschaftliche und gesellschaftliche Felder ihre methodischen Zugänge überprüfen und erneuern und Lernenden entsprechende Fähigkeiten vermitteln.

Dank unserem NFP75-Forschungsprojekt habe ich die Gelegenheit, meiner Neugier über die Zusammenhänge zwischen Gesellschaft, Technologie und Medien über mehrere Jahre freien Lauf zu lassen – ein Privileg!

 

Was bedeutet das NFP 75 für Sie?

Rahel Estermann: Dank unserem NFP75-Forschungsprojekt habe ich die Gelegenheit, meiner Neugier über die Zusammenhänge zwischen Gesellschaft, Technologie und Medien über mehrere Jahre freien Lauf zu lassen – ein Privileg! Ich verfüge über die Zeit, sehr aktuellen und relevanten Phänomenen auf den Grund zu gehen, meine Hypothesen immer wieder an Theorien und Erkenntnissen zu überprüfen und zu überarbeiten. Der Austausch mit den über dreissig anderen Projekten und ihrer Forschung bedeutet einen Wissensvorrat, den wir mittels Austausch und Diskussionen immer wieder nützen. So kommen verschiedenste Perspektiven auf das Phänomen «Big Data» zusammen – horizonterweiternd!

Was würde fehlen, wenn es Ihr Projekt nicht gäbe?

Rahel Estermann: Wir beleuchten «Big Data» von einer anderen Seite als viele technische und naturwissenschaftliche Projekte. Daten sind aus unserer Sicht nicht «roh», sondern werden in gesellschaftlichen und wissenschaftlichen Kontexten erschaffen. Unser Blick in die Konstruktion von Daten und Wissen daraus schärft das Bewusstsein für die grosse Rolle von Methoden und Werkzeugen der Datenverarbeitung. Sie erst ermöglichen die Nutzbarmachung von Daten – das war schon früher so.
Unsere sozialwissenschaftliche Perspektive auf grosse Datenmengen stellt uns deshalb auch immer wieder vor die Frage, ob Digitalisierung wirklich alles neu macht – was verändert sich wirklich? Welche Bereiche unseres Zusammenlebens sind davon betroffen? Und mit welchen Werkzeugen haben wir uns früher Daten zunutze gemacht, und mit welchen heute?