Workshop 2: Computerlinguistische Methoden der Inhaltsanalyse in den Sozialwissenschaften

DHd-2015: e-Identity

Im zweiten Teil des Workshops wurde es nun praktisch und ganz konkret.  Wie kann eine so große Anzahl an Daten so strukturiert werden, dass sie auch verwendet werden können? Und zwar nicht von einem Experten auf diesem Gebiet (brücke-neu-bauend), sondern von Fachwissenschaftlern, also in diesem Fall Politikwissenschaftlern, die zu einer spezifischen Fragestellung eine große Textmenge als Quelle heranziehen wollen. Fritz Kliche, André Blessing und Jonathan Sonntag präsentieren die dafür notwendigen Werkzeuge.

Eine Explorationsdatenbank dient dazu die Rohdaten so aufzubereiten, dass sie eine geeignete Struktur haben. Dazu wird an Hand der Struktur der Texte bestimmte Regeln generiert, die anschließend auf den gesamten Textkorpus angewandt werden. Ein Zeitungsartikel endet mit einem Copyright-Part, was beispielsweise als Anker dient, oder ein Artikel beginnt mit einem Datum. Alles was dazwischen ist, wird als Fließtext erfasst. Das Datumsangaben können wiederum mittels eigener Regel als Metadaten herausgelesen werden. Vor der Ausgabe, die in unterschiedlichen Formaten umgesetzt werden kann, werden leere/defekte Artikel oder Dubletten ausgesondert, also Artikel die mehrfach vorkommen, oder schlichtweg für die Fragestellung unverwertbare sind. Ein Ergebnis könnte ein Excel-Sheet (natürlich auch andere Formate) sein, in dem, je nach Bedarf, Fließtexte oder Metadaten eine maschinell-verwendbare Struktur besitzen und somit für eine weitere Analyse geeignet sind.

Das hierfür implementierte Werkzeug ist der Complex Concept Builder (= CCB), mit webbasierter Oberfläche, mit dem man die aufbereiteten Rohdaten nun analysieren kann. Hier wird versucht die Inhalte der Texte, also die semantische Ebene, zu erfassen. Eine Erschließung des Inhaltes mit keywords alleine scheint nicht ausreichend zu sein, da Sprachen zu komplex sind. So können Wörter in Artikeln auftauchen, die gar nichts mit der gezielten Fragestellung zu tun haben. Sucht man Texte die das Thema Krieg behandeln, werden Namen von Staaten auftauchen. Bei Texten zum Thema Fußballmeisterschaft, werden möglicherweise die gleichen keywords aktiv. Um dennoch die richtigen Artikel zu finden, wird im CCB eine Wertung vorgenommen, ob ein Artikel zu dem Thema passt oder nicht (neben vielen anderen Funktionalitäten). Durch die manuelle Wertung lernt das System dieses Problem besser zu lösen. So weit habe ich das verstanden :). Weitere Information gibt es noch auf der Webpage des Projektes.

Für mich ein interessanter Einblick in ein neues Themenfeld. Ich habe in einem ersten Blogeintrag zur Dhd erwähnt, dass es mir an konkreten Beispielen fehlt. e-Identity scheint für mich ein ganz klares Projekt sein, das sich in die DH einbetten lässt. Der Mehrwert ist, dass große Textmengen, ( z.B. über 800.000 Artikel), auf einer semantischen Ebene bereinigt, die Möglichkeiten gibt Daten für Forschungsfragen zu generieren. Wiederum: Es wird eine Brücke gebaut, die auch Fachwissenschaftlern, wie auch Experten, begehen können.

Die Diskussion möchte ich unkommentiert mit Schlagwörtern sammeln :

  • viele Projekte, die parallel entwickelt werden
  • kann man eine gemeinsame Infrastruktur entwickeln?
  • gemeinsame Austauschformate?; offen für andere Daten
  • das nicht nur halbfertige Forschungsprojekte öffentlich machen, in der Entwicklung schon verwendbar
  • Schulung von Fachwissenschaftlern in den digitalen Methoden auf ihren eigenen Tagungen, damit die Erwartungen richtig geordnet werden können
  • Finanzierung solcher Projekte und ihre Weiterführung
  • was muss der Fachwissenschaftler, was muss der Informatiker können?
  • Lizenzen, Recht (Verwendung der Zeitungsartikel), hosting
Advertisements

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s