Zum Hauptinhalt

Linking Textual Data

Verknüpfung von Textdaten mit anderen Datenarten.

Ob Textdaten oder digitale Verhaltensdaten: Sogenannte „neue Daten” erlauben die Bearbeitung von Fragen, die mittels „etablierter Daten” wie Umfragedaten oder amtlichen Statistiken nur eingeschränkt zu erschließen sind. Gleichzeitig kann das volle Potenzial dieser Daten nur ausgeschöpft werden, wenn etablierte und neue Daten effizient und robust miteinander in Beziehung gesetzt werden. Eine Verknüpfung von Daten kann also neue Erkenntnisse liefern.

Oft stehen etablierte Daten noch unverbunden neben neuen Daten, die häufig unstrukturiert vorliegen. Hier setzt das quelloffene R-Paket LinkTools an, das die Bedarfe und Fallstricke bei der Verlinkung von Textdaten mit etablierten Daten aus sozialwissenschaftlicher Perspektive berücksichtigt. Über Unique Identifier ermöglicht LinkTools die Verknüpfung von Metadaten in Dokumenten und Entitäten im Fließtext mit externen Daten. So können zum Beispiel im Fall von Metadaten Redner:innen im Bundestag einem Wahlkreis zugeordnet oder Orte in einem Fließtext erkannt, in eindeutige Konzepte unterschieden und mit externen Informationen angereichert werden. Durch solche Verlinkungen kann zum Beispiel Fragen nach dem Verhältnis von der Darstellung eines Gegenstandes in der öffentlichen Debatte und Umfragedaten nachgegangen werden.

Das Paket, das sich aktuell in einem frühen Entwicklungsstadium befindet, wird offen auf GitHub entwickelt. Dort finden sich der Code sowie weiterführende Informationen zur Installation und Anwendung des Paketes.