Forschungsdaten sind unerlässlich für die Wissenschaft, allerdings sind viele Datensätze versteckt auf Webseiten und in kleinen Repositorien oder wegen unzureichender Metadaten schwer zu finden. Nur ein Bruchteil der Forschenden stellt pro-aktiv Datensatzmetadaten in öffentlichen Portalen zur Verfügung und deren Kuratierung ist kostspielig
Im Zuge des „Unkown Data Projektes“ wird nun eine Infrastruktur geschaffen, durch die die Reanalyse von Forschungsdaten und die Replikation von Forschungsergebnissen vereinfacht werden soll. Weiter wird die Herkunft von Daten nachvollziehbarer gestalltet und es werden Datensätze sichtbar gemacht, die bislang nicht in öffentlichen Sammlungen auffindbar sind.
Die oben beschriebenen Ziele werden durch verschiedene Verfahren und Herangehensweisen erreicht:
- Die Nutzung von Zitationen aus wissenschaftlichen Aufsätzen und Webseiten, um Metadaten zu Datensätzen zu finden
- Das Entdecken von Datensätze und ihrem Kontext durch Crawling von relevanten Webseiten
- Konsolidieren von Metadaten durch Verknüpfung mit Informationen aus domänenspezifischen Datenbanken
- Sichern der Metadatenqualität durch Etablierung eines disziplinspezifischen Kurationsprozesses
- Sichern der Langzeitverfügbarkeit der Originalquellen durch Archivierung relevanter Webseiten
Die Gewinnung von Metadaten über Forschungsdaten aus Webseiten und Publikationen ist ein neuartiger Ansatz, der die Sichtbarkeit von “Long Tail”-Datensätzen erhöht und gleichzeitig entscheidende Erkenntnisse über die tatsächliche Nutzung und Wirkung von (bekannten) Forschungsdaten liefert. Unter „Long-Tail“ Datensätzen versteht man jene Datensätze, die nur mit speziellen Suchbegriffen gefunden werden können.
Von den Projektergebnissen profitieren zentral zwei Disziplinen, die Informatik und die Sozialwissenschaften, durch Use-Case-Piloten. Die DBLP-Bibliographie und die GESIS-Portale gehören zu den angesehensten und am weitesten verbreiteten Metadatensammlungen in ihren jeweiligen Fachgebieten. Beide werden von vielen anderen Suchmaschinen wie Google Dataset Search und CESSDA genutzt. Durch Unknown Data wird die Effektivität und Effizienz von Forschenden bei der Suche nach Daten erheblich verbessert, indem zum ersten Mal in der Informatik eine zentrale und umfassende Sammlung von Metadaten über Forschungsdaten geschaffen wird und die Qualität und Quantität von Datensatzmetadaten in den Sozialwissenschaften grundlegend verbessert wird.
Datensatzzitate, die aus Webseiten oder Publikationen extrahiert werden, ermöglichen eine Abschätzung des Impact von Datensätzen – ein entscheidendes Merkmal für die Beurteilung ihrer Nützlichkeit und Wiederverwendung.
Alle gesammelten Metadaten werden dauerhaft als Linked Open Data und über REST-APIs öffentlich zugänglich gemacht, um Forschungsdaten sowohl für Forschende als auch für Maschinen auffindbar, zugänglich, interoperabel und wiederverwendbar zu machen (gemäß den FAIR Data Principles). Jegliche Software wird als Open-Source zur Verfügung gestellt und die entwickelten Verfahren können an weitere Disziplinen angepasst werden.
Das Projekt wird von der Deutsche Forschungsgemeinschaft (DFG) gefördert und entsteht in Kooperation mit dem Internet Archive und dem Consortium of European Social Science Data Archives (CESSDA).
Ansprechpartner
Prof. Dr. Stefan Dietze
Informatik
Prof. Dr. Stefan Dietze ist Professor für Data & Knowledge Engineering an der HHU-Düsseldorf und wissenschaftlicher Direktor der Abteilung Wissenstechnologien für die Sozialwissenschaften bei GESIS (Leibniz Insitut für die Sozialwissenschaften) in Köln. In seiner Forschung arbeitet er an der Nutzbarmachung großer Datenmengen aus dem Web mit Methoden des Natural Language Processing (NLP), Information Retrieval und maschinellen Lernens. Als wissenschaftlicher Leiter der Abteilung Wissenstechnologien für die Sozialwissenschaften bei GESIS liegt ein besonderer Schwerpunkt auf der Nutzung von (Social) Web Daten für interdisziplinäre Forschungsfragen in den Sozialwissenschaften.
Am DIID gilt sein Interesse der Untersuchung von Online Diskursen mithilfe NLP-basierter Methoden, z.B. zur Erkennung und Klassifikation von Aussagen oder Quellen oder dem Verstehen von Informationsdiffussion in sozialen Netzwerken.