Blackbox SSCI: Datenerfassung und Datenverarbeitung bei der kommerziellen Indexierung von Zitaten

Terje Tüür-Fröhlich
2019 Information, Wissenschaft und Praxis  
Zusammenfassung Zahlreiche Autoren, Autorinnen und kritische Initiativen (z. B. DORA) kritisieren den zu hohen und schädlichen Einfluss quantitativer Daten, welche akademische Instanzen für Evaluationszwecke heranziehen. Wegen des großen Einflusses der globalen Zitatdatenbanken von Thomson Reuters (bzw. Clarivate Analytics) auf die Bewertung der wissenschaftlichen Leistungen von Forscherinnen und Forschern habe ich extensive qualitative und quantitative Fallstudien zur Datenqualität des Social
more » ... ualität des Social Sciences Citation Index (SSCI) durchgeführt, d. h. die Originaleinträge mit den SSCI-Datensätzen verglichen. Diese Fallstudien zeigten schwerste – nie in der Literatur erwähnte – Fehler, Verstümmelungen, Phantomautoren, Phantomwerke (Fehlerrate in der Fallstudie zu Beebe 2010, Harvard Law Review: 99 Prozent). Über die verwendeten Datenerfassungs- und Indexierungsverfahren von TR bzw. Clarivate Analytics ist nur wenig bekannt. Ein Ergebnis meiner Untersuchungen: Bei der Indexierung von Verweisen in Fußnoten (wie in den Rechtswissenschaften, gerade auch der USA, vorgeschrieben) scheinen die verwendeten Textanalyse-Anwendungen und -Algorithmen völlig überfordert. Eine Qualitätskontrolle scheint nicht stattzufinden. Damit steht der Anspruch des SSCI als einer multidisziplinären Datenbank zur Debatte. Korrekte Zitate in den Fußnoten des Originals können zu Phantom-Autoren, Phantom-Werken und Phantom-Referenzen degenerieren. Das bedeutet: Sämtliche Zeitschriften und Disziplinen, deren Zeitschriften und Büchern dieses oder ähnliche Zitierverfahren verwenden (Oxford-Style), laufen Gefahr, aufgrund starker Zitatverluste falsch, d. h. unterbewertet, zu werden. Wie viele UBOs (Unidentifiable Bibliographic Objects) sich in den Datenbanken SCI, SSCI und AHCI befinden, wäre nur mit sehr aufwändigen Prozeduren zu klären. Unabhängig davon handelt es sich, wie bei fast allen in meinen Untersuchungen gefundenen fatalen Fehlern, eindeutig um endogene Fehler in den Datenbanken, die nicht, wie oft behauptet, angeblich falsch zitierenden Autorinnen und Autoren zugeschrieben werden können, sondern erst im Laufe der Dateneingabe und -verarbeitung entstehen.
doi:10.1515/iwp-2019-2038 fatcat:jwis6jblobb47gumydlpnqquwm