Impact messen in den Sozialwissenschaften und der Soziologie – mit Web of Science, Scopus, Google Scholar oder Altmetrics?

Am 23.09.2016 hielt ich im Rahmen der Tagung Forschungsmetriken als Dienstleistung: Herausforderungen und institutionelle Wirkungen am Wissenschaftszentrum Berlin für Sozialforschung WZB einen Vortrag mit dem Titel Forschungsmetriken und Impact in den Sozialwissenschaften. Im Mittelpunkt stand die Frage, ob Altmetrics besser als Zitationsdaten geeignet sind, den Impact (was immer man darunter verstehen mag)  sozialwissenschaftlicher Literatur zu erfassen. Meine Bilanz ist ernüchternd:  Zwar sind Altmetrics prinzipiell den Zitationsdatenbanken Web of Science oder Scopus insofern überlegen als sie auch nicht in Journalen erschienene Werke erfassen. Allerdings dominieren in den Altmetrics-Datenquellen, genau wie im Web of Science oder Scopus, englischsprachige Journalartikel. Folglich findet sich das Problem der fragmentarischen Impact-Erfassung speziell deutschsprachiger sozialwissenschaftlicher Literatur auch bei Altmetrics. Es wird verstärkt durch die seltene Verwendung der DOI in deutschsprachiger sozialwissenschaftler Literatur, denn die Altmetrics-Werte werden zumeist mittels DOI-Parsing ermittelt. Eher als Altmetrics scheint hingegen Google Scholar geeignet, den Impact sozialwissenschaftlicher Literatur zu beschreiben – zu diesem Schluss kam ich auch in meiner Dissertation.

Der besagte Vortrag findet sich in Slideshare unter http://www.slideshare.net/uherb/forschungsmetriken-und-impact-in-den-sozialwissenschaften

 

Google Scholar startet Google Library

Vorgestern startete mit der Google Library ein neuer Dienst der Wissenschaftssuchmaschine Google Scholar: Es ist nun möglich, Treffer aus Google Scholars Ergebnislisten in einer eigenen Bibliothek zu sammeln und thematisch zu gruppieren.  Zwar kann man der Bibliothek, anders als in Literaturverwaltungsumgebungen, keine beliebigen (in diesem Fall: nicht in Google Scholar indizierten) Dokumente hinzufügen, dennoch übertrifft Googles Library in mancher Hinsicht den Komfort klassischer Literaturverwaltungssysteme und Zitationsdatenbanken, denn für alle in den Bibliotheken gesammelten Publikationen stehen zusätzlich zum Reference Management die erweiterterten Funktionen Google Scholars zur Verfügung, z.B. die Zitationszählung, der Export von bibliographischen Daten oder der Verweis auf ähnliche Artikel. Wer bereits ein Autorenprofil in Google Scholar eingerichtet hat, kann sogar per Mausklick eine Library einrichten und sofort alle im eigenen Profil verzeichneten Publikationen einlesen – inklusive der darin zitierten Artikel, sofern Google Scholar diese korrekt auswerten konnte. Die Existenz eines eigenen Autorenprofils ist für Nutzung der Library allerdings keine Bedingung. Kurzum: Die Google Library verbindet ansatzweise Funktionen von Suchmaschine, Zitations-/Literaturdatenbank und Literaturverwaltung.

Mehr dazu im Google Scholar Blog. Mein Dank gebührt Jens Wonke-Stehle, dessen Facebook-Posting mich auf diese Neuigkeit aufmerksam machte.

Kooperation zwischen Google Scholar & Thomson Scientifics Web Of Science

Was in letzter Zeit schon auf einigen Mailinglisten kolportiert wurde, ist nun offiziell: Die Zitationsdaten-Indizes Google Scholar und Web of Science (des Anbieters Thomson Scientific) zeigen in ihren Suchergebnissen zusätzlich zu den Ergebnissen der eigenen Zitationszählung zu einem Dokument wechselseitig auch die Ergebnisse des fremden Dienstes an. Die Resultate des Web of Science werden selbstredend nur eingeblendet, wenn der Zugriff für den abfragenden Rechner lizenziert ist. Mehr dazu in Against the Grain unter Thomson Reuters-Google Scholar Linkage Offers Big Win for STM Users and Publishers. Bis Januar 2014 soll die Funktionalität für alle Web of Science-Abonnenten verfügbar sein. Google Scholar strebt offensichtlich keine exklusive Zusammenarbeit mit Thomson Scientific an und steht analogen Kooperationen etwa mit den Datenbanken Scopus (Elsevier) oder PubMed Central (National Institutes of Health) offen gegenüber. Auf den Artikel in Against the Grain machte Walter Umstätter aufmerksam, er verwies wiederum auf eine Meldung in Password Online (noch nicht frei einsehbar).

Google Scholar spaltet die Geister

Paul Wouters und Rodrigo Costas publizierten kürzlich für die niederländische SURFfoundation einen Bericht über neue Verfahren der wissenschaftlichen Impact Messung: Users, narcissism and control – tracking the impact of scholarly publications in the 21st century. Der Text stellt weniger eine Analyse von Altmetrics-Verfahren dar, sondern ist eher eine Art Marktübersicht und meiner Meinung nach auch gut geeignet, sich einen Überblick über die Entwicklungen auf dem Gebiet der alternativen Metriken zu verschaffen.

Das Fazit der Autoren fällt für meinen Geschmack etwas zu sehr zu Ungunsten der alternativen metrischen Verfahren aus und etwas zu sehr zu Gunsten der traditionellen zitationsbasierten Metriken resp. der zu deren Ermittlung benutzten proprietären Datenbanken wie Web of Science WoS, Journal Citation Reports JCR oder Scopus. Die Mängel dieser Datenbanken und Metriken sind an anderen Stellen hinreichend beschrieben (z.B. hier). Eigentlich wäre mir das Thema derzeit nicht so wichtig eigens einen Blog-Beitrag zu dieser Thematik zu verfassen, wäre ich in Google+ nicht über Björn Brembs auf einen kurzen Artikel Jason Snyders gestoßen, der vieles von dem thematisiert, was meiner Meinung nach den Charme Google Scholars ausmacht und mir zugleich die konservative Einschätzung von Wouters und Costas vergegenwärtigte.

Als Mängel nennen Wouters & Costas (S. 17-19) u.a.

  • Unklare Zusammensetzung des Index („Lack of transparency on the coverage and it is not clear if they follow a systematic coverage“)
  • Die fehlende Reinheit des Index („Coverage of documents that are not purely academic or scientific: library guides, text books, teaching materials, etc.“)
  • Fehlende Qualitätskontrolle des indizierten Materials sowie fehlende Kontextinformationen (etwa darüber, ob Content peer reviewed ist oder nicht) und fehlende Selektionsmöglichkeiten bei der Suche
  • Mangelhafte Abdeckung von Journalen aus den Geistes- und Sozialwissenschaften
  • Begrenzte Suchoptionen
  • Kein Resortierung der Ergebnislisten möglich
  • Import der Ergebnisse in Literaturverwaltungssoftware ist nur pro einzelnem Treffer möglich
  • Datensätze erscheinen als Dublette
  • Keine Suche nach zitierten Dokumente möglich
  • Fehlen von APIs
  • Dokumenttyp des Datensatzes/ Treffers wird nicht angezeigt (Ausnahme: Bücher)
  • Keine Verfügbarkeit normailisierter Indikatoren (z.B. über Einbeziehung der fachtypischen Zitationsraten)
  • Flüchtigkeit des Indexes
  • Im Wesentlichen fehlende Fachzuordnung von Dokumenten (daher auch kein Browsing oder eine fachliche Suche)
  • Keine Exklusion von Self-Citations

Relativierend möchte ich einwenden, dass auch die Kriterien, nach denen Thomson Reuters oder Elsevier den Index ihrer Produkte bestücken, nicht objektiv sind und dass ich die Inklusion von Text Books und Teaching Materials in den Google Scholar Index verglichen mit dem Auschluss von Webliteratur, Büchern, Conference Proceedings und verschiedener anderer Dokumenttypen aus den genannten proprietären Datenbanken sehr begrüße. Zumal Google Scholar damit schon mal einen Vorteil verglichen mit WoS & Co hat: Die Suchmaschine berücksichtigt Blogs und andere wissenschaftliche Publikationen außerhalb klassischer Verlagsveröffentlichungen. Und auch was fehlende APIs, Flüchtigkeit des Index (Ross et. al. bewiesen die fehlende Reproduzierbarkeit in den Journal Citation Reports mehrmals, ich empfehle den unten velinkten Artikel Show me the data) und die fehlende Abdeckung der Geistes- und Sozialwissenschaften angeht finde ich, dass Google Scholar nicht wesentlich schlechter zu bewerten ist als WoS, Scopus und die JCR. Und ja: Dubletten und fehlerhafte Autorendisambiguierung sind mir in WoS auch schon untergekommen.

Snyder berichtet in seinem oben erwähnten Posting sich sprunghaft ändernde Zitationszahlen im WoS (ähnliches wurde mir von befreundeten Wissenschaftlern bestätigt) und erwähnt, dass seine Zitationszahlen in Google Scholar höher als im WoS ausfallen. Was Wouters & Costas Scholar aber als Verunreinigung auslegen, empfindet Snyder (genau wie ich) als Vorteil: Scholar zählte unter anderem Zitationen aus chinesischen Artikeln, Buchkapiteln, Dissertationen, Patenten, Blogs und Anträgen auf Forschungsförderung mit ein und misst dabei Impact wesentlich umfassender als WoS, JCR oder Scopus, die nicht nur Dokumenttypen, sondern auch Sprachen diskriminieren. Alle der genannten Datenbanken indexieren bevorzugt englischsprachige Journale (die daher auch höhere Impact Scores erreichen als anderssprachige). Zusätzlich indiziert Google Scholar Dokumente, die noch nicht formal erschienen sind, aber bereits als Preprint online stehen und ermittelt deren ausgehende Zitationen. Nicht zu vergessen ist Google Scholar entgeltfrei nutzbar (wenn auch leider nicht offen) und bietet mit Google Citations Autorenprofile an, die ich bei der kostenpflichtigen Konkurrenz vergeblich suche. Kurzum: Man sollte sich von Google Scholar besser ein eigenes Bild machen, ich kann Wouters & Costas nur begrenzt zustimmen.

 

Nachtrag 07.03.2012: Nachdem ich Mails erhalten habe, die mich auf fehlerhafte Indexierungen Google Scholars hinwiesen, möchte ich klarstellen, dass mir diese Schwäche durchaus klar war und ist. In wisspub.net hatte ich dazu mal einen launigen Artikel. Dennoch hat meine in diesem Posting geäußerte Ansicht Bestand – auch wenn man sich selbstredend der Mängel Google Scholar bewusst sein sollte.

 

Literatur

Rossner, M., Van Epps, H., & Hill, E. (2007). Show me the data. The Journal of cell biology, 179(6), 1091-2. doi:10.1083/jcb.200711140
Rossner, M., Van Epps, H., & Hill, E. (2008). Irreproducible results: a response to Thomson Scientific. The Journal of experimental medicine, 205(2), 260-1. doi:10.1084/jem.20080053
Snyder, Jason: Google Scholar vs. Scopus & Web of Science. Online: http://www.functionalneurogenesis.com/blog/2012/02/google-scholar-vs-scopus-web-of-science/
Wouters, P., & Costas, R. (2012). Users, narcissism and control – tracking the impact of scholarly publications in the 21 st century.
Online: http://www.surffoundation.nl/nl/publicaties/Documents/Users narcissism and control.pdf
 
Cite this article as: Ulrich Herb, Google Scholar spaltet die Geister, in scinoptica, 5. März 2012, https://www.scinoptica.com/2012/03/google-scholar-spaltet-die-geister/.

The Publish or Perish Book

Anne-Wil Harzing, die Entwicklerin der Software Publish or Perish  (PoP) machte mich gestern darauf aufmerksam, dass sie bereits letztes Jahr ein Buch über Zitationsanalyse publiziert habe. Weitere Infos zum besagten Buch mit dem Titel The Publish or Perish Book finden sich unter http://www.harzing.com/popbook.htm. Die Software PoP gibt auf Basis der in Google Scholar ermittelten Zitationsdaten Metriken aus, v.a. in Form des Hirsch-Index (h-Index) oder dessen Varianten wie z.B. des g-index (der Zitationen aus häufig zitierten Artikeln höher gewichtet als Zitationen aus seltener zitierten Werken) oder des e-index, der (anders als der h-index) versucht die Zitationen auf Werke, die über dem eigentlichen h-Wert liegen, zu berücksichtigen: Wissenschaftler A hat einen h-Index von 8, da 8 seiner Publikationen 8 mal zitiert wurden und keine häufiger als 8 mal. Wissenschaftler B hat ebenfalls einen h-Index von 8 – allerdings wurden 3 seiner Artikel 8 mal zitiert und 5 seiner Artikel 40 mal. Der h-Index differenziert nicht zwischen A und B, beide haben einen h-Index von 8. Dem e-Index gelingt diese Differenzierung durch Verrechnung des Zitationsüberschüsses, der nicht im h-Index abgebildet wird. Anders als die Software PoP ist das begleitende Buch nicht entgeltfrei nutzbar, allerdings kann auf der Autorenhomepage ein zwölfseitiger Ausschnitt kostenlos gelesen werden und selbstredend bietet auch Amazon den „Look Inside!“ an. Das 250 Seiten umfassende Werk unterteilt sich in eine Art Bedienungsanleitung zur Software PoP, eine Darstellung unterschiedlicher Anwendungsperspektiven (Selbstevaluierung/ Karrieremanagement, Benchmarking, Forschungsadministration) und  in eine vergleichende Evaluierung von Google Scholar und Web of Science. Die Printversion von The Publish or Perish Book kostet 56,99 € via Amazon, die elektronische Fassung via Autorenhomepage 28,50 €, zusätzlich gibt es Lizenzmodelle für Lehreinrichtungen und andere Organisationen.

Scholarometer

Der Scholarometer der University of Indiana bietet ähnliche Features wie die im vorherigen Posting erwähnte Software Publish or Perish (PoP) von Anne-Wil Harzing, beide ermitteln Impact Metriken basierend auf den Daten Google Scholars. Anders als bei der Desktop-Anwendung PoP, handelt es sich beim Scholarometer um eine Browser-Extension (erhältlich für Firefox und Chrome). Beim Scholarometer muss jede Suchanfrage nach einem Autor mit einer fachlichen Eingrenzungen erfolgen. Dieser Umstand ist vermutlich der Technik der Extension geschuldet, die die Zitationsinformationen aus den Ergebnisseiten von Google Scholar scraped. Allerdings werden auch Treffer aus anderen Fächern (außerhalb der erforderlichen Eingrenzung) in die Analyse miteinbezogen. Hübsch: Der Scholarometer bietet die aus Google Scholar bezogenen Daten via API an. Diese nutzt z.B. der Tenurometer, der den h-Index eines Autors in Relation zu den durchschnittlichen h-Index-Werten eines Faches setzt.

Zitationstracking und Autorenprofile in GoogleScholar

Letzte Woche kündigte Google nach längerer Zeit wieder ein neues Feature seiner Wissenschaftssuchmaschine an. In GoogleScholar ist es nun möglich, Autorenprofile zu erstellen und Zitationen eigener Publikationen nachzuverfolgen (wer‘s englisch mag: zu tracken). Auf Basis statistischer und heuristischer Analysen werden Publikationen und deren Zitationen Autorennamen zugeordnet. Man darf gespannt sein wie gut dies gelingt – schließlich widmet sich mit ORCID ein ganzes Konsortium von Wissenschaftsverlagen, Datenanbankanbietern und Wissenschaftsdienstleistern der Autorendisambiguierung. GoogleScholar berechnet drei unterschiedliche Metriken: den h-Index, den i-10 Index (der nur Publikationen mit mehr als zehn Zitationen berücksichtigt) und die Gesamtzahl an Zitationen, die auf Publikationen eines Autors entfallen. Diese drei Metriken werden in zwei Varianten berechnet: unter Berücksichtigung aller Veröffentlichungen eines Autors sowie unter ausschließlicher Berücksichtigung der Veröffentlichungen der letzten fünf Jahre. Die Zuordnung der Publikationen zu einem Autoren kann automatisch oder auf einen GoogleScholar-Vorschlag hin durch den Verfasser geschehen. Das Nachbessern der bibliographischen Daten und Verbessern anderer Fehler soll ebenso möglich sein wie das händische Hinzufügen neuer oder der fehlender Artikel.

Das Zitationstracking muss nicht, kann aber in Form eines Autorenprofils öffentlich zugänglich gemacht werden. Eine Autorensuche in GoogleScholar führt dann zu diesem Profil. Exemplarisch verweist das Blog auf das Profil des GoogleScholar Chefentwicklers Anurag Acharya – der nicht nur einen vortrefflichen h-Index aufweist, sondern auch exquisite Vorträge hält. Acharyas Profil verrät, dass GoogleScholar eine Netzwerkkomponente en miniature enthält: Sein Profil verweist auf das seines Kollegen Alex Verstak. Die Anzahl der möglichen Nutzerprofile mit Zitationstracking ist derzeit limitiert, wer mag, kann einen Zugang online anfordern. Ob und wann dieser gewährt wird, ist nicht ersichtlich.

Übrigens nimmt Google nicht an ORCID teil, wohingegen Microsoft ein Gold Sponsor der Initiative ist.