Qualitätssicherung & Qualitätsmessung

Qualitätssicherung

Die Techniken zur Qualitätssicherung wissenschaftlicher Publikationen unterscheiden sich je nach Disziplin. Gängige Vorgehensweisen sind:

  • Die Begutachtung durch Herausgeber (auch als Editorial Review bezeichnet) ist oft verbunden mit der Einladung zu Artikeln und findet sich vor allem bei Publikationen in geistes- und sozialwissenschaftlichen Journalen und Sammelwerken.
  • Die als Peer Review bezeichnete Begutachtung einer Einreichung durch Experten fand sich früher vorrangig in den sogenannten STM-Fächern (Science, Technology, Medicine, also Naturwissenschaften, Technik, Medizin), ist aber mittlerweile auch in den Geistes- und Sozialwissenschaften überaus gebräuchlich. Sie findet sich bei unterschiedlichen Publikationstypen wie etwa Journalartikeln, Konferenzbeiträgen oder Sammelwerken. Die klassische Peer Review kennt zwei Ausprägungen, das Single Blind Verfahren, bei dem der oder die Gutachter den Autoren kennen, der Autor aber nicht die begutachtende(n) Person(en) und das Double Blind, bei dem Gutachter und Autor einander unbekannt sind. Das Triple Blind Verfahren, in dem die Autoren den Gutachtern und auch den Herausgebern unbekannt sind und das der Bevorzugung bestimmter Autoren und der Netzwerkbildung vorbeugt, findet selten Anwendung. Ein Beispiel ist die Zeitschrift für Soziologie, bei der teils auch Artikel renommierter Autoren Ablehnungen erfahren haben sollen (vgl. Fröhlich 2003).
  • Bei Konferenzbänden erfolgt teils eine Begutachtung durch das Programmkommittee der Konferenz, das vor der Veranstaltung Einreichungen bewertet, die später im Konferenzband publiziert werden. Diese Begutachtung kann durch eine Peer Review oder Editorial Review ergänzt werden und findet sich in Geisteswissenschaften, Sozialwissenschaften und Naturwissenschaften. Vor allem aber in der Informatik sind begutachtete Konferenzbeiträge eine eminent wichtige Publikationsart.

Zusätzlich existieren mit der Open Review und der Collaborative Review innovative und transparente Alternativen zu den klassischen Begutachtungsverfahren. Bei der Collaborative Review können Gutachter, Autoren und registrierte Nutzer die Submissions und Reviewer-Statements diskutieren. Die Open Review kennt zahlreiche Abstufen der Offenheit, daher seien hier nur einige mögliche Merkmale und Spielarten skizziert:

  • Namen der Peers werden mit Artikel veröffentlicht
  • Reviews werden mit dem Artikel veröffentlicht
  • Eingereichte Beiträge werden sofort veröffentlicht (Preprint)
  • Offene Begutachtung
  • Autoren können auf Kommentare der Peers antworten
  • Abgabe öffentlicher Kommentare zu eingereichten Beiträgen
  • Beiträge können offen bearbeitet und korrigiert werden

Peer Review: Kritische Anmerkungen

Auch wenn die Peer Review als das Verfahren schlechthin zur Qualitätssicherung wissenschaftlicher Arbeiten gilt, ist die Kritik an der Peer Review mannigfaltig und fundiert (im Überblick Fröhlich 2003). Allen Eigenschaften voran wird die Intransparenz der Methode kritisiert, Fröhlich spricht gar von einer „Arkanpraxis der Zeitschriftenverlage, deren Herausgeber-Referee-Begutachteten-Interaktionen nach Modell konspirativer Organisationen funktionieren: die GutachterInnen sind für gewöhnlich anonym, kaum einer der Beteiligten weiß voneinander, und nur selten bekommen die Begutachteten die Gutachten überhaupt oder gar vollständig zu Gesicht“ (Fröhlich 2003, S. 130). Bei der klassischen Peer Review ist ganz sicher das Fehlen eines offenen wissenschaftlichen Diskurses zu bemängeln. Allerdings existieren auch zahlreiche Verzerrungen, die dazu führen, dass nicht die besten Artikeln den Weg zur Publikation meistern, sondern solche, die etwa von den renommiertesten Wissenschaftlern stammen. Ein Grund für die Bevorzugung renommierter Autoren dürfte sein, dass deren Artikel dem publizierenden Journal höhere Zitationszahlen einbringen (zu Bedeutung der Zitationshäufigkeiten s. weiter unten). Zudem gewährt die Peer Review selbstredend den Gutachtern Macht, die missbraucht werden kann: Einreichungen konkurrierender Kollegen oder Schulen können abgelehnt werden oder Artikel können abgelehnt und kurz darauf vom Gutachter selbst in sehr ähnlicher Form eingereicht werden. (vgl. Fröhlich 2003)

Häufig werden in einer ersten Auslese Beiträge nach oberflächlicher Prüfung abgelehnt, dieses als desk reject bezeichnete Verfahren ist mit einer hohen Irrtumswahrscheinlichkeit behaftet. Zudem sind die Gutachter oft befangen und akzeptieren tendenziell eher Mainstream-Artikel, um sich nicht der Kritik der Herausgeber auszusetzen und einen gegebenenfalls möglich Aufstieg vom Gutachter zum Herausgeber des aktuellen oder anderer Journals zu verbauen. Renommierte Autoren werden von den Herausgebern aus Angst vor Verlust des Autors teils Gutachtern der gleichen Schule zugedacht, folglich werden ihre Artikel im Zweifelsfall eher akzeptiert. Weil etablierte Wissenschaftler für Journals wichtig sind, sind sie auch attraktive Koautoren: Weniger reputierte Wissenschaftler steigern die Chancen auf die Annahme ihrer Artikel, indem diese zusammen mit den anerkannten Experten einreichen. Von dieser Strategie profitieren beide Partner: Der Nachwuchswissenschaftler, der einen Artikel in einem Core-Journal platzieren kann, den er ohne den renommierten Paten niemals dort hätte veröffentlichen können und für den er respektable Zitationswerte erwarten kann, und der arrivierte Wissenschaftler, der ohne nennenswerten eigenen Aufwand seine Publikationsliste um einen Eintrag strecken kann. Gerhard Fröhlich beschreibt solche Strategien als unethische Autorenschaften (Fröhlich 2006).

Auch verschiedene empirische Untersuchungen relativieren das Vertrauen in die Peer Review. Fröhlich (2003, 2006) bietet einen lesenswerten Überblick über Verfahren und Ergebnisse der Peer-Review-Forschung, die hier nur kurz skizziert werden:

  • Werden in einer Art wissenschaftlicher Wallraffiade Beiträge renommierter Wissenschaftler, die bereits in Journalen publiziert waren, erneut als Werke namenloser Autoren und mit leicht geänderten Titeln eingereicht, werden diese meist nicht als Wiedereinreichungen erkannt, sondern abgelehnt oder angenommen.
  • Empirische Untersuchungen weisen einen nur geringen Zusammenhang zwischen Gutachterurteilen zum selben Artikel auf.
  • Die National Science Foundation NSF ließ je 50 akzeptierte und abgelehnte Projektanträge von ihren Gutachtern nochmals bewerten. Fazit: Gutachterurteil, Ablehnung und Annahme eines Antrags sind zufällig.
  • Die Peer Review leidet unter Netzwerkbildung, einem Geschlechterbias (männliche Gutachter bevorzugen männliche Einreichungen), Sprachbias zugunsten englischer Muttersprachler und einem Altersbias: Jüngere Gutachter urteilen rigider als ältere. Solche Praktiken laufen eindeutig Robert Mertons erstem Postulat des Wissenschaftsethos, dem Universalismus, zuwider.

Darüber hinaus muss die Vergleichbarkeit der Review-Verfahren in zweifacher Hinsicht angezweifelt werden: Nicht nur die Experteneigenschaften, die einen Peer ausmachen sollen, unterscheiden sich von Journal zu Journal, sondern auch die konsequente Anwendung einer Peer Review. Oft ist fraglich, welche Zeitschriften überhaupt extern begutachtet werden (vgl. Fröhlich 2003).

Weiterhin hängt die Aufnahme oder Ablehnung eines Artikels nicht immer von dessen wahrgenommener Qualität ab, sondern von einer a priori festgelegten Ablehnungsquote der Journals, die keinen plausiblen Zusammenhang mit der Qualität aufweist, sondern aus einer der Disziplintraditionen geschuldeten Journaldicke abgeleitet wird. So weist die Physik, deren Journale eher umfangreich sind, geringe Ablehnungsquoten auf (ca. 20 bis 30%), während die Ablehnungsquoten der eher schmalen Philosophie-Journals zwischen 80 und 90% liegen (vgl. Fröhlich 2003, Fröhlich 2006).

Es existieren auch etliche Beweise für das Versagen der Peer Review (vgl. Fröhlich 2006, Naica-Loebell 2002, Diekmann 2006): Selbst in den Flaggschiffen der Naturwissenschaften Nature und Science erschienen offensichtlich manipulierte Artikel. Beispielhaft seien Publikationen des deutschen Forschers Schön und des Klonforschers Hwang Woo-suk, die beide in peer-review-geprüften Topjournals wie Science oder Nature publizierten, genannt.
Letztlich zwingt der Publikationsdruck, dem Wissenschaftler unterliegen, in Kombination mit der Peer-Review-Praxis zu einem Paradoxon: Da abgelehnte Artikel in der Regel von den Autoren bei anderen Journals neu eingereicht werden, verursachen minderwertige Artikel die höchsten Bearbeitungszeiten durch Herausgeber, Gutachter und Redaktionen – unter der Prämisse, dass eine Ablehnung wegen minderer Qualität erfolgte.

Qualitätsmessung

Die anerkanntesten Verfahren zur Messung der Qualität einer wissenschaftlichen Arbeit beruhen auf Zitationsanalysen. Von Belang sind vorrangig der Journal Impact Factor (JIF) und der Hirsch-Index (oder h-Index).

Journal Impact Factor

Der Journal Impact Factor basiert auf der Formel

Zahl der Zitate im laufenden Jahr auf Artikel eines Journals der vergangenen zwei Jahre


Zahl der Artikel des Journals der vergangenen zwei Jahre

Die Kritik am JIF ist vielfältig (Dong, Loh & Mondry 2005, Campell 2008, Seglen 1998):

  • Der JIF wird auf Basis der Journal Citation Reports (JCR) berechnet. Der Scope des JCR ist seiner Natur nach begrenzt, d.h. es sind längst nicht alle Journale im JCR enthalten und werden ausgewertet, weshalb er weder JIF-Werte für alle existierenden Journale nachweisen kann, noch alle Zitate, die die in ihm nachgewiesenen Journale erhalten, erfassen kann.
  • Vom JIF sind ganze Dokumentarten ausgeschlossen: etwa graue Literatur, wissenschaftliche Berichte, Bücher, der Großteil der Web-Publikationen.
  • Der JIF weist einen deutlichen Sprachbias zugunsten englischsprachiger Journals auf, Zeitschriften in anderen Sprachen haben einen niedrigeren JIF, da sie im Sample unterrepräsentiert sind.
  • Der JIF bezieht sich auf Journale, nicht Artikel: I.d.R. führt eine geringe Anzahl sehr häufig zitierter Artikel zu einem hohen Wert für das Journal (Seglen 1997, Campell 2005). Im Umkehrschluss profitieren zahlreiche Autoren selten zitierter Artikel von wenigen hoch zitierten Artikeln.
  • Der JIF ignoriert Verwertungszyklen in unterschiedlichen Disziplinen und benachteiligt daher Journals aus Disziplinen mit Verwertungszyklen, die länger als zwei Jahren andauern.
  • Der JIF ignoriert das Mehrautorenproblem. Selbst wenn man versuchte den JIF-Wert der Journals, in dem ein Artikel erschien, auf Autoren herunterzurechnen müsste der Score durch die Anzahl der Autoren eines Artikel relativiert werden.
  • Vernachlässigung kontextueller Aspekte (Gewichtung): Die JIF-Formel gewichtetet alle eingehenden Zitation gleichwertig. Alternative Verfahren versuchen eine Gewichtung vorzunehmen, indem Zitationen aus oft zitierten Journals ein höheres Gewicht erhalten als Zitationen aus selten zitierten Journalen.
  • Generell bieten zitationsbasierte Impact-Maße Manipulationsmöglichkeiten. Selbstzitierungen des eigenen Journals werden Autoren daher gern von Journalen ans Herz gelegt.
  • Der JIF schafft einen Matthäus-Effekt: Wissenschaftler zitieren häufig Journals mit hohen JIF-Scores in der Annahme, dies sei ein Zeichen der Qualität des Journals und um den eigenen Artikel aufzuwerten. Diese Strategien führen zu einem weiter steigenden JIF-Wert bereits hochgerankter Journals. (Merton 1968, Merton 1988)

Zudem ist die Messdimension des JIFs unklar: Es ist offen, über welches Merkmal der JIF eine Aussage trifft – Popularität, Qualität, eine Konfundierung aus beidem oder eine ganz und gar andere Eigenschaft?

Hirsch-Index

Der Hirsch-Index oder h-Index wird folgendermaßen berechnet:

Ein Autor hat einen Index h, wenn h von seinen insgesamt N Veröffentlichungen mindestens jeweils h Zitierungen haben und die anderen (N-h) Publikationen weniger als h Zitierungen.

Folglich hat ein Autor einen h-Index von 8, wenn er 8 Schriften veröffentlicht hat, die jeweils mindestens 8 Mal zitiert worden sind. Ein h-Index von 12 setzt die Publikation von 12 Schriften voraus, die mindestens 12 Mal zitiert wurden. Der größte Unterschied zum auf Journale ausgerichteten JIF ist die Autorenzentrierung des h-Index. Außerdem verhindert seine Konstruktion einerseits, dass Zitationen einer einzigen, vielzitierten Veröffentlichung sich verzerrend niederschlagen; andererseits werden innovative Ansätze benachteiligt. Tendenziell findet ein Großteil der JIF-Kritik auch auf den h-Index Anwendung, etwa:

  • Vernachlässigung von Dokumentengattungen und nicht-englischer Publikationen
  • Keine der zur Berechnung des h-Index verwendbaren Datenbanken kann wirklich alle Zitate auf eine Publikation nachweisen.
  • Mehrautorenproblematik
  • unklare Messdimension

Auch wenn der h-Index nicht an eine einzige Datenbasis wie den JCR gebunden ist, sondern man je nach Datenbasis (Web of Knowledge, Scopus, Google Scholar, etc.) unterschiedliche h-Indizes berechnen kann, leiden doch alle bekannten und in Frage kommenden Datenbanken unter der Problematik einer nicht sehr trennscharfen Autorenidentifikation – was zugleich bedeutet, dass die Zitationszahlen oft falsch berechnet werden. Zudem sind die Werte einzelner Wissenschaftler sehr schwer vergleichbar, denn der h-Index hängt vom Alter des Autors und seiner Disziplin ab.

Alternativen

Der Wissenschaftsrat entwickelte in seiner Pilotstudie (Wissenschaftsrat 2008) eigene Modelle zum Rating (n.b. nicht zum Ranking) wissenschaftlicher Einrichtungen für die Fächer Chemie (publiziert 2007) und Soziologie (publiziert 2008). Die herangezogenen Kriterien waren:

  • Qualität und Quantität von Publikationen und der Drittmittelprojekte
  • Publikationsbezogene Kriterien: Publikationstyp, Sprache, Herkunftsland sowie die stattgefundene oder nicht stattgefundene Begutachtung der Dokumente durch eine Peer Review.

Die Qualität der Publikationen versuchte man wie üblich vorrangig über Zitationswerte zu bestimmen. Überraschenderweise wich man im Fall der Soziologie aus Mangel an verlässlichen Zitationsdaten auf ein stichprobenartiges Prüfverfahren aus: Die Publikationen wurden von Experten hinsichtlich der Qualität bewertet (v.a. Journalbeiträge und Auszüge aus Monographien). Außerdem versuchte man in diesem Fach die Qualität der Drittelmittelprojekte ebenfalls durch Expertenurteile nach Sichtung der Projektbeschreibungen zu bestimmen. Auch die in Großbritannien im 5-Jahresrhythmus durchgeführte Research Assessment Exercise nutzt zur Bewertung der Qualität eher qualitative Verfahren. Ein Panel von fachlich ausgewählten Peers prüft und bewertet Artikel aus wissenschaftlichen Journalen, Konferenzbeiträge, Forschungsoutput und die wahrgenommene wissenschaftliche Qualität.

Literatur

Campbell, P. (2005). In praise of soft science. Nature, 435(7045), 1003. doi: 10.1038/4351003a.

Campbell, P. (2008). Escape from the impact factor. Ethics in Science and Environmental Politics, 8(1), 5-7. doi: 10.3354/esep00078.

Diekmann, A. (2006). „ Es war der Höhenrausch “. Der Spiegel, (2), 156-158.

Dong, P., Loh, M., & Mondry, A. (2005). The “impact factor” revisited. Biomedical digital libraries, 2(7). doi: 10.1186/1742-5581-2-7.

Fröhlich, G. (2003). Anonyme Kritik: Peer Review auf dem Prüfstand der Wissenschaftsforschung. medizin – bibliothek – information, 3(2), 33-39. Verfügbar unter http://www.agmb.de/mbi/2003_2/froehlich33-39.pdf.

Fröhlich, G. (2006). Plagiate und unethische Autorenschaft. Information – Wissenschaft & Praxis, 57(2), 81-89. Verfügbar unter http://eprints.rclis.org/7416/.

Merton, R. K. (1968). The matthew effect in science. Science159(3810), 56-63. doi: 10.1126/science.159.3810.56.

Merton, R. K. (1988). The Matthew Effect in Science, II: Cumulative Advantage and the Symbolism of Intellectual Property. Isis, 79(4), 606-623. doi: 10.1086/354848.

Naica-Loebell, A. (2002). Schön zum Narren gehalten. Telepolis, 30.09.2002. Verfügbar unter http://www.heise.de/tp/r4/artikel/13/13336/1.html.

Seglen, P. O. (1997). Why the impact factor of journals should not be used for evaluating research. BMJ, 314(7079), 498–502. Verfügbar unter www.bmj.com/cgi/content/full/314/7079/497.

Seglen, P. O. (1998). Citation rates and journal impact factors are not suitable for evaluation of research. Acta Orthopaedica, 69(3), 224-229. doi: 10.3109/17453679809000920.

Wissenschaftsrat. (2008). Pilotstudie Forschungsrating : Empfehlungen und Dokumentation. Köln: Wissenschaftsrat. Verfügbar unter http://www.wissenschaftsrat.de/download/Forschungsrating/Dokumente/FAQ/Pilotstudie_Forschungsrating_2008.pdf.

Cite this article as: Ulrich Herb, Qualitätssicherung & Qualitätsmessung, in scinoptica, 5. September 2016, https://www.scinoptica.com/materialien/wissenschaftliches-publizieren/qualitaetssicherung-qualitaetsmessung/.