key: cord-0860936-pfz973fz authors: Waldvogel, Thomas; Wagschal, Uwe; Metz, Thomas; Becker, Bernd; Feiten, Linus; Weishaupt, Samuel title: Validität und Reliabilität virtualisierter RTR-Messungen date: 2021-07-26 journal: Publizistik DOI: 10.1007/s11616-021-00680-1 sha: ee5fa33126b331b82f2eecb036e7ca9692b38536 doc_id: 860936 cord_uid: pfz973fz Real-Time Response Measurement (RTR) is an important approach in political communication research to investigate human processing of political information. Since Reinemann et al. demonstrated the reliability and validity of RTR with physical input devices in laboratory experimental study designs in this journal 15 years ago, measurement technology has experienced an instrumental change characterized by its virtualization. At the same time, there still is little methodological knowledge available about the fundamental changes in this key technology. Therefore, this article examines the extent to which data collected in a field study using a virtualized RTR-Measurement tool meet established standards of data quality. Therefore, our first research question examines the validity of the RTR data in three ways. First, we consider construct validity. The results of our Kruskal-Wallis tests show a statistically significant differentiation of RTR rating behavior along party lines. This positive assessment is underlined by the high match score of a discriminant analysis. In a further analysis step, we implement a sparse structural equation model that assesses the relationship between party identification and RTR measurement, allowing us to draw conclusions about the construct validity of the virtualized RTR measurement. The calculated coefficients provide evidence that party identification and real-time rating are significantly and substantially associated. Although our analysis focuses merely on the partisan groups of the two candidates which parties are represented in the TV debates, in summarizing the results, we consider the question of construct validity (FF1.1) to be positively decided. As a second perspective, we investigate criterion validity. A central finding here emerges from an examination of the sparse structural equation model, at the core of which is the relationship of RTR ratings and retrospective verdicts on debate performance. Controlling for party identification, we can show that the coefficients are very strong and significant. This observation holds across all duels and candidates. We thus find a consistent pattern, which leads us to answer the question about criterion validity (FF1.2) of our virtualized RTR measure in the affirmative. As a third perspective, we focus on content validity. For this purpose, we refer to an established structural equation model that embeds the RTR signal in a complex framework of upstream and downstream variables of debate reception. Our results are broadly consistent across duels and candidates: real-time evaluations during the debate are significantly preformed by political predispositions (prior candidate evaluation). Consistent with our previous findings, perceived debate performance is largely a function of RTR ratings in this more complex model; this underscores the previously positive assessment about the criterion validity of the virtualized RTR measure. In turn, the retrospective candidate evaluations are significantly shaped by the real-time ratings and the retrospective verdicts on debate performance. Consequently, the framework used shows that the structure of debate perception in our field studies corresponds to findings known from studies in laboratory settings with physical input devices. We are therefore confident to answer the question of content validity (FF1.3) of our virtualized RTR measurement positively. Our second research question focuses on the reliability of the RTR data and examines it in two ways. First, using a resampling approach, we take a close look at the aggregated RTR time series. On the one hand, we find that virtualized RTR measures can indeed generate data whose aggregate RTR time series for two subsamples are clearly associated with each other in the resampling procedure. On the other hand, the findings are ambivalent because the existing correlations are only of moderate strength and in some cases only weak. Thus, the RTR measure seems to depend on the composition of the sample to a considerable extent. In a second analysis strategy, we check the individual RTR time series for internal consistency. Both Cronbach’s alpha and McDonald’s omega demonstrate a high degree of intercorrelation between the RTR ratings of the individual speech phases. When summarizing our findings on the aggregated and individual RTR time series, we must acknowledge limitations to our research question two (FF2): Virtualized RTR measurements can generate reliable data. However, this is not an automatism; rather, researchers must take special caution to ensure the conditions for an adequate study design in the online setting. Acknowledging that our results are subject to multiple limitations, we conclude that the virtualization of RTR-Measurement establishes a complementary approach to studies with a laboratory research design dominating the literature, making the analysis of viewers’ reactions to televised debates in natural reception situations accessible even in times of the COVID-19 pandemic. As a third perspective, we focus on content validity. For this purpose, we refer to an established structural equation model that embeds the RTR signal in a complex framework of upstream and downstream variables of debate reception. Our results are broadly consistent across duels and candidates: real-time evaluations during the debate are significantly preformed by political predispositions (prior candidate evaluation). Consistent with our previous findings, perceived debate performance is largely a function of RTR ratings in this more complex model; this underscores the previously positive assessment about the criterion validity of the virtualized RTR measure. In turn, the retrospective candidate evaluations are significantly shaped by the real-time ratings and the retrospective verdicts on debate performance. Consequently, the framework used shows that the structure of debate perception in our field studies corresponds to findings known from studies in laboratory settings with physical input devices. We are therefore confident to answer the question of content validity (FF1.3) of our virtualized RTR measurement positively. Our second research question focuses on the reliability of the RTR data and examines it in two ways. First, using a resampling approach, we take a close look at the aggregated RTR time series. On the one hand, we find that virtualized RTR measures can indeed generate data whose aggregate RTR time series for two subsamples are clearly associated with each other in the resampling procedure. On the other hand, the findings are ambivalent because the existing correlations are only of moderate strength and in some cases only weak. Thus, the RTR measure seems to depend on the composition of the sample to a considerable extent. In a second analysis strategy, we check the individual RTR time series for internal consistency. Both Cronbach's alpha and McDonald's omega demonstrate a high degree of intercorrelation between the RTR ratings of the individual speech phases. When summarizing our findings on the aggregated and individual RTR time series, we must acknowledge limitations to our research question two (FF2): Virtualized RTR measurements can generate reliable data. However, this is not an automatism; rather, researchers must take special caution to ensure the conditions for an adequate study design in the online setting. Acknowledging that our results are subject to multiple limitations, we conclude that the virtualization of RTR-Measurement establishes a complementary approach to studies with a laboratory research design dominating the literature, making the analysis of viewers' reactions to televised debates in natural reception situations accessible even in times of the COVID-19 pandemic. Keywords Real-Time Response Measurement · RTR · Reliability · Validity · Televised debates 1 Einleitung Im Fernsehen übertragene Diskussionen zwischen den Spitzenvertretern politischer Parteien vor Wahlen können als Kulminationspunkt politischer Kommunikation gelten. Für die kommunikations-und politikwissenschaftliche Analyse bieten sie ein besonders erkenntnisreiches Forschungsfeld, weil sie die exemplarische und klar abgrenzbare Untersuchung eines Forschungsobjektes erlauben, dessen Erkenntnisse über die konkrete Kommunikationssituation hinausreichen (vgl. Vögele et al. 2013, S. 31) . In der empirischen Debattenforschung sind dabei Experimente mit Vorher-Nachher-Messung weit verbreitet, ebenso wie Bevölkerungsbefragungen (vgl. Reinemann et al. 2005, S. 56) . Ihnen ist gemein, dass sie den Medieninhalt als Einheit betrachten und folglich keine näheren Aussagen über die Informationsverarbeitung von Rezipienten während der Stimulusrezeption erlauben. Als besonders erkenntnisreich erweisen sich deshalb Studien, die die Messung von Echtzeitreaktionen der Zuschauer während der Stimulusrezeption in das methodische Zentrum der Analyse stellen. Diese sogenannten Real-Time-Response-Messungen (RTR) ermöglichen es den Probanden, ihre spontanen Eindrücke über eine Debatte unmittelbar mit Hilfe eines Eingabegerätes sekundengenau mitzuteilen. Diese Eingaben werden mit einem Zeitstempel und Pseudonym versehen und zentral gespeichert. Forschende haben dann die Möglichkeit, diese Daten grafisch aufzubereiten und statistisch auszuwerten. Die Messung der Echtzeitreaktionen wird für gewöhnlich mit einer zumindest zweiwelligen Befragung vor und nach der Rezeption verbunden (vgl. Biocca et al. 1994; Ottler 2013; Waldvogel und Metz 2017) . RTR-basierte Studien zu politischen TV-Debatten konnten zeigen, dass motivationale Variablen wie das Interesse am Wahlkampf und die Partizipationsbereitschaft (vgl. Faas und Maier 2004a; Maier et al. 2013; Range 2017) , kognitive Größen wie das Urteilsvermögen, politisches Wissen und das subjektive Kompetenzgefühl (vgl. Faas und Maier 2011; Maier 2007a; Maier et al. 2013; Maurer und Reinemann 2006) , kandidatenbezogene Einstellungen wie die Kandidatenpräferenzen und -images (vgl. Maier und Faas 2003; Maurer und Reinemann 2003; Maurer et al. 2007; Bachl 2013; Maier 2007b ; Waldvogel 2019) oder verhaltensrelevante Aspekte wie die Wahlabsicht (vgl. Faas und Maier 2004b; Maier, M. 2007; Maier et al. 2013 ) von der TV-Duell-Rezeption maßgeblich beeinflusst werden. Während sich seit der Etablierung politischer TV-Debatten in Deutschland also eine ausdifferenzierte Forschungslandschaft entwickelt hat, die detaillierte Befunde über die Inhalte, Wahrnehmungen und Wirkungen beförderte, fanden methodologische Ansätze, die die Qualität der erhobenen Echtzeitdaten, deren Reliabilität und Validität fundiert in den Blick nehmen, weit weniger Beachtung (vgl. Maier et al. 2009 Maier et al. , 2007 . Dies erscheint insbesondere deshalb unzureichend, weil sich die RTR-Messung seit wenigen Jahren in einem tiefgreifenden Wandel befindet, der sich in der Virtualisierung ihres Messinstrumentariums vollzieht (vgl. Maier et al. 2016; Metz et al. 2016; Waldvogel und Metz 2020 Campbell et al. 1960, S. 130) , wird im Kontext von RTR-Messungen Konstruktvalidität als eine ausgeprägte Assoziation zwischen den gemessenen RTR-Bewertungen und der Parteienidentifikation definiert (vgl. Maier et al. 2007, S. 66 Die methodologische Forschung zeichnet für die unterschiedlichen Formen physischer Eingabegeräte wie Dreh-, Schieberegler und Druckknopfsysteme insgesamt ein positives Bild über die Reliabilität des RTR-Messverfahrens (vgl. Hallonquist und Suchman 1944; Hallonquist und Peatman 1947; Schwerin 1940) , wenngleich die Erkenntnisse immer noch fragmentiert sind (vgl. Bachl 2014, S. 53-63; Papastefanou 2013) . Neben diesen vielversprechenden Befunden zu physischen RTR-Eingabegeräten untersuchen nur wenige Studien die Reliabilität virtualisierter RTR-Messungen. Metz et al. (2016) berichten eine Korrelation von 0,77 beim Vergleich einer virtualisierten Schieberegler-Implementierung mit physischen Drehreglern für zwei randomisierte Gruppen in einem kontrollierten, quasi-laborexperimentellen Studiendesign. Diese Ergebnisse werden von Maier et al. (2016) gestützt, die in ihrem Paralleltest von zwei nicht randomisierten Gruppen Koeffizienten von über 0,51 berichten. Die Gruppen verfolgten dieselbe Debatte -eine im Labor mit physischen Eingabegeräten und eine weitere Gruppe zu Hause mit einer virtualisierten RTR-Applikation. In Erweiterung des von Papastefanou (2013) und Bachl (2014, S. 106-110) für laborbasierte RTR-Erhebungen dargelegten Ansatzes für die Beurteilung der internen Konsistenz von RTR-Daten berichten Waldvogel und Metz (2020) in ihrer Studie sowohl für Cronbachs Alpha als auch für McDonalds Omega Werte nahe oder über 0,90, was ebenfalls auf eine hohe Reliabilität virtualisierter RTR-Messungen hinweist. Mit der Implementierung virtualisierter Formen der RTR-Messung scheinen vielfältige Erwartungen verknüpft: Die externe Validität der Erhebung soll verbessert, die Hürden für die Studienteilnahme sollen gesenkt, die räumliche Repräsentation der Stichprobe erhöht und die Kosten für die technische Ausstattung reduziert werden (vgl. Waldvogel 2020b, S. 24-25) . Gleichzeitig birgt das Verlassen des Labors aber auch ein erhebliches Risiko, da die Forscher keine Kontrolle über das Umfeld haben, in dem die Teilnehmer die Debatte verfolgen. Folglich haben sie auch keine Möglichkeit, eine Standardisierung des Erhebungsprozesses und ausreichende Datenqualität sicher zu gewährleisten. So könnten zusätzliche Quellen der Ablenkung beispielsweise durch parallele Social-Media-Aktivitäten zu inkonsistenten Bewertungsmustern in Echtzeit führen (Reliabilität) oder der unkontrollierte Konsum von Vor-und Nachberichterstattung zu einem TV-Duell die Assoziationen des RTR-Signals zu vor-und nachgelagerten Variablen der Debattenrezeption negativ beeinflussen (Validität). Wir haben deshalb eingangs unsere erste Forschungsfrage formuliert: Ist die Datenstruktur virtualisierter RTR-Messverfahren valide (FF1)? Als Ansätze für die Analyse der Validität haben wir die drei Konzepte der Konstrukt-, Kriteriums-und Inhaltsvalidität beschrieben (vgl. Bachl 2013; Maier et al. 2007 Maier et al. , 2016 Wagschal 1999, S. 40) . Vorherige Studien belegen die Konstruktvalidität anhand der Assoziation zwischen dem RTR-Signal und der Parteiidentifikation, was uns zu der Frage veranlasst, ob wir eine äquivalente Assoziation auch für unsere virtualisierten RTR-Daten finden können (FF1.1). Ausgehend von einer grundlegenden Freund-Feind-Logik der sozialen Identität, die im Zentrum der Parteiidentifikation steht (vgl. Green et al. 2002 ) sowie konsistenztheoretischen Überlegungen (vgl. Festinger 1962 Heider 1958; Faas und J. Maier 2004b) , die zu selektiven Wahrnehmungen politischer Inhalt führen, vermuten wir, dass die verschiedenen Gruppen politischer Anhängerschaft in ihren Echtzeitbewertungen signifikant voneinander unterscheidbar sind (H1). Des Weiteren kann die Validität im Sinne einer Kriteriumsvalidität beurteilt werden, indem der Zusammenhang zwischen den Echtzeitreaktionen und einem externen Kriterium wie z. B. der wahrgenommenen Debattenleistung analysiert wird (FF1.2). Wir gehen dabei von der Hypothese aus, dass die Echtzeit-Evaluationen und retrospektiven Urteile über die Debattenleistung unter Kontrolle der politischen Voreinstellung der Parteiidentifikation nicht nur signifikant, sondern auch substanziell korreliert sind (H2). Mit der Inhaltsvalidität (FF1.3) weiten wir den Blick über die beschriebenen Zusammenhänge hinaus und nehmen an, dass die virtualisierte RTR-Messung einer Struktur der Debattenrezeption folgt, wie sie aus Untersuchungen mit laborexperimentellen Studiendesigns und physischen Eingabegeräten bekannt ist (vgl. Bachl 2013), wobei die unmittelbaren Wahrnehmungen in Echtzeit substanziellen Einfluss auf die retrospektiven Kandidatenbewertungen nehmen (H3). Unser zweiter Analyseschwerpunkt liegt auf der Frage, ob virtualisierte RTR-Messungen reliable Daten generieren können (FF2). Zur Beantwortung dieser Frage nehmen wir zwei Perspektiven ein: Um die Reliabilität der aggregierten RTR-Zeitreihen zu beurteilen, folgen wir Bachls (2014, S. 101-106) Ansatz zur Reliabilitätsprüfung laborexperimenteller RTR-Daten und implementieren ein dem Split-Half-Design entlehntes Resampling-Verfahren. Wenn die aggregierten RTR-Zeitreihen zuverlässig Auskunft über die Bewertung der Kandidaten durch die gesamte Gruppe geben, sollten zwei Zeitreihen, die jeweils aus den Bewertungen der Hälfte der Rezipienten zufällig gebildet wurden, miteinander korreliert sein. Ist dies nicht der Fall, so wäre der Verlauf der aggregierten Zeitreihen in starkem Maße von der individuellen Zusammensetzung der Stichprobe abgängig und die Reliabilität des Messverfahrens in Frage gestellt. Auf Grund der variablen Befunde, wie sie zum Beispiel Bachl (2014, S. 60) berichtet, und weil es keinen allgemeinen Schwellenwert für die Beurteilung von Korrelationen zwischen aggregierten RTR-Zeitreihen gibt (vgl. Maier et al. 2016, S. 549) , folgen wir der allgemeinen Methodenliteratur (vgl. Wagschal 1999, S. 197) , indem wir Korrelationskoeffizienten von über 0,6 als mittelstark und damit ausreichend beurteilen, um eine akzeptable Reliabilität der aggregierten RTR-Zeitreihen anzuzeigen (H4). K Um die Reliabilität der individuellen RTR-Zeitreihen zu prüfen, können McDonalds Omega und Cronbachs Alpha als in der Literatur etablierte Indikatoren gelten (vgl. Papastefanou 2013; Bachl 2014, S. 60; Waldvogel et al. 2021) . Diese Parameter messen die interne Konsistenz der RTR-Eingaben über die Zeit hinweg. Die Grundidee dieses Ansatzes ist es, die Abfolge eingehender RTR-Ratings als ein Test-Retest-Szenario zu interpretieren, bei dem das RTR-Signal als eine Längsschnittmessung betrachtet wird, in der wiederholt dasselbe Item über die gesamte Dauer der Debattenrezeption abgefragt wird. Wenn das virtualisierte Messinstrumentarium die Echtzeitreaktionen der Zuschauer zuverlässig erfasst, so sollten die Echtzeitbewertungen der Probanden zumindest in kurzfristiger Perspektive nicht stark variieren. Vielmehr werden substanzielle Interkorrelationen zwischen den Quasi-Items als Zeichen dafür gewertet, dass das virtualisierte Messverfahren als intern konsistent und damit reliabel angesehen werden kann (vgl. Waldvogel und Metz 2020) . Während in der Literatur Koeffizienten von über 0,9 ein sehr hohes Maß an Reliabilität anzeigen, werden Werte über 0,8 als akzeptabel angesehen (vgl. Bortz und Döring 2006, S. 199) . In der Annahme, dass unsere virtualisierten RTR-Daten reliabel sind, vermuten wir, dass die Indikatoren zur Beurteilung der individuellen RTR-Zeitreihen in unserer Studie über der entscheidenden Schwelle von 0,8 verbleiben (H5). Als instrumentelle Basis zur Beurteilung der entfalteten Forschungsfragen und Hypothesen nutzen wir das sogenannte Debat-O-Meter. Die linear-modulare Struktur dieses virtualisierten RTR-Messinstrumentariums ist dem Studiendesign klassischer laborexperimenteller Erhebungen entlehnt und zielt in einer Art von "virtuellem Versuchslabor" darauf ab, die gängige Phasenstruktur von RTR-Studiendesigns online umzusetzen: Nach einer kurzen Anleitung, in der die Bedienoberfläche erklärt und die Messanweisung (siehe Anhang A) erläutert wird, folgt eine Vorbefragung, in der verschiedene Variablen (Soziodemographie, politische Einstellungen und Verhaltensweisen, Einschätzungen und Erwartungen an die Debatte und die Diskutanten) abgefragt werden. Kern der Web-Anwendung bildet das RTR-Modul, mithilfe dessen die Nutzer ihre (der Messanweisung entsprechende) Bewertung in Echtzeit abgeben können. Diese Eingaben werden sekundengenau vom Debat-O-Meter erfasst, mit der pseudonymisierten Nutzerkennung und einem Zeitstempel versehen, bevor sie gemeinsam in der Datenbank auf einem nach Nutzerlast skalierbaren Server gespeichert werden. Am Ende der Debatte werden die Teilnehmer unmittelbar zur Nachbefragung weitergeleitet. Eine Übersicht über die in den Befragungen erhobenen und für diese Untersuchung relevanten Konstrukte ist in Anhang B dargestellt. Für die hier vorliegende Erhebung wurde das Debat-O-Meter als Druckknopf-System im Reset Mode implementiert, d. h. dass nur Werte übermittelt werden, wenn aktiv ein Knopf gedrückt wurde. Über eine graduelle Abstufung von "++" für eine sehr gute bis hin zu "--" für eine sehr schlechte Bewertung konnten die Versuchsteilnehmer mit dem eigenen mobilen Endgerät ihren momentanen Eindruck K über die Spitzenkandidaten rückmelden. Für die Auswertung werden die aktiven Eingaben auf eine Skala von +2 bis -2 rekodiert. Inaktivität, also das Nicht-Drücken eines Knopfes, wurde gemäß der Messanweisung als neutraler Eindruck interpretiert und entspricht folglich dem Wert 0. Die Erhebung wurde als Feldstudie durchgeführt und präsentiert folglich einen komplementären Ansatz zu den im Forschungsbereich dominierenden Strategien mit laborexperimentellen Studiendesigns. Das Debat-O-Meter erlaubt die Nutzung von jedem Ort aus, an dem eine stabile Internetverbindung besteht, z. B. auf dem Sofa vor dem heimischen Fernseher. Sein linear-modularer Aufbau und die informationstechnischen Kontrollinstanzen (z. B. Nutzermonitoring, Sicherheitsarchitektur) gewährleisten gleichzeitig ein Mindestmaß an Kontrolle und Standardisierung der Stimulus-Rezeption und stärken so die Validität des Messverfahrens. Es bleibt anzuführen, dass zwei mögliche Ursachen im Vergleich zu herkömmlichen RTR-Messungen einen Einfluss auf unsere Ergebnisse nehmen können: einerseits die neue Messung mit einem mobilen Endgerät und andererseits die weniger kontrollierten Bedingungen jenseits des Labors. 1 Wenngleich wir dieses Konfundierungsproblem nicht gänzlich ausräumen können, so konnten wir doch an anderer Stelle mithilfe eines kontrollierten, quasi-laborexperimentellen Studiendesigns bereits zeigen, dass die Eingaben für zwei randomisierte Gruppen, von denen eine mit einer virtualisierten Implementierung und die andere mit physischen Eingabegeräten ausgestattet war, stark miteinander korreliert waren und eine äquivalente Datenstruktur generierten (vgl. Metz et al. 2016) . Wir sind daher -in Anerkennung dieser Einschränkung -zuversichtlich, mithilfe unseres Designs in einer Feldstudie fundierte Aussagen über die Validität und Reliabilität von virtualisierten RTR-Messungen, die außerhalb des Labors implementiert werden, treffen zu können. Dies auch, weil wir mit unserer Applikation der Phasenstruktur klassischer RTR-Studiendesigns weitgehend folgen. Vor diesem Hintergrund kann es nicht Ziel der Analyse sein, repräsentative Inferenzen auf eine wie auch immer geartete Grundgesamtheit abzuleiten. Vielmehr zielen wir darauf, die Beziehungen zwischen verschiedenen Variablen zu bewerten (vgl. Boydstun et al. 2014, S. 829-830) . Des Weiteren beruhen die folgenden Untersuchungen in weiten Teilen auf Subgruppen-Analysen und individuellen Zeitreihen, was die Problematik von Verzerrungen deutlich abmildert. Deshalb haben wir bewusst auf jede Form der Gewichtung verzichtet, auch um den Eindruck zu verhindern, auf Grundlage unserer Stichprobe repräsentative Ergebnisse vorlegen zu wollen. Gleichzeitig gilt es, die Charakteristika der Stichprobe und die damit einhergehenden Einschränkungen bei der folgenden Interpretation unserer Ergebnisse zu berücksichtigen. Um die Validität unserer virtualisierten RTR-Messung zu prüfen, nutzen wir drei Strategien. Die erste Analyseperspektive verfolgt mit dem Konzept der Konstruktvalidität die Frage, inwiefern unser Messkonzept dem zugrundeliegenden theoretischen Konstrukt entspricht (vgl. Wagschal 1999, S. 40) . Bezogen auf die Perzeption politischer TV-Duelle folgen wir einem etablierten Ansatz in der empirischen Debattenforschung (vgl. Maier et al. 2007; ) und untersuchen, inwieweit das RTR-Signal mit den Parteibindungen der Studienteilnehmer assoziiert ist: Je besser das RTR-Signal durch die Parteiidentifikation vorhergesagt wird, desto stärker verhält es sich auf theoretisch plausible Weise und desto valider ist das RTR-Signal. In Hypothese 1 haben wir vor diesem Hintergrund die Parteiidentifikation als soziale Identität konzeptualisiert (vgl. Green et al. 2002) . Damit ist eine wirkungsmächtige Freund-Feind-Logik für die Perzeption und Verarbeitung politischer Informationen grundlegend. Unter Bezugnahme auf konsistenztheoretische Überlegungen (vgl. Festinger 1962; Heider 1958; Faas und Maier 2004b) Mit der Inhaltsvalidität prüfen wir, inwiefern unser Messinstrument sachlich und logisch in der Lage ist, das interessierende Merkmal (RTR-Signal) zu erfassen (vgl. Wagschal 1999, S. 40 untere Konfidenzintervall (0,53) den Grenzwert von 0,6 (leicht) unterschreitet. Diese Feststellung gilt nicht für die aggregierten Echtzeitdaten in NRW; das 2,5-Perzentil liegt hier bei 0,63 und damit über dem kritischen Schwellenwert. Folglich liefern auch Median (0,71) und der Durchschnittswert (0,70) klare Hinweise auf die Reliabilität der RTR-Daten, die mithilfe des Debat-O-Meters in einer Feldstudie außerhalb des Labors erhoben wurden. Deutlich geringer fallen die Koeffizienten hingegen für das Duell in Niedersachsen aus. Nicht nur das untere Konfidenzintervall (0,14), sondern auch das arithmetische Mittel (0,30) und der Median (0,32) unterschreiten den Schwellenwert deutlich. Selbst das 97,5-Perzentil (0,39) und der Maximalwert (0,43) bleiben hinter der in Hypothese 4 formulierten Erwartung zurück. Die Ergebnisse ziehen damit die Reliabilität der Echtzeitdaten insbesondere aus der TV-Duell-Studie in Niedersachsen in Zweifel. 5 Wie lassen sich die ambivalenten Befunde über die Korrelationskoeffizienten der aggregierten RTR-Zeitreihen im Resampling-Verfahren beurteilen? Eine erste mögliche Perspektive richtet sich auf das Eingabegerät. Die softwareseitige Implementierung war für alle drei Studien als Push-Button-System im Reset mode identisch. Allerdings haben wir in unserer Feldstudie keinen Einblick darüber, welche Hardware die Probanden nutzten (PC, Notebook, Tablet, Smartphone) und ob dies zu systematischen Unterschieden in den Eingaben führte. Zukünftige Untersuchungen könnten auf die verwendete Hardware kontrollieren. Eine zweite Perspektive ergibt sich hinsichtlich der Messanweisung. Diese war in allen drei Studien gleich ausgestaltet und ist den Anweisungen aus laborexperimentellen Studien entlehnt (vgl. Bachl 2014, S. 96), die von Probanden eine Rückmeldung über den allgemeinen Eindruck der Diskutierenden erfragen. Diese eher offene und im Vergleich zu Labormessungen erheblich gekürzte Formulierung über das zu erhebende Konstrukt könnte zu sehr unterschiedlichen inhaltlichen Interpretationen der Messanweisung geführt und zwischen den Teilnehmern Bewertungsdimensionen mit unterschiedlicher Ausprägung (z. B. Sympathie oder Kompetenz) befördert haben. Zukünftige Forschung sollte folglich einen systematischen Vergleich von Messanweisungen leisten, die in ihrer Spezifizierung der Bewertungsdimensionen variieren (vgl. Bachl 2014, S. 41). Eine dritte Perspektive lenkt den Blick auf die Bewertungsobjekte. Während die Rezipienten bei den Duellen in Schleswig-Holstein und Nordrhein-Westfalen ausschließlich die beiden Kandidaten bewerteten, wurden die Probanden in Niedersachsen zusätzlich gebeten, ihren aktuellen Eindruck zur Moderation mitzuteilen, d. h. dass die Anzahl der Bewertungsobjekte erhöht war bei gleichbleibender Ausprägung von Bewertungsitems (positiv vs. negativ) und -dimension (allgemeiner Eindruck) zwischen den Studien. Dies könnte als Hinweis gelesen werden, dass die Anzahl an Bewertungsobjekten Einfluss auf die Reliabilität der aggregierten RTR-Zeitreihen nimmt. Um dies weiter zu plausibilisieren, sollten zukünftige Forschungsarbeiten systematisch die Anzahl an Bewertungsobjekten variieren. Viertens ist der Medienstimulus selbst zu beachten. Unsere Studie kontrolliert nicht auf den Inhalt der einzelnen Debatten. Dabei ist bekannt, dass die inhaltliche Ausgestaltung eines Duells wie beispielsweise die rhetorischen Strategien der Diskutierenden entscheidend Einfluss auf die interindividuellen Bewertungsmuster nehmen können. Denn während Angriffe auf den politischen Gegner und konkrete Selbstpräsentationen politische Voreinstellungen aktivieren und so die unmittelbare Wahrnehmung zwischen politischen Anhängergruppen polarisieren, können Allgemeinplätze lagerübergreifend Zustimmung erfahren (vgl. Reinemann und Maurer 2005 , 2007 . All diese Aspekte könnten dazu beitragen, dass die aggregierten Zeitreihen in hohem Maße von der individuellen Zusammensetzung der Stichprobe abhängig sind, weshalb die Korrelationskoeffizienten im Resampling-Verfahren zwischen den Studien stark variieren. Dass das Bewertungsverhalten zwischen den Studien stark variiert, können wir auch an der deskriptiven Statistik ersehen. Während die 269 Probanden in Nordrhein-Westfalen 100.986 Bewertungen in 3723 s und damit durchschnittlich rund alle 10 s eine RTR-Eingabe abgaben, liegt dieser Wert für Schleswig-Holstein bei 16 s (56.294 RTR-Eingaben von 262 Nutzern in 3516 s) und für Niedersachsen bei 38 s (19,665 Inputs von 173 Personen in 4334 s). Die Aussagen der Kandidaten in Niedersachsen erzeugten nicht nur weniger Reaktionen, sondern scheinen sich zudem weniger systematisch im Zeitverlauf des Medienstimulus zu verteilen, was sich negativ auf die Korrelationskoeffizienten im Resampling-Verfahren auswirkt. Vor diesem Hintergrund sind die hier präsentierten Ergebnisse ambivalent zu beurteilen. Einerseits zeigen sie, dass virtualisierte Messverfahren im Feld akzeptable Reliabilitätswerte der aggregierten Zeitreihen generieren können. Andererseits lassen die ambivalenten Ergebnisse -nicht nur zur Studie in Niedersachsen -Zweifel an der Reliabilität der aggregierten RTR-Zeitreihen aufkommen. Dies wird besonders deutlich, wenn wir bedenken, dass die gemeinsame Varianz (R 2 ) der jeweiligen Halbgruppen in den Resampling-Verfahren in allen Studien im Durchschnitt bei unter 50 % verbleibt. Zudem wird deutlich, dass noch weitgehend Unkenntnis über die Faktoren herrscht, die die Reliabilitätswerte der aggregierten Zeitreihen systematisch beeinflussen. Wir lehnen deshalb Hypothese 4 ab. Um die Reliabilität der individuellen RTR-Zeitreihen zu beurteilen, rekurrieren wir in der folgenden Analyse auf die etablierten Indikatoren McDonalds Omega und Cronbachs Alpha (vgl. Papastefanou 2013; Bachl 2014, S. 108-110; Waldvogel und Metz 2020 Bachl 2013, S. 183-186) . Wir sind daher zuversichtlich, auch die Frage nach der Inhaltsvalidität (FF1.3) unserer virtualisierten RTR-Messung positiv beantworten zu können. Mit unserer zweiten Forschungsfrage haben wir die Reliabilität der RTR-Daten ins Zentrum gerückt und in zweifacher Weise untersucht. Mithilfe eines Resampling-Verfahrens haben wir die aggregierten RTR-Zeitreihen in den Blick genommen. Einerseits zeigte sich, dass virtualisierte RTR-Messungen in der Tat Daten generieren können, deren aggregierte RTR-Zeitreihen für zwei Teilstichproben in einem Resampling-Verfahren deutlich miteinander assoziiert sind. Andererseits sind die Befunde ambivalent zu beurteilen, weil die bestehenden Korrelationen nur mittelstark und für das Niedersachsen-Duell gar nur gering ausgeprägt sind. Die RTR-Messung scheint also in nicht unerheblichem Maße abhängig von der Zusammensetzung der Stichprobe zu sein. Zukünftige Forschungsarbeiten sollten deshalb verstärkt Anstrengungen unternehmen, Quotierungsverfahren auf die Stichprobenrekrutierung auch im Online-Setting anzuwenden und gegebenenfalls stärker die Kandidaten(-strategien) und ihre Aussagen in der Analyse zur Datenqualität zu berücksichtigen. In einer zweiten Analysestrategie haben wir die individuellen RTR-Zeitreihen auf ihre interne Konsistenz überprüft. Sowohl Cronbachs Alpha als auch McDonalds Ome-ga belegen eine hohe Interkorrelation. Wenn wir unsere Befunde über die aggregierten und individuellen RTR-Zeitreihen zusammenfassen, so können wir unsere Forschungsfrage zwei (FF2) nur eingeschränkt positiv beantworten: Virtualisierte RTR-Messungen können reliable Daten generieren. Dies ist aber kein Automatismus; vielmehr müssen die Forscher durch besondere Sorgfalt die Voraussetzungen für ein adäquates Studiendesign auch im Online-Setting gewährleisten. Unsere Ergebnisse unterliegen darüber hinaus Einschränkungen in mehrfacher Hinsicht: Zuvorderst ist anzumerken, dass unsere Untersuchung die eingangs formulierten Forschungsfragen beantworten möchte, indem sie methodologische Aspekte und Daten empirischer Studien zu drei Landtagswahlen im Jahr 2017 auskoppelt. Explizite Methodenstudien könnten demgegenüber systematischere Manipulationen der Rezeption ermöglichen, um weiterführende Erkenntnisse über etwaige Messartefakte, die Reichweite und Begrenzung dieser hochreaktiven Messmethode in seiner virtualisierten Form zu befördern. Des Weiteren ist anzumerken, dass mit dem Heraustreten aus dem Labor vielfältige Erwartungen bezüglich einer verbesserten externen Validität der getroffenen Befunde verknüpft sind. Allerdings kann festgehalten werden, dass Nachweise hierfür bisher in der methodologischen Forschungsliteratur fehlen. Vielmehr scheint es, dass sowohl laborexperimentell als auch virtualisiert erhobene RTR-Daten eine hinreichende Qualität aufweisen und einen je eigenen Beitrag zur empirischen Debattenforschung leisten können. Eine weitere Herausforderung (wenngleich nicht spezifisch für die virtualisierte Spielart der RTR-Datenerhebung) stellt das convenience sample dar. Während für Untergruppen-Analysen die Auswirkungen weniger stark ausgeprägt sein dürften, so können Prozesse der Selbstselektion zu starken Verzerrungen in der Gesamtstichprobe führen, was die Interpretationen über alle Teilnehmer hinweg erschwert. Auch wenn die (meist auf laborexperimentellen Settings mit physischen Eingabegeräten) bestehende Literatur bereits eine hohe Sensibilität dafür zeigt, nur eingeschränkt allgemeine Inferenzen auf eine Gesamtpopulation aus den eigenen Befunden abzuleiten, sind unsere Studien ein Hinweis dafür, dass diese Zurückhaltung auch für Feldstudien angezeigt ist, die ihre Daten virtualisiert in natürlichen Rezeptionssituationen erheben. Adäquate Formen der Gewichtung und Post-Stratifizierung könnten die skizzierten Probleme abmildern, allerdings liegen bisher keine Erkenntnisse über mögliche Techniken und ihre Anwendung auf die Erhebung von Echtzeitdaten vor. Ein weiteres Feld ist die Verbesserung der Standardisierung der Stimulusrezeption bei der onlinegestützten Erhebung rezeptionsbegleitend gemessener Zuschauerreaktionen. Denn die gemeinsame Rezeption und Interaktion mit anderen Personen in natürlichen Situationen kann das Individuum als grundlegende Untersuchungseinheit in Zweifel ziehen. Die Sortierung nach IP-Adressen, die explizite Aufforderung, während der Rezeption nicht zu interagieren oder gar allein zu schauen, könnten Strategien sein, um die Problematik einzuhegen. Viertens sollten sich zukünftige Forschungsarbeiten dem Konfundierungsproblem von neuer Messung und veränderten Messbedingungen widmen, um diese unterschiedlichen Einflussfaktoren auf die Messergebnisse zu entwirren. Insgesamt zeichnen unsere getroffenen Befunde (unter Berücksichtigung der skizzierten Einschränkungen) ein positives Bild über die Qualität von RTR-Daten, die mithilfe eines virtualisierten Messinstrumentariums in Feldstudien erhoben wur-den, in denen Zuschauer einer politischen TV-Debatte ihre unmittelbaren Eindrücke sekundengenau in natürlichen Rezeptionssituationen mit dem eigenen mobilen Endgerät rückmelden können. Dennoch steht die methodologische Forschung zu dieser neuartigen Methode der RTR-Datenerhebung erst am Anfang, weshalb weitere Untersuchungen angezeigt scheinen, um die Potenziale, aber auch die Limitationen virtualisierter RTR-Messung in Zukunft besser und detaillierter beurteilen zu können. Aus unseren Befunden können wir schließen, dass die Virtualisierung des RTR-Messinstrumentariums einen komplementären Ansatz zu den dominierenden Erhebungen mit laborexperimentellem Forschungsdesign etabliert, wodurch die Analyse von Publikumsreaktionen auch jenseits der TV-Duellforschung in natürlichen Rezeptionssituationen zugänglich wird. Dieser neue Ansatz gewährleistet zudem die technische Implementierung von RTR-Studien auch in Zeiten der COVID-19-Pandemie, in der klassische Experimentalstudien in Laborsettings mit physischen Eingabegeräten kaum durchführbar sind. Darüber hinaus erschließen sich neue Anwendungsszenarien, die durch die softwareseitige Implementierung sehr leicht die Untersuchung zum Beispiel von Mehrpersonen-Panels bzw. (mit Blick auf die Bundestagswahl 2021) eines Triells erlauben, aber auch methodische Erweiterungen, beispielsweise die Kombination mit Echtzeitdaten aus der Emotions-bzw. Gesichtserkennungssoftware, ermöglichen (vgl. Fridkin et al. 2021 Die Wirkung des TV-Duells auf die Bewertung der Kandidaten und die Wahlabsicht Analyse rezeptionsbegleitend gemessener Kandidatenbewertungen in TV-Duellen Erweiterung etablierter Verfahren und Vorschlag einer Mehrebenenmodellierung Continuous response measurement (CRM): a computerized tool for research on the cognitive processing of communication messages Forschungsmethoden und Evaluation für Human-und Sozialwissenschaftler (4. Aufl Colleague crowdsourcing: a method for incentivizing national student engagement and large-N data collection The American voter From alpha to omega: A practical solution to the pervasive problem of internal consistency estimation Chancellor-Candidates in the 2002 Televised Debates Mobilisierung, Verstärkung, Konversion? Ergebnisse eines Experiments zur Wahrnehmung der Fernsehduelle im Vorfeld der Bundestagswahl Medienwahlkampf. Sind TV-Duelle nur Show und damit nutzlos Merkel gegen Steinbrück: Analysen zum TV-Duell vor der Bundestagswahl 2013 A theory of cognitive dissonance Gender differences in emotional reactions to the first 2016 presidential debate Partisan hearts and minds. Political parties and the social identity of voters Diagnosing your radio program, or: the program analyzer at work. In Institute for Educaton by Radio (Hrsg.), Education on the air. Yearbook of the institute for education by radio Listening to the listener. Experiences with the Lazarsfeld-Stanton program analyzer The psychology of interpersonal relations Hillsdale Confidence intervals for population reliability coefficients: evaluation of methods, recommendations, and software for composite measures Eine Basis für rationale Wahlentscheidungen? Die Wirkungen des TV-Duells auf politische Kenntnisse Urteile über den Debattensieger und die Veränderung der Kanzlerpräferenz The affected German voter: televized debates, follow-up communication and candidate evaluations Reliability and validity of real-time response measurement: a comparison of two studies of a televised debate in Germany Real-time response measurement in the social sciences. Methodological perspectives and applications Mobilisierung durch Fernsehdebatten: zum Einfluss des TV-Duells 2009 auf die politische Involvierung und die Partizipationsbereitschaft Aufgeholt, aber nicht aufgeschlossen: Ausgewählte Befunde zur Wahrnehmung und Wirkung des TV-Duells 2013 zwischen Angela Merkel und Peer Steinbrück. Zeitschrift für Parlamentsfragen Breaking out of the lab measuring real-time responses to televised political content in real-world settings Wirkungen des TV-Duells auf die Wahlabsicht Schröder gegen Stoiber: Nutzung, Wahrnehmung und Wirkung der TV-Duelle Learning versus knowing. Effects of misinformation in televised debates Schröder gegen Merkel. Wahrnehmung und Wirkung des TV-Duells 2005 im Ost-West-Vergleich Das Debat-O-Meter: ein neues Instrument zur Analyse von TV-Duellen. ZSE Zeitschrift für Staats-und Europawissenschaften Die Wirkung verbaler und nonverbaler Kommunikation in TV-Duellen RTR-Messung: Möglichkeiten und Grenzen einer sozialwissenschaftlichen Methode Coefficient alpha bootstrap confidence interval under nonnormality Reliability and validity of RTR measurement device Wissens-und Partizipations-Gaps: Führte das TV-Duell 2013 zu einer politischen und kognitiven Mobilisierung? In T. Faas, J. Maier & M. Maier (Hrsg.), Merkel gegen Steinbrück -Analysen zum TV-Duell vor der Bundestagswahl Unifying or polarizing? Short-term effects and postdebate consequences of different rhetorical strategies in televised debates Populistisch und unkonkret. Die unmittelbare Wahrnehmung des TV-Duells Reliabilität und Validität von RTR-Messungen Coefficients alpha, beta, omega, and the glb: comments on Sijtsma An exploratory study of the reliability of the 'program analyzer Parteien, Massenmedien, Wähler und TV-Debatten in Landtagswahlkämpfen Statistik für Politikwissenschaftler Das TV-Duell Timmermans gegen Weber: Wahrnehmung und Wirkungen von TV-Debatten am Beispiel der Europawahl Applying virtualized real-time response measurement on TV-discussions with multi-person panels TV-Duelle und Landtagswahlen: Ein wirkungsvolles Instrument der Wahlkampfkommunikation? Zeitschrift für Politik Real-Time-Response Messungen Measuring real-time responses in real-life settings Assessing the impact of political involvement on the reliability and validity of virtualized real-time-response measurement Strukturgleichungsmodellierung: eine anwendungsorientierte Einführung mit Hilfe von AMOS Cronbach's α, Revelle's β, and Mcdonald's ωH: their relations with each other and two alternative conceptualizations of reliability Professur für Vergleichende Regierungslehre sowie Fachreferent der Landeszentrale für politische Bildung Danksagung Wir danken den Herausgebern, der Redaktion sowie den unbekannten Gutachtern für hilfreiche Anmerkungen zur Verbesserung des Artikels.Förderung Vorarbeiten zur Entwicklung des Debat-O-Meters wurden vom Innovationsfonds der Albert-Ludwigs-Universität Freiburg unterstützt.Funding Open Access funding enabled and organized by Projekt DEAL.Open Access Dieser Artikel wird unter der Creative Commons Namensnennung 4.0 International Lizenz veröffentlicht, welche die Nutzung, Vervielfältigung, Bearbeitung, Verbreitung und Wiedergabe in jeglichem Medium und Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle ordnungsgemäß nennen, einen Link zur Creative Commons Lizenz beifügen und angeben, ob Änderungen vorgenommen wurden.Die in diesem Artikel enthaltenen Bilder und sonstiges Drittmaterial unterliegen ebenfalls der genannten Creative Commons Lizenz, sofern sich aus der Abbildungslegende nichts anderes ergibt. Sofern das betreffende Material nicht unter der genannten Creative Commons Lizenz steht und die betreffende Handlung nicht nach gesetzlichen Vorschriften erlaubt ist, ist für die oben aufgeführten Weiterverwendungen des Materials die Einwilligung des jeweiligen Rechteinhabers einzuholen.Weitere Details zur Lizenz entnehmen Sie bitte der Lizenzinformation auf http://creativecommons.org/ licenses/by/4.0/deed.de.