In-Lab -, Asynchrones - und Synchrones Remote Usability Testing

In-Lab -, Asynchrones – und Synchrones Remote Usability Testing

Von Michaela Buschberger am 19.02.2021

1. Einleitung

Für die Evaluierung der Benutzerfreundlichkeit eines Software-Produktes haben sich in den letzten Jahren mehrere Methoden etabliert. Zu diesen Methoden zählt vor Allem das traditionelle „In-Lab Testing“, welches bereits als Hauptmethode für die Evaluierung der Usability von Software angesehen werden kann (Alghamdi et al., 2013). Jedoch sind traditionelle In-Lab Usability Tests auch oft mit erhöhtem Zeit- und Kostenaufwand sowie mit einer herausfordernden Rekrutierung verbunden (Schade, 2013). Auch aufgrund der aktuellen Quarantäne- und Reisebeschränkungen durch COVID-19 ist es vielen UX-ResearcherInnen derzeit nicht möglich, Usability-Tests im Labor durchzuführen.

Um vor Allem den Einschränkungen in Bezug auf den Aufwand, Kosten und Rekrutierungsproblemen entgegenzuwirken, wurde in den letzten Jahren bereits eine weitere Usability Evaluierungsmethode entwickelt, das Remote Usability Testing. Anders als bei traditionellen In-Lab Tests befinden sich ProbandInnen und ModeratorInnen bei dieser Form an zwei verschiedenen Orten. Diese Evaluierungsform unterscheidet sich in einer asynchronen (nicht moderierter) und synchronen (moderierter) Vorgehensweise (Alghamdi et al., 2013).

In diesem Artikel wird auf Basis einer Literaturrecherche eruiert, inwiefern sich das In-Lab Testen, asynchrone- und synchrone Remote Testing in deren Methodik, Interaktion mit ProbandInnen und in der Datenerhebung unterscheiden. Auch werden deren Kosten und Zeitaufwand gegenübergestellt. Im ersten Abschnitt wird die grundlegende Theorie zu den Usability Evaluierungen aufgearbeitet. Darauf aufbauend werden deren Unterschiede thematisiert, um wichtige Merkmale dieser Methoden zu eruieren. Der letzte Abschnitt die wesentlichen Ergebnisse der Gegenüberstellung von dem In-Lab -, asynchrone- und synchrone Usability Testing gegenüber.

2. Usability Testing

Um einen Vergleich zwischen den Usability Testing Methoden ziehen zu können, muss zuerst ein Verständnis für Usability Evaluierungen und deren Ziel geschaffen werden. Die Usability Evaluierung wird als die Bewertung der Benutzeroberfläche einer bestimmten Anwendung definiert, um deren tatsächliche oder wahrscheinliche Usability zu bestimmen (Alghamdi et al., 2013, S. 63, zitiert nach Koutsabasis et al., 2007). Die ISO-Norm 9241-11 beschreibt die Usability als das Ausmaß der Benutzbarkeit eines Produktes durch bestimmte BenutzerInnen in einem bestimmten Nutzungskontext, um ihre Ziele effizient, effektiv und zufriedenstellend erreichen zu können (International Organization for Standardization, 2019).

Die Usability Evaluierung kann formativ oder summativ erfolgen. Die formative Evaluierung hat das Ziel, die Produktentwicklung voranzutreiben und wird daher während der gesamten Entwicklungsphase eines Produktes durchgeführt, wohingegen bei der summativen Vorgehensweise eine abschließende Bewertung im Mittelpunkt steht und daher am Ende der Entwicklung stattfindet (Alghamdi et al., 2013).

Bei der Usability Evaluierung gibt es mehrere etablierte Methoden, wobei das Usability Testing, die Usability Inspection und die Model-Based Evaluierung die am weitest verbreiteten sind. Usability-Tests haben vorrangig das Ziel, Informationen darüber zu erheben, wie BenutzerInnen das System verwenden und lokalisieren bestimmte Problemstellen innerhalb einer Schnittstelle. Gängige Techniken sind hierbei das traditionelle In-Lab Testing und das Remote Usability Testing (Alghamdi et al., 2013).

2.1 Traditionelles In-Lab Testing

Dabei befinden sich sowohl die Usability-SpezialistInnen als auch die ProbandInnen am selben Ort (Schade, 2013). ModeratorInnen stellen TeilnehmerInnen Fragen und eine Reihe von Aufgaben, die sie bei der Verwendung des zu evaluierenden Produktes durchführen. In-Lab Tests weisen ein kleineres Sample auf und kommen meist in den zuvor erläuterten formativen Studien zum Einsatz, wo im Mittelpunkt die iterative Designverbesserung steht (Tullis & Albert, 2013).

2.2 Remote Usability Testing

Remote Usability Tests sind wie herkömmliche Usability Evaluierungen, mit dem Unterschied, dass TeilnehmerInnen und ModeratorInnen sich an verschiedenen physischen Orten befinden. ProbandInnen interagieren mit dem Softwareprodukt im eigenen Umfeld, wie beispielsweise von Zuhause aus, im Büro oder in einer anderen natürlichen Umgebung (Schade, 2013). Bei den Remote Usability Tests gibt es zwei wesentliche Unterteilungen in der Methodik. Hierbei wird unterschieden, ob es sich dabei um einen synchronen (moderierten) oder asynchronen (nicht moderierten) Usability Test handelt (Alghamdi et al., 2013).

2.2.1 Asynchrones Remote Usability Testing

Laut Alghamdi et al. (2013) sind bei asynchronen remoten Testverfahren BenutzerInnen sowohl räumlich als auch zeitlich von den EvaluatorInnen getrennt. Die TeilnehmerInnen verwenden hierbei ihre eigenen technischen Ressourcen, welche die Benutzeraktivitäten mithilfe interaktiver Programme oder aufgabenbasierten Umfragen steuern und messen (S. 66).

2.2.2 Synchrones Remote Usability Testing

Das synchrone Remote Usability Testing ist eine Methode zur Bewertung der Usability, die eine große Ähnlichkeit mit dem herkömmlichen In-Lab Testen aufweist (Alghamdi et al., 2013, zitiert nach Selvaraj, 2004). Der Hauptunterschied zu traditionellen In-Lab Tests besteht in der natürlichen Umgebung, aus welcher BenutzerInnen an der Studie teilnehmen und diese somit auch eigene Ressourcen verwenden können. Um die Evaluierung zu überwachen, befinden sich Usability-ExpertInnen im Labor und kommunizieren über das Internet mit den BenutzerInnen in Echtzeit (Alghamdi et al., 2013).

Folglich ähneln sich asynchrone und synchrone Remote Usability Tests in der natürlichen Umgebung, in der der Usability Test von den ProbandInnen durchgeführt wird. Traditionelle In-Lab Tests werden im Labor durchgeführt, wo sich ModeratorInnen als auch TeilnehmerInnen am selben Ort zur selben Zeit befinden. Der größte Unterschied, bei moderierten und unmoderierten Remote Usability Tests ist die zeitliche Trennung von ModeratorIn und TeilnehmerIn. Die Zeit stellt folglich auch den wesentlichen Hauptfaktor für die unterschiedliche Vorgehensweisen in diesen beiden Methoden dar, sowohl in der Planung, Verwendung von diversen Tools und Datenerhebungsmethodik. Diese wichtigen Merkmale werden in den nächsten Abschnitten diskutiert.

3. Ablauf und Methodik

Beim asynchronen Remote Usability Testing durchlaufen die TeilnehmerInnen ein vordefiniertes Skript mit Fragen und Aufgaben. Dabei werden die Daten automatisch erfasst und sind für Studien mit vielen TeilnehmerInnen geeignet (Tullis & Albert, 2013). Fragebögen werden verwendet, um BenutzerInnen anzuleiten, anstatt ModeratorInnen einzusetzen, wodurch finanzielle und zeitliche Ressourcen eingespart werden können (Alghamdi et al., 2013).

Ein weiterer Vorteil besteht darin, dass keine Skills für die Moderation benötigt werden, da die vordefinierten Online-Instruktionen die Rolle der EvaluatorInnen ablösen (Moran & Pernice, 2020). Dies bringt jedoch auch den Nachteil mit sich, dass ein Nachfragen bei unklaren Instruktionen während des Testens den TeilnehmerInnen nicht möglich ist. Auch gibt es nicht die Möglichkeit BenutzerInnen zu bitten, einen Kommentar bei Unklarheiten weiter zu elaborieren (Morgan & Pernice, 2020). Daraus wird interpretiert, dass der Durchlauf des Tests und die damit verbundenen Instruktionen mit einer genaueren Planung und verstärkter Durchführung von Pretests verbunden ist als bei In-Lab Evaluierungen und synchronen Remote Tests.

Synchrone Remote Usability Tests ähneln in der Methodik den herkömmlichen traditionellen In-Lab Tests. Anders jedoch als bei In-Lab Studien, wird es bei den moderierten Remote Usability Tests den ProbandInnen ermöglicht, aus ihrer natürlichen Umgebung heraus an dem Prozess teilzunehmen und ihre eigenen PCs zu verwenden (Alghamdi et. Al, 2013). Bei moderierten Remote Tests befinden sich BenutzerInnen und ModeratorInnen gleichzeitig in einer virtuellen Umgebung und kommunizieren in Echtzeit über technische Ressourcen und Anwendungen (Schade, 2013). Beiden Seiten ist es also möglich bei Bedarf weitere Fragen zu stellen oder zur Klärung aufzufordern (Moran & Pernice, 2020). Um dieses Setting bei synchronen Tests zu ermöglichen, kommen Videokonferenz- und Bildschirmfreigabeanwendungen zum Einsatz. Dadurch wird es ModeratorInnen ermöglicht, die Aktivitäten der BenutzerInnen zu beobachten und durch Videoaufzeichnungen die Durchführung der Testszenarien zu protokollieren (Alghamdi et. Al, 2013). Das Evaluierungsteam kann den Test somit auch gleichzeitig verfolgen und die Ergebnisse unmittelbar nach der Sitzung diskutieren (Moran & Pernice, 2020).

Vergleichsweise zu asynchronen Remote Usability Tests werden sowohl bei synchronen remote – als auch bei den In-Lab Tests Skills für das Moderieren benötigt. Schade (2013) meint hierzu, dass das Interpretieren von Stille am anderen Ende und dadurch das Wählen des richtigen Zeitpunktes für die Fragestellungen remote erschwert werden kann. Das gelte auch für In-Lab Studien, jedoch könnte diese Problematik bei moderierte Remote Tests verstärkt werden. In Bezug auf die Moderation meinen Alghamdi et. Al (2013) sowie Moran & Pernice (2020), dass die Methodik des Lauten Denkens zudem auch nur bei synchronen Remote Tests und In-Lab Tests Sinn ergäbe. Folglich kann diese Technik bei asynchronen Tests nicht die gewünschte Effektivität erzielen, zudem ModeratorInnen für die Anleitung und Aufforderung des lauten Denkens als essenziell angesehen werden können.

4. Datenerhebung und Effektivität

Laut Albert, Tullis und Tedesco (2010) eignen sich asynchrone Usability-Studien zum Erheben sowohl qualitativer als auch quantitativer Daten. Da Daten von vielen Teilnehmern gesammelt werden können, ist es möglich, in kurzer Zeit quantitative Daten aus einer großen Stichprobe zu erheben. Qualitative Daten können zudem beispielsweise über wörtliche Kommentare gesammelt werden, wobei BenutzerInnen ihre Erfahrung mit dem Produkt notieren (Albert, Tullis & Tedesco, 2010). Folglich eignen sich jedoch asynchrone Usability Tests vor allem für quantitative Studien, da hier eine größere Stichprobe als bei In-Lab und synchronen Remote Usability Tests möglich ist.

Tullis & Albert (2013) meinen, dass beim asynchronen Remote Testens die TeilnehmerInnen nicht direkt von den Usability-SpezialistInnen beobachtet werden können, wodurch es schwierig sein kann, problembasierte Daten zu erheben. Während asynchrone Studien eine hervorragende Möglichkeit seien, viele Daten zu sammeln, ist es zudem auch weniger ideal, wenn UX ResearcherInnen einen tieferen Einblick in das Verhalten und die Motivation der BenutzerInnen zu erhalten möchten. Auch Albert, Tullis und Tedesco (2010) sehen die Grenzen im unmoderierten Remote Usability Testing in der Evaluierung der Verhaltensweisen von BenutzerInnen, vor allem wenn komplexere Fragen involviert sind. Hier sei ein traditionelles Lab-Testing oder synchrones Remote Testing geeigneter.

Alghamdi et. al. (2013) äußern hierzu auch, dass der asynchrone Ansatz keine Beobachtungsdaten und Aufzeichnungen von plötzlichem verbalem Verhalten zulässt. Sie meinen, dass das zu einer Einschränkung der Gültigkeit und Genauigkeit der Ergebnisse führt und die Wahrscheinlichkeit verringert, dass Usability-Probleme entdeckt werden. Andererseits kann dies aufgrund der günstigen Kosten und der leichteren Zugänglichkeit für BenutzerInnen möglicherweise bedeuten, dass größere Stichproben analysiert werden könnten, was zu einem genaueren und realistischeren Ergebnis führen würde. Größere Stichproben bieten eine bessere Darstellung der BenutzerInnen, während eine natürliche Testumgebung die Testverzerrung ausgleicht, die in einem Labor auftreten kann. Dies führt häufig dazu, dass sich die Teilnehmer unter Druck gesetzt fühlen, was die Genauigkeit der Usability-Ergebnisse genauso beeinträchtigen kann (Alghamdi et. al, 2013, S.66, zitiert nach Bastien, 2008).

Eine Studie von Alghamdi et. al (2013) untersuchte diese beiden Testmethoden und stellte diese in Bezug auf deren Effektivität gegenüber. Die Untersuchung ergab, dass die synchrone Testmethode im Allgemeinen besser abschneidet als die asynchrone Testmethode, vor allem bei der Identifizierung von Usability-Problemen. Synchrone TestteilnehmerInnen waren zudem effektiver bei der Aufdeckung schwerwiegender und kritischer Usability-Probleme als solche im asynchronen Testdurchlauf. Die asynchronen Testteilnehmer führten die gestellten Aufgaben jedoch schneller aus und es wurde zudem herausgefunden, dass eine positive Korrelation zwischen der aufgewendeten Zeit zur Aufgabenlösung und den entdeckten Problemen bestand.

Daraus wird geschlossen, dass im Allgemeinen zwar eine breitere Stichprobe durch das asynchrone Testen verwendet werden kann, jedoch das Identifizieren von Usability Problemen durch die synchrone Methode effektiver ist. Auch für einen tieferen Einblick in Motivation und Gründe von Verhaltensweisen der BenutzerInnen ist die synchrone remote Methode oder das In-Lab Testen besser geeignet. In Bezug auf Metriken wie das Erheben der Task Performance macht es auch einen Unterschied ob das asynchrone oder synchrone Testen zum Einsatz kommt, zumal ProbandInnen von asynchronen Testverfahren laut der Studie von Alghamdi et. al (2013) eine schnellere Performance bei der Aufgabenerledigung aufweisen. Dabei muss jedoch auch erwähnt werden, dass ein kleines Sample bei dieser Studie verwendet wurde und vermutlich das Ergebnis nicht generalisiert werden kann.

5. Dauer der Test-Sessions

Ein weiterer bedeutender Faktor des asynchronen Testens ist die verfügbare Zeit für die Durchführung. Albert, Tullis und Tedesco (2010) meinen hierzu, dass in den meisten Usability-Labortests, ob persönlich oder synchron remote problemlos 60 bis 90 Minuten dauern können. Die meisten Online-Usability Studien sollten aufgrund der schwindenden Aufmerksamkeit von BenutzerInnen jedoch nur von 15 bis maximal 45 Minuten andauern. Auch Moran und Pernice (2020) nennen hierbei die kürzeren Test-Sessions bei einer durchschnittlichen Dauer von 20 Minuten der nicht moderierten Remote Usability Tests einen Nachteil gegenüber von In-Lab und moderierten Remote Evaluierungen. Die Testsitzungen bei moderierten Remote Usability Tests können hingegen länger dauern und lassen somit Raum für eine explorative Untersuchung des Produktes (Moran & Pernice, 2020).

Daraus wird geschlossen, dass Usability-Tests mit vielen und umfangreichen Aufgabenstellungen, welche länger dauern, entweder synchron remote oder im Labor durchgeführt werden sollten, um die Qualität des Evaluierungsergebnisses möglichst gering zu verzerren.

6. Rekrutierung und Qualität des Samples

Durch Remote Usability Tests wird die Rekrutierung bereits im Allgemeinen erleichtert, da man sich nicht aufgrund von Zeitressourcen und Kosten auf nahgelegene Orte einschränken muss. Auch wird es so ermöglicht, mit weniger Aufwand das Produkt in mehreren Ländern zu evaluieren. Somit wird eine große Reichweite an ProbandInnen ermöglicht (Albert, Tullis & Tedesco, 2010). Speziell das asynchrone Remote Usability Testing bietet für quantitative Daten die Möglichkeit eine größere Stichprobe für den Test zu rekrutieren (Tullis & Albert, 2013). Bei synchronen Remote Usability Tests wird meist ein kleineres Sample verwendet und deckt sich hierbei mit den In-Lab Tests.

Auch Moran und Pernice (2020) sehen in der Rekrutierung die Vorteile im asynchronen Testen. Allerdings erwähnen sie hierbei auch die damit verbundenen Nachteile in der Repräsentativität der BenutzerInnen, der Variabilität in der Motivation und im Engagement der TeilnehmerInnen für den Test und ein erhöhtes Risiko, dass TesterInnen in Ihrer Umgebung abgelenkt werden. Hier meinen sie, dass es weniger wahrscheinlich ist, dass bei der synchronen Evaluierung Teilnehmer Zeit mit Aktivitäten verbringt, die nicht mit dem Test zusammenhängen. Andererseits lässt diese natürliche Umgebung auch Situationen, in denen die BenutzerInnen das Produkt verwenden, realitätsnaher evaluieren, als in In-Lab-Evaluierungen (siehe auch Abschnitt 7). Daraus wird geschlossen, dass es auch stark darauf ankommt, ob diese Merkmale in der Studie von Bedeutung sind. Zudem könnte diese negativen Aspekte durch eine größere Stichprobe ausgeglichen werden. In Bezug auf die Repräsentativität des Samples sehen auch Albert, Tullis und Tedesco (2010) die Verwendung sorgfältig ausgewählter Screener-Fragen und -Kontingente als gute Lösung, um den passenden Teilnehmertyp zu finden und einer negativen Beeinflussung der Repräsentativität entgegenzuwirken.

7. Natürliche Umgebung

In einer typischen Labor-Usability-Studie werden TeilnehmerInnen aufgefordert, eine Reihe von Aufgaben auszuführen. Dabei kann die tatsächliche Erfahrung, die ProbandInnen in ihrer natürlichen Umgebung haben, verloren gehen. Dies können technische Aspekte wie die Größe des eigenen Bildschirms, die Systemleistung oder der verwendete Browser sein. Aber auch ablenkende Situationen im Alltag können somit nicht miteinbezogen werden, die man im Usability Labor so gut es geht kontrolliert (Albert, Tullis & Tedesco, 2010). Folglich kann durch das Remote Usability Testing die Realität bei der Verwendung des Produktes besser miteinbezogen werden.

Laut Albert, Tullis und Tedesco (2010) ist der bedeutendste Punkt der asynchronen Evaluierung, die gegebene Anonymität, wodurch die Beeinflussung des Ergebnisses durch die soziale Erwünschtheit wegfällt. Im Kontext von Usability Tests bedeutet das, dass TeilnehmerInnen die ModeratorInnen möglicherweise nicht enttäuschen möchten und daher ein positiveres Feedback geben, als wenn dieser Moderator nicht anwesend wäre. Online-Usability-Studien schließen diese Beeinflussung aus, da Daten anonym erfasst werden können (Albert, Tullis & Tedesco, 2010). Diese Beeinflussung bleibt sowohl bei In-Lab Tests als auch bei synchronen Remote Tests eine Problematik.

8. Fazit

Im Vergleich zu In-Lab Testing weist sowohl das asynchrone als auch das synchrone Remote Usability Testing einen großen Vorteil in Kosten – und Zeitaufwand auf, da die Reise zum Labor wegfällt. Zudem bietet das remote Testverfahren die Möglichkeit, die natürliche Umgebung der BenutzerInnen miteinzubeziehen. Dies kann vor Allem in Bezug auf die technischen Ressourcen einen Vorteil bieten, weitere Usability Probleme aufzudecken. Die größte Unterscheidung zwischen synchronen und asynchronen Testen ist die zeitliche Trennung, welche wesentliche Merkmale in der Durchführung und Planung bei beiden Methoden mit sich bringt. Bei den asynchronen Evaluierungen durchlaufen TeilnehmerInnen den Test ohne EvaluatorInnen und werden durch automatisierte Instruktionen durch den Test geleitet. Bei synchronen Tests sind ModeratorInnen und TeilnehmerInnen im Gegensatz dazu nicht zeitlich getrennt und kommunizieren über das Internet. Dabei kommen Aufzeichnungs-, Screensharing- und Videokonferenz-Tools sowohl für die Durchführung als auch Protokollierung zum Einsatz.

Unterschiede gibt es in der Dauer der Testsessions. Asynchrone Tests sollen aufgrund der Aufmerksamkeit der BenutzerInnen zirka 20 Minuten dauern, welche eine geringere explorative Untersuchung als bei synchronen remote und In-Lab Tests zu Folge hat. In Bezug auf die Quantität der erhobenen Daten ist bei dem asynchronen Testen eine größere Stichprobe möglich. Diese ist folglich für quantitative Studien sehr gut geeignet. Andererseits bieten synchrone remote – und In-Lab Tests einen geeigneteren Ansatz, um einen tieferen Einblick in die Verhaltensweisen und Motivation der BenutzerInnen zu erlangen. Auch ist die Thinking Aloud Methodik für asynchrone Tests nicht geeignet.

In Bezug auf die Moderation werden hierfür keine Skills beim asynchronen Testen benötigt. Jedoch ist, durch die wegfallende persönliche Moderation, die Planung von automatisierten Instruktionen vermutlich aufwändiger und mit intensiveren Pretests verbunden. In Bezug auf die Effektivität der zwei remoten Testverfahren, zeigte eine Studie, dass synchrone Tests besser abschneiden, wobei hier das Sample gering ausfiel und daher eine Generalisierbarkeit vermutlich nicht möglich ist. Auch in Bezug auf den Vergleich der Repräsentativität und Variabilität von Engagement der TeilnehmerInnen kann gedeutet werden, dass diese eine größere Herausforderung bei asynchronen Tests als bei synchrone und In-Lab Tests darstellt. Wobei im Gegensatz dazu asynchrone Tests als einziger drei Methodem die Anonymität gewährleistet und somit die soziale Erwünschtheit keinen negativen Einfluss auf das Testergebnis nehmen kann.

Folglich bieten alle 3 Verfahren ihre Vor- und Nachteile. Der wesentlichste Punkt ist hierbei, ob es sich um eine quantitative Studie handelt. Dann ist vermutlich die asynchrone Methode am besten geeignet. Möchte man einen tieferen Einblick in Verhalten und Motivation der BenutzerInnen erfassen, sind synchrone Remote oder das In-Lab Usability Testing eine bessere Wahl. In Bezug auf Remote Testing im Allgemeinen in Vergleich mit In-Lab Tests ist wohl auch hier der Kosten- und Zeitaufwand ein bedeutender Faktor, der bei Remote Testing deutlich geringer ist.

Literaturverzeichnis

Alghamdi, A. S. et al. (2013). A Comparative Study of Synchronous and Asynchronous Remote Usability Testing Methods. International Review of Basic and Applied Sciences, 1(3). https://www.researchgate.net/publication/261557037_A_Comparative_Study_of_Synchronous_and_Asynchronous_Remote_Usability_Testing_Methods

Schade, A. (2013, 12 Oktober). Remote Usability Tests: Moderated and Unmoderated. Nielsen Norman Group. https://www.nngroup.com/articles/remote-usability-tests/

Moran, K. & Pernice, K. (2020, 12 April). Remote Usability Tests: Moderated and Unmoderated. Nielsen Norman Group. https://www.nngroup.com/articles/remote-usability-tests/

International Organization for Standardization. (2019). Ergonomics of human-system interaction – Part 210: Human-centred design for interactive systems. (ISO Standard No. 9241-210:2019). https://www.iso.org/standard/77520.html

Tullis, A. & Albert, B. (2013). Measuring the User Experience: Collecting, Analyzing and Presenting Usability Metrics (2^nd ed.). Elsevier.

Albert, B., Tullis, A. & Tedesco, D. (2010). Beyond the Usability Lab: Conducting Large-scale Online User Experience Studies. Elsevier.