/ Voice Design

User Experience bei Voice User Interfaces und wie diese optimiert werden kann

Eine Tagebuchstudie der VUI.Agency mit dem UX Research Institut Facit Digital

Mit dem Computer sprechen: Das war zu Zeiten von Star Trek noch Fiktion, doch heute ist es schon in unserem Alltag angekommen. Vor knapp sechs Jahren startete die Revolution der Voice Interfaces mit Apples Siri, heute erobern Amazon Alexa und Google Home das Zuhause von Millionen Nutzern – und die Tendenz zeigt einen rasanten Anstieg. Im September 2017 gab es in den USA bereits über 40 Millionen verkaufte Voice User Interfaces mit intelligenten Sprachassistenten. Die Verkaufszahlen von Amazon Echos zeigte im dritten Quartal von 2017 ein Wachstum von 33% und in Deutschland hört man die charakteristische Frauenstimme in rund 5% der Haushalte - das wären um die 10 Millionen Nutzer.
Der Erfolg von Amazons Sprachcomputer ist nicht zuletzt durch Amazons offene Marktpolitik zu erklären. Ebenso wie es mit notwendigen Kenntnissen möglich ist, eigene Apps für das Smartphone zu programmieren, bietet Amazon seinen Nutzern die Möglichkeit, eigene individuelle Anwendungen (Skills) für den Amazon Echo zu kreieren und zu veröffentlichen. In den USA wurden deshalb allein seit der Herausgabe im November 2014 über 20 000 Skills entwickelt und an den Nutzer gebracht.

Besonderheiten von Voice Anwendungen
Dieser Hype rund um die Veröffentlichung neuer Skills leitet zu der Frage: Was zeichnet optimale Skill Gestaltung eigentlich aus? Was muss ein Skill bieten, um eine erhöhte User Experience zu erzielen? Zunächst ist hier die Besonderheit der Sprachsteuerung zu klären: Voice Anwendungen unterscheiden sich grundlegend von bekannten text- und grafikbasierten Smartphone-Anwendungen sowie Computerprogrammen. Sprachsteuerung bietet eine Vielzahl an Möglichkeiten, ist jedoch ebenso durch Grenzen gekennzeichnet. So lässt sich eine Eingabe durch einen Sprachbefehl deutlich schneller abwickeln: Der Befehl „Buche mir einen Lufthansa Flug unter 400 Euro morgen früh von München nach Frankfurt“ ist schnell gesagt. Um den gleichen Befehl in einer Smartphone-App auszuführen, benötigt der User mehr als 15 Klicks. Andererseits ist die auditive Informationsaufnahme des Nutzers deutlich reduzierter als bei schriftlicher oder grafischer Präsentation. Um bei dem vorigen Beispiel zu bleiben: Einem Nutzer ist es möglich, auf einer Fluganbieterseite eine Vielzahl von Angeboten in wenigen Sekunden mit den Augen zu überfliegen und zu vergleichen, dagegen lässt sich durch die Ausgabe mit einem Voice User Interface nur ein Angebot in gleicher Zeit sichten.


Expertentipp von VUI.Agency: Bevor man einen Skill mit einer bestimmten Funktion aufsetzt, sollte man sich davor immer die Frage stellen: Ist diese Funktion wirklich als Voice Anwendung geeignet? Denn nur weil es eine Funktion noch nicht als Voice Anwendung gibt, heißt das nicht, dass es diese Funktion auch als Voice Anwendung geben sollte. Generell lässt sich sagen, dass solche Funktionen als Voice Anwendungen sinnvoll sind, in denen die mündliche Kommunikation mit einem System effizienter, unterhaltsamer oder schneller ist. Lange Listen, komplexe Menüstrukturen oder zu viele Optionen sind nichts für die geringe auditive Arbeitsspeicherkapazität des Menschen.


Auswirkungen umfangreicher Guidance auf die User Experience
Wie kann nun aber eine erhöhte User Experience für den Nutzer in der Praxis garantiert werden? Um dieser Frage nachzugehen, hat VUI.Agency gemeinsam mit dem UX Research Institut Facit Digital eine zweiwöchige Tagebuchstudie mit 26 Erstanwendern von Amazon Echo durchgeführt. Die Teilnehmer sollten alle zwei Tage notieren, wie sie emotionale und praktische Erfahrung bei der Nutzung des Echos bewerteten und welchen Schwierigkeiten und Herausforderungen sie sich bei der Anwendung ausgesetzt sahen.


Auswertung der Facit Digital: Sehen Sie im Artikel der Facit Digital eine detaillierte Auswertung des Nutzerverhaltens und die Akzeptanz des Voice User Interfaces.


Ein besonderes Augenmerk legte die VUI.Agency darauf, ob die Nutzerzufriedenheit eines Skills davon abhängt, wie viele explizite und unaufgeforderte Hilfestellungen dem Nutzer zur Verfügung gestellt werden.
Speziell für diese Studie entwickelte VUI.Agency den Skill „Brain Challenge“. Brain Challenge ist ein Unterhaltungsskill, bei dem der Nutzer die Wahl hat zwischen mehreren Aufgabentypen: Kopfrechnen üben, sein Allgemeinwissen abfragen, das Kurzzeitgedächtnis trainieren oder Rätsel lösen. Die Grundstruktur des Skills unterschied sich zwischen den Nutzergruppen nicht. Jedoch bekam eine Hälfte der Teilnehmer den Skill mit reduzierter Hilfestellung (Gruppe 1: ungeführt), während die andere Hälfte der Nutzer den Skill mit umfangreicher Hilfestellung (Gruppe 2: geführt) testete.


Expertentipp von VUI.Agency: Die erste Begegnung mit einem Skill bestimmt das weitere Nutzerverhalten mit diesem. Bei der Erstnutzung eines Skills, ist es daher notwendig, dem User eine möglichst einfache und übersichtliche Handhabung zu bieten. Der Nutzer muss bereits bei der Erstnutzung des Skills an sein Ziel kommen, beziehungsweise den Nutzen des jeweiligen Skills erfahren und austesten können.


Um einen Vergleich zu ermöglichen, wurde innerhalb des Skills eine komplexe Menüstruktur mit mehreren Ebenen aufgebaut. Die Nutzer mussten zu Beginn ihre Spieleinstellungen bestimmen und dieser Auswahlprozess beinhaltete mindestens zwei Abfragen. Der Unterschied zwischen den Testgruppen bestand darin, dass die ungeführte Gruppe 1 ihre Einstellungen ohne begleitende Erklärungen wählte und optional auch die Möglichkeit eines Quick-Setups bestand. Das heißt, alle Einstellungen können in einer einzigen Eingabe gemacht werden und müssen nicht sequentiell erfolgen. Die geführte Gruppe 2 hingegen wurde in diesem Prozess von einem umfangreichen, aber dafür unflexiblen Hilfemenü begleitet und konnte weniger schnell in das Spiel starten als Gruppe 1. Im Anschluss wurden die Reaktionen der Teilnehmer auf das umfangreiche, beziehungsweise fehlende Hilfemenü abgefragt. Erwartet wurde, dass sich im Verlauf des Testzeitraumes bei Gruppe 1 eine ansteigende Zufriendenheit zeigt, da Spielstruktur und Anleitungen mit der wiederholten Auseinandersetzung transparenter werden. Im Gegensatz dazu wurde angenommen, dass die Zufriedenheit der Gruppe 2 abfällt, da die vielen Erklärungen den Spielfluss deutlich verlangsamen.

02_Angenommener-Zufriedenheitsverlauf-der-Nutzer-1

Was sind die Ergebnisse?
Es zeigt sich, dass die Wahrnehmung der Transparenz des Skills und der Spielstruktur von der Gruppe 1 ohne Hilfestellungen schlechter bewertet wurde. Dadurch stieg der Frustationsgrad und die Nutzer nahmen die Interaktion mit Alexa als weniger einfach und geistig fordernder an. Die Gruppe 2 mit Hilfestellungen war durchgehend zufriedener mit dem Skill. Der größte Unterschied zwischen beiden Gruppen bestand vor allem darin, ob die gegebenen Hilfestellungen als ausreichend empfunden wurden. In der Gruppe 1 ohne Hilfestellungen wünschten sich 97% der Nutzer mehr Hilfestellungen. In der Gruppe 2 wünschten sich trotz extensiver Erklärungen sogar ein Drittel der Teilnehmer noch mehr Führung, ein weiteres Drittel der Nutzer war mit der Nutzerführung zufrieden und rund 40% der Nutzer empfanden die Hilfestellungen dagegen als zu viel.

01_Hilfestellungen-im-Skill-sind-durchweg-erwu-nscht-1

Fazit
Die aufgestellte Hypothese konnte nicht eindeutig bestätigt werden. Die Zufriedenheit der Gruppe 1 blieb über den gesamten Testzeitraum insgesamt schlechter als bei der Gruppe 2. Daraus lässt sich schließen, dass Nutzer eine umfassende, unaufgeforderte Führung erwarten, damit sie sich schon ab dem ersten Öffnen problemlos in der Anwendung zurecht finden können. Durch die Erklärungen bei der Erstanwendung wird eine positive Skillerfahrung generiert und das vorzeitige Beenden des Skills vermieden. Für die Gruppe 1 erschien der Ablauf des Spiels unklarer als für die Vergleichsgruppe und als geistig anstrengender. Die schlechte erste Erfahrung konnte auch nach Ablauf der Testphase und der wiederholten Nutzung nicht revidiert werden. Im Vergleich dazu gab dafür die Vergleichsgruppe ab der zweiten Hälfte des Versuchszeitraums an, die ausführliche Hilfestellung mittlerweile als ineffizient zu empfinden und wünschte sich die Option, jene Hilfestellung stellenweise überspringen zu können.

03_Tatsa-chlicher-Zufriedenheitsverlauf-der-Nutzer-1

Bei der Gestaltung von Skills kristallisiert sich eine ganz klare Botschaft heraus: Nutzer (im speziellen Erstverwender) wünschen sich von einem gut designten Skill ausführliche Hilfestellungen ohne explizite Aufforderung. Von den Nutzern, die selbstständig nach Hilfe fragen mussten, forderten fast alle mehr Hilfestellungen. Im Gegensatz dazu empfanden Nutzer, denen ungefragt Hilfe angeboten wurde, den Skill als zuverlässiger und genauer. Denn durch die Bedienungsanleitung wurden falsche Befehlseingaben reduziert und die Struktur des Skills sichtbar gemacht, sodass sich die Nutzer weniger leicht „verirren“ konnten. Dennoch wurden gerade die ausführlichen Erklärungen mit der Zeit zunehmend als störend und zeitaufwendig empfunden.


Expertentipp aus dem Design Team (VUI.agency): In der Studie hat das geführte Nutzungsdesign besser abgeschnitten als die ungeführte Variante, bei der die Teilnehmer auf sich allein gestellt waren. Doch man darf nicht vergessen, dass mehr Hilfe auch immer mehr Zeit bedeutet!
Ein Mittelweg zwischen geführtem und ungeführtem Nutzungsdesign sind zum Beispiel abnehmende Hilfestellungen. Das bedeutet: Beim ersten Aufruf des Skills bekommt der Nutzer noch eine ausführliche Erklärung bzw. je nach Komplexität, auch mehrere. Mit zunehmenden Aufrufen werden die Erklärungen reduziert und irgendwann komplett ausgelassen (wahlweise können Erklärungen wieder abgespielt werden, sobald der User zum Beispiel mehr als vierzehn Tage nicht im Skill war).