Mit einer Kombination von Headset und automatisierter Spracherkennung erleichtert Philips Speech die Dokumentation und Transkription von Aufnahmen erstaunlich gut.
In einer Ära, in der die globale Fertigung von IT- und Kommunikationshardware längst nach außerhalb Österreichs verlagert worden ist, gibt es sie noch: Unternehmen, die zwar nicht die gesamte Wertschöpfungskette lokal abbilden – durch die Spezialisierung in der Wirtschaft ein kaum sinnvolles Unterfangen – aber zentral Planung, Architektur, Design, die Endfertigung von Endgeräten und deren Business-Strategie hierzulande vereinen. Mit dem „Philips SpeechOne“ ist seit gut drei Jahren ein Headset „Made in Austria“ auf dem Markt. Speech Processing Solutions (Philips Speech) ist der Hidden Champion, der mit Hard- und Softwarelösungen sowie Apps rund um die Themen Spracherkennung, Transkription und Sprachtechnologie bei Geschäftskunden reüssiert. Die Österreicher sprechen mit ihren Produkten Zielgruppen mit Kundenbetreuung oder Dokumentationspflichten an – sei es in der Medizin, in Anwaltskanzleien oder der Versicherungsbranche.
Das Profi-Headset SpeechOne (rund 400 Euro) ist passend für die „heavy usage“ im Alltag ausgelegt, was auch ein über mehrere Monate andauernder Härtetest der Report-Redaktion im Einsatz in der Praxis gezeigt hat. Hinsichtlich Sprach- und Tonqualität, besonders auch in der technischen Ausführung und Qualität des Materials schlägt es herkömmliche, billigere Headsets um Längen – und das mit Riesenabstand. Bei einem Gewicht von 81 Gramm inklusive Überkopfbügel und Polster vermittelt das Gerät einen kompakten, robusten Tragekomfort. Auch ruckartige Kopfbewegungen schleudern das Teil nicht vom Kopf und der Bügel rutscht auch beim Vorbeugen nicht herunter. Benutzer*innen können eigene Ohrpolster verwenden, wenn Sie das Gerät zusammen mit anderen nutzen. Das kabellose, einseitige Headset – wahlweise für rechts oder links – kann zudem als Nackenbügel oder neben dem Ohr verwendet werden.
Mit einer Dockingstation für ein ebenfalls kabelloses Aufladen – das Headset sitzt magnetisch auf – und einer optionalen, kleinen Lanze für eine Statusanzeige mit rotem oder grünem Licht, die über USB angeschlossen wird, ist das Set für den professionellen Einsatz hardwaretechnisch komplett. Der Akku des Headsets hält auch volle Arbeitstage mit zusätzlichen Überstunden durch. Während die Treiber für das Headset per Plug-and-Play installiert werden, liefert die Installation einer Desktop-App weitere Funktionen und stellt das Zusammenspiel der Aufnahmeprozesse sicher.
Bild: Die Statusanzeige leuchtet automatisch rot, wenn das Headset für eine Aufnahme oder einen Anruf verwendet wird. Der Status kann auch über eine Taste auf der Dockingstation geändert werden.
Die Mikrofone mit der generell bei den Diktiergeräten und Headsets von Philips Speech standardisierten Rauschunterdrückung wurden speziell für Spracherkennungsanwendungen entwickelt. Seine wahre Qualität entfaltet das SpeechOne dann in der Verbindung mit der Software des Herstellers aus Wien. Die Erkennungsqualität und Geschwindigkeit des Prozesses über die Desktop-App ist erstaunlich. Notizen, Mails, jegliche Dokumente zur Dokumentation lassen sich nun auch über Spracheingabe automatisch schreiben – einfach an jeder Stelle, an der auch ein Cursor zur Texteingabe blinken kann. Die Kombination Headset und „Speech-to-Text“ über die App liefert Ergebnisse, mit denen es sich in verschiedensten Berufsfeldern hervorragend arbeiten lässt. Es ist eine automatische Transkription in „Echtzeit“, bei der die gesprochenen Worte wie magisch auf den Bildschirm purzeln.
Zur Abbildung der Workflows für die Ablage und spätere Transkription der Aufnahmen durch Schreibkräfte liefert Philips Speech die Cloudsoftware „SpeechLive“ (ab 8 Euro monatlich, beginnend bei zehn Nutzer*innen und 5 GB Speicherplatz). Die logische Einrichtung von Rollen – Admin, Autor*innen und Transkription – ist für den*die Einzelnutzer*in vielleicht etwas zu viel des Guten, richtet sich aber klar an Business-User und Organisationen. Diese können sich das Workflow-Protokoll bei Bedarf auch gleich als Excel-Datei exportieren. Support für Businesskunden bietet in Österreich ein Netzwerk an zertifizierten Vertriebspartnern von Philips Speech. Allfällige Herausforderungen in der Einrichtung, dem Anlegen und Organisieren der Rollen sind in der Regel mit einem einzigen Telefonat positiv erledigt, betont man etwa bei dem Partner apricon.
Bild: Die Cloudsoftware „SpeechLive“ ist die Drehscheibe für Aufnahmen und Transkripte für Einzelnutzer*innen und auch Teams.
An die Cloudplattform ist ein manueller Transkriptionsdienst angebunden, an den Aufnahmen kostenpflichtig weitergeleitet werden können. Unser klares Lieblingsfeature des Sets ist freilich die automatisierte Verarbeitung. Abhängig von der Qualität der Aufnahme – vom eigenen Wort via Headset in einer ruhigen Umgebung angefangen bis zum Mitschnitt eines Konferenzteilnehmers über Lautsprecher bei starken Umgebungsgeräuschen – unterscheidet sich die Erkennungsgenauigkeit etwas untereinander, aber nicht wesentlich. (Wir haben im Test auch Mitschnitte von Gesprächen getestet, die nicht mit Philips-Equipment aufgenommen wurden. Die Transkription funktioniert hierbei ebenfalls.) Das „Speech-to-Text“-Zusatzabo in der Cloud (25 Euro pro Monat und Nutzer*in) ist die Flatrate für das automatisierte Verwandeln von Sprachaufnahmen in Text und in unterschiedlichsten Sprachen im Angebot. Es ist eine großartige Erleichterung oft ungeliebter, mühseliger Arbeit.
Fazit: Die Ergebnisse im Test der Report-Redaktion sind so gut, dass wir es tatsächlich von nun an beruflich einsetzen werden – etwa bei einem ersten Schritt eines Transkriptionsdurchlaufs eines Interviews, um dieses anschließend von Hand redaktionell zu redigieren und zu kürzen – letzteres nimmt uns noch keine Maschine ab. Aber auch das ist nur noch eine Frage der Zeit, wenn man die Entwicklungen im Umfeld von Machine Learning und KI betrachtet.