************************************************************************ * * * Einladung * * * * Informatik-Kolloquium * * * ************************************************************************ Zeit: Freitag, 14. Februar 2003, 9.00 Uhr Ort: AH VI, Ahornstr.55 Referent: Dipl.-Inform. Sirko Molau Lehrstuhl für Informatik VI Thema: Normalization in the Acoustic Feature Space for Improved Speech Recognition Abstract: Mangelnde Robustheit gegenüber variablen Aufnahmebedingungen, Sprechern und Hintergrundgeräuschen ist einer der Hauptgründe dafür, dass die automatische Spracherkennung bis heute nur in wenigen isolierten Applikationen zum praktischen Einsatz kommt. Von besonderem Interesse sind daher Verfahren, die zur Erhöhung der Robustheit der Spracherkennung beitragen. Im Rahmen des Vortrags wird zunächst gezeigt, dass es einen grundsätzlichen Mismatch zwischen den Trainings- und Testdaten eines Spracherkennungssystems gibt, der zu einer Reduktion der Erkennungsleistung führt. Adaption und Normalisierung sind zwei Konzepte, um den Mismatch zu verringern. Sie werden in den Rahmen der statistischen Spracherkennung eingefügt, und zwei konkrete Normalisierungsverfahren werden im Vortrag genauer vorgestellt. Die Vokaltraktlängennormierung beruht auf der Verzerrung der Frequenzachse während der Signalanalyse. Damit werden sprecherabhängige Variationen der Formantfrequenzen im Sprachsignal reduziert. Das Verfahren wurde so optimiert, dass konsistent hohe Verbesserungen der Erkennungsleistung ohne einen Anstieg an Rechenzeit erzielt werden. Der zweite Satz von Verfahren sind Histogrammnormalisierung und Rotation des Merkmalsraumes. Sie zielen darauf ab, den Mismatch zwischen Trainings- und Testdaten durch eine Angleichung ihrer Verteilungen zu verringern. Es wird gezeigt, wo die Normalisierung am effektivsten ist, wie Sprechpausen behandelt werden können und wie beide Verfahren interagieren. Je stärker Trainings- und Testdaten voneinander abweichen, umso größer sind die erzielten Verbesserungen der Erkennungsleistung. Schließlich wird demonstriert, dass die sequentielle Anwendung mehrerer Normalisierungsverfahren die Erkennungsleistung im Fall von starkem Mismatch zwischen Training und Test von Null auf ein hohes Niveau von 90 Prozent bringen kann. Es laden ein: Die Dozenten der Informatik