Sprachsynthese (Text-to-Speech, TTS) bezeichnet die computergestützte Umwandlung von Text in Sprache, wobei Verständlichkeit und Natürlichkeit zentrale Qualitätskriterien sind. Neuronale Ansätze haben die Sprachqualität in den letzten Jahren deutlich verbessert, ermöglichen jedoch bislang keine präzise Kontrolle der Lautdauer auf Phonemebene.Diese Arbeit untersucht, ob ein neuronales TTS-System bereits während des Trainings explizit lernen sollte, die Lautdauer auf Phonemebene zu steuern, oder ob ein rein implizites Lernen aus umfangreichen Sprachdaten ausreicht. Hierfür wurde ein...
Sprachsynthese (Text-to-Speech, TTS) bezeichnet die computergestützte Umwandlung von Text in Sprache, wobei Verständlichkeit und Natürlichkeit zent...