Δημοσίευση - Προσωδία της Ελληνικής πρότασης με εφαρμογές στην Σύνθεση Φωνής από Κείμενο
ΕΡΓΑ

Προσωδία της Ελληνικής πρότασης με εφαρμογές στην Σύνθεση Φωνής από Κείμενο

Ερευνητική περιοχή:  
    
Είδος:  
Διδακτορική διατριβή

 

Έτος: 1999
Συγγραφείς: Ευίτα-Σταυρούλα Φωτεινέα
Πανεπιστήμιο: National Technical University of Athens, Dpt of Electrical and Computer Engineering
Περίληψη:
Μία από τις σημαντικότερες εφαρμογές της Ψηφιακής Επεξεργασίας Σημάτων αποτελεί η σύνθεση φωνής από κείμενο ή αλλιώς μετατροπή κειμένου σε φωνή. Συστήματα TTS (Text To Speech) σύνθεσης χρησιμοποιούνται ολοένα και περισσότερο σε πολλών και διαφορετικών ειδών εφαρμογές, όπως η ανάπτυξη εργαλείων αυτόματης ανάγνωσης για άτομα με προβλήματα όρασης, ή συστήματα παροχής φωνητικών υπηρεσιών (χρηματιστηριακές, υπηρεσίες καιρού, τραπεζικές συναλλαγές κ.ά) αλλά και σε εφαρμογές εκπαιδευτικού λογισμικού, π.χ. περιβάλλοντα εκμάθησης μίας γλώσσας είτε από μαθητές ως μητρικής είτε από ξένους ως ξένης γλώσσα. Στόχος τέτοιων συστημάτων είναι η συνθετική αναπαραγωγή οσοδήποτε μεγάλου γραπτού κειμένου. Η σταθερότητα του ρυθμού εξόδου αλλά και η ορθή προσωδιακή απόδοση της συνθετικής ομιλίας αποτελούν παράγοντες ποιότητας. Ο σταθερός ρυθμός (tempo) είναι κάτι σημαντικό διότι εξασφαλίζει ευχάριστη για τον ακροατή συνθετική ομιλία. Συχνά οι φυσικοί ομιλητές χρησιμοποιούν κυρίως το ρυθμό για να δώσουν και κάποιες επιπρόσθετες πληροφορίες, που δεν μπορούν να κωδικοποιηθούν με τα σημεία στίξεως του γραπτού λόγου. Συνήθως οι "νέες" ή σημαντικές πληροφορίες προφέρονται σε πιο αργό ρυθμό από αυτόν που χρησιμοποιείται για το υπόλοιπο τμήμα της πρότασης, ενώ όταν αναφέρονται ήδη γνωστά ή κοινότοπα πράγματα, τότε συνήθως αυξάνεται ο ρυθμός ομιλίας. Επίσης οι φυσικοί ομιλητές συχνά για να δώσουν έμφαση επιβραδύνουν. Η μείωση του ρυθμού αποσκοπεί στο να δώσει χρόνο στους ακροατές να καταλάβουν τη νέα ή σημαντική ή εμφατική πληροφορία. Η μεταβολή επομένως του ρυθμού εξυπηρετεί συγκεκριμένους σκοπούς και αποτελεί εργαλείο του ομιλητή στην στρατηγική μετάδοσης μηνύματος μέσω ομιλίας. Σύμφωνα με τα παραπάνω, εάν ένα σύστημα σύνθεσης φωνής από κείμενο δεν επιτυγχάνει σταθερό και ξεκούραστο για τους ακροατές ρυθμό, η συνθετική φωνή θα μπορούσε να θεωρηθεί παραπλανητική, διότι ο ακροατής δεν θα ήξερε για ποιο λόγο μεταβάλλεται ο ρυθμός. Στην εργασία αυτή γίνεται εκτεταμένη μελέτη των διαρκειών των τονούμενων και άτονων φωνηέντων τα οποία εμφανίζονται σε λέξεις της Ελληνικής σε θέση εστίασης (λέξεις στην πρόταση που προφέρονται με εμφατικό τρόπο) ή μη, και καταδεικνύεται η σπουδαιότητα των σχετικών διαρκειών των φωνηέντων για την αντίληψη σταθερού ρυθμού. Στην πράξη, κατά τη ροή του φυσικού λόγου, οι παράγοντες τεμαχιακού περιβάλλοντος και κυριαρχίας λέξης επηρεάζουν τις διάρκειες των φωνηέντων, επιφέροντας μικρές αλλαγές στους λόγους διαρκειών των φωνηέντων. Αν όμως η τροποποίησή τους ξεπεράσει ένα σημείο ανοχής μπορεί να οδηγήσει σε αντίληψη ανακολουθίας του ρυθμού της λέξης που υπέστη την τροποποίηση σε σχέση με το ρυθμό της πρότασης στην οποίαν ανήκει αυτή η λέξη. Παρουσιάζεται επίσης ένας κανόνας διαρκειών για τα φωνήεντα, με τη βοήθεια του οποίου επιτυγχάνεται σταθερός ρυθμός στην συνθετική ομιλία. Ανεξάρτητα από την τεχνική σύνθεσης που μπορεί να υιοθετηθεί, ένα από τα πιο σημαντικά και ιδιαιτέρως εξαρτώμενα από τη γλώσσα υποσυστήματα ενός TTS είναι το προσωδιακό υποσύστημα. Η απόδοση της προσωδίας εμπεριέχει σωστή απόδοση των διαρκειών και έντασης των ήχων, όμως η πιο σημαντική πληροφορία βρίσκεται στην ορθή απόδοση της μελωδίας της γλώσσας, δηλαδή της μεταβολής των θεμελιωδών συχνοτήτων. Ένας συνθέτης πρέπει να παράγει ομιλία και να αποδίδει με ορθό προσωδιακό τρόπο από την πιο απλή έως και την πιο σύνθετη δομή που μπορεί να απαντηθεί σε μία γλώσσα. Η πιο απλή δομή είναι οι μεμονωμένες λέξεις, που συναντώνται ευρέως στην καθημερινή συνομιλία και αποτελούν τον πιο απλό τρόπο επικοινωνίας. Μία ελαφρώς πιο σύνθετη δομή αποτελεί αυτή της παράθεσης λέξεων υπό τη μορφή καταλόγου, ή η κλίση ρημάτων, δομές που παρουσιάζουν μία διαφορετική μελωδική συμπεριφορά. Τέλος, πιο πολύπλοκες δομές αποτελούν οι φράσεις ή προτάσεις της Ελληνικής, η ποικιλία των οποίων είναι πολύ μεγάλη αφού τα Ελληνικά έχουν εξαιρετικά πλούσιες συντακτικές δομές. Στην παρούσα εργασία παρουσιάζονται τα μοντέλα μεταβολών θεμελιώδους συχνότητας που εφαρμόζονται σε λέξεις επιτονισμού και ισχύουν από το επίπεδο λέξης έως και το επίπεδο πρότασης. Αρχικά, παρουσιάζονται χαρακτηριστικά μοντέλα που εφαρμόζονται σε επίπεδο μεμονωμένων λέξεων και αποδίδουν τους διάφορους τρόπους έκφρασης, δηλαδή την κατάφαση, ερώτηση καθώς και το μοντέλο του τρόπου συνέχειας, το οποίο αποδίδει το μήνυμα ότι η πληροφορία δεν έχει τερματιστεί και ότι ακολουθεί νέα πληροφορία. Δίνονται επίσης στοιχεία για τις διάρκειες των διαφόρων τμημάτων των χαρακτηριστικών μοντέλων για την ορθή εφαρμογή τους σε συστήματα σύνθεσης φωνής από κείμενο για τα Ελληνικά. Γίνεται αναφορά στην κλίση των ρημάτων της Ελληνικής, μία πιο σύνθετη οντότητα ισοδύναμη μελωδικά με την παράθεση λέξεων σε μορφή καταλόγου. Στις δομές αυτές εφαρμόζονται δύο μοντέλα: α) αυτό του τρόπου συνέχειας, που αποδίδει το μήνυμα ότι ακολουθεί περαιτέρω πληροφορία και β) το μοντέλο της κατάφασης σε επίπεδο λέξης, που αποδίδει το μήνυμα ότι η πληροφορία έχει τερματιστεί. Ακολουθεί μελέτη της προσωδιακής μεταβολής σε επίπεδο φράσης και πρότασης, που βασίστηκε σε εκτεταμένο έλεγχο μεγάλης ποικιλίας των συντακτικών φαινομένων της Νέας Ελληνικής για τον καταφατικό, τονικά ουδέτερο τρόπο έκφρασης. Η εργασία ολοκληρώνεται με την παρουσίαση των χαρακτηριστικών μοντέλων θεμελιώδους συχνότητας που εφαρμόζονται στις λέξεις επιτονισμού που απαρτίζουν την πρόταση. Ο βασικός κανόνας που καλύπτει το μεγαλύτερο μέρος των συντακτικών φαινομένων της Ελληνικής είναι απλός, και στηρίζεται στην παράθεση τριών μόνο μοντέλων μελωδίας. Του ΑΛΕ που εφαρμόζεται στην Αρχική Λέξη Επιτονισμού και αποδίδει το μήνυμα ότι ακολουθεί περαιτέρω πληροφορία, του ΕΛΕ που εφαρμόζεται σε όλες τις Ενδιάμεσες Λέξεις Επιτονισμού και αποδίδει το ίδιο μήνυμα με το ΑΛΕ, διαφοροποιείται όμως ελαφρώς από αυτό, κυρίως όσον αφορά στις στάθμες τιμών των F0 και τέλος του ΤΛΕ που εφαρμόζεται στην Τελική Λέξη Επιτονισμού της πρότασης και αποδίδει το μήνυμα ότι η πληροφορία τερματίζεται. Ο βασικός κανόνας τροποποιείται όταν εμφανίζονται φαινόμενα έγκλισης του τόνου, παύσης ή έμφασης. Κατά την έγκλιση του τόνου, δημιουργούνται (Γενικευμένες) Λέξεις Επιτονισμού που φέρουν Δύο Τόνους, για παράδειγμα, «το αυτοκίνητό μου» [toaftok’init’omu] λόγω της προσάρτησης του κλιτικού σε λέξεις, όπου προκαλείται παραβίαση του κανόνα τονισμού της προπαραλήγουσας. Αυτό όμως δεν είναι δυνατό να συμβεί, οπότε εμφανίζεται ο δευτερογενής τόνος, που είναι διορθωτικός. Στις περιπτώσεις αυτές και ανάλογα με το εάν η λέξη επιτονισμού είναι σε αρχική/ενδιάμεση ή τελική θέση στην πρόταση, εφαρμόζονται τα προσωδιακά μοντέλα ΓΛΕ-ΔΤ-Αρχής και ΓΛΕ-ΔΤ-Τέλους. Όταν υπάρχει παύση, είτε λόγω της ύπαρξης κόμματος, είτε εγγενής στην συντακτική δομή είτε επειδή ο ομιλητής αποφασίζει να σταματήσει για λίγο την εκφορά, στη λέξη επιτονισμού προ παύσης εφαρμόζεται το μοντέλο Παύσης, και η επόμενη λέξη επιτονισμού μοντελοποιείται με το ΑΛΕ αντί για το ΕΛΕ. Τέλος, όταν εμφανίζεται εγγενής έμφαση στη δομή, με την εμφάνιση κεντρικών (για την έμφαση) λέξεων στη φράση ή πρόταση, που οφείλουν να τροποποιήσουν την εστίαση, όπως στα παραδείγματα άρνησης «Μην φεύγεις» και «Η Μαρία δεν καταλαβαίνει καμία διαφορά», ή κεντρικές λέξεις στην σύγκριση «Η Μαρία είναι πιο μεγάλη από την Κατερίνα» ή ακόμα και σύνδεσμοι στην παρατακτική σύνδεση «Είτε-είτε», «ή-ή», «ούτε-ούτε» αλλά και σε περιπτώσεις όπου είναι επιθυμητή η αλλαγή στην εστίαση διότι ο ομιλητής επιλέγει να δώσει έμφαση, εφαρμόζεται ένα ειδικό μοντέλο Έμφασης, με αύξηση της θεμελιώδους συχνότητας στην περιοχή της κεντρικής λέξης ακολουθούμενη από σημαντική μείωση μέχρι το τέλος της φράσης ή πρότασης.
[Bibtex]