Σύνθεση Φωνής από Κείμενο
ΕΡΕΥΝΗΤΙΚΑ ΑΠΟΤΕΛΕΣΜΑΤΑ

Σύνθεση Φωνής από Κείμενο

Κατηγορία: Τεχνολογίες

Το ΙΕΛ / Ε.Κ. "Αθηνά" διαθέτει πολυετή πείρα σε τεχνολογίες και συστήματα παραγωγής συνθετικής φωνής από κείμενο για τα Ελληνικά και βρίσκεται στο προσκήνιο της έρευνας εδώ και δύο δεκαετίες. Το ανανεωμένο σύστημα που έχει αναπτύξει, και που στηρίζεται σε τεχνολογία επιλογής και συρραφής ακουστικών μονάδων, συγκαταλέγεται ανάμεσα στα κορυφαία που υπάρχουν για την Ελληνική γλώσσα σε διεθνές επίπεδο.

Το ΙΕΛ / Ε.Κ. "Αθηνά", διαχρονικά, έχει αναπτύξει συστήματα και αναπτυξιακές πλατφόρμες σύνθεσης φωνής με όλες τις επικρατούσες τεχνολογίες και προσεγγίσεις όπως:

  • Rule-based Formant speech synthesis: Σύστημα σύνθεσης κανόνες και με βάση τα formants που συνδυάζει τεχνικές υπολογιστικής νοημοσύνης.
  • Diphone speech synthesis: Ανάπτυξη του πρώτου συστήματος σύνθεσης βασισμένου σε ακουστικές μονάδες διφώνων το οποίο οδήγησε στο προϊόν ΕΚΦΩΝΗΤΗΣ+.
  • Unit-Selection speech synthesis: Ανάπτυξη του πρώτου συστήματος σύνθεσης βασισμένου σε επιλογή και συρραφή ακουστικών μονάδων, με κορυφαία ποιότητα και σχεδόν φυσική συνθετική φωνή.
  • Statistical Parametric speech synthesis: Πρόσφατα, το ΙΕΛ διεξήγαγε έρευνα στην τεχνολογία Παραμετρικής/Στατιστικής σύνθεσης φωνής, με αποτέλεσμα την δημιουργία του πρώτου συστήματος σύνθεσης φωνής βασισμένο σε κρυφά Μαρκοβιανά μοντέλα (HMM) για την Ελληνική γλώσσα, με χρήση της αναπτυξιακής πλατφόρμας HTS.

Επιπρόσθετα, το ΙΕΛ / Ε.Κ. "Αθηνά" μετέφερε και προσάρμοσε επιτυχώς την αναπτυξιακή του πλατφόρμα και σε άλλες γλώσσες, με αποτέλεσμα την ανάπτυξη υψηλής ποιότητας συστήματος σύνθεσης φωνής για την Βουλγαρική γλώσσα. Ακουστικά δείγματα των παραπάνω τεχνολογιών και συστημάτων είναι διαθέσιμα εδώ: http://speech.ilsp.gr/synthesis/samples.

Επιπλέον, στο ΙΕΛ / Ε.Κ. "Αθηνά" διεξάγεται διαρκώς βασική και εφαρμοσμένη έρευνα σε διάφορους τομείς της τεχνολογίας σύνθεσης φωνής όπως η επεξεργασία και ανάλυση φωνής, η μοντελοποίηση και η διεξαγωγή χαρακτηριστικών, ενώ έμφαση δίνεται στην εκφραστική/συναισθηματική σύνθεση φωνής ανεξαρτήτως τεχνολογίας. Επίσης, το ενδιαφέρον εστιάζει στις διάφορες εφαρμογές όπως η φωνητική επαύξηση κάθε είδους ψηφιακού περιεχομένου, η φυσική αλληλεπίδραση με φωνή και η προσβασιμότητα.

Ως αποτέλεσμα των ερευνητικών και αναπτυξιακών προσπαθειών, το 2006 ιδρύθηκε η εταιρία INNOETICS ως τεχνοβλαστός του ΙΕΛ / Ε.Κ. "Αθηνά", με σκοπό την αξιοποίηση της τεχνολογίας σύνθεσης φωνής σε καινοτόμες εφαρμογές πολύτροπης αλληλεπίδρασης και λύσεις αιχμής, στον ευρύτερο χώρο της ηλεκτρονικής επικοινωνίας, μάθησης και ψυχαγωγίας.

Μετά την εξαγορά της Innoetics από τη Samsung τον Ιούλιο του 2017, η συγκεκριμένη τεχνολογία δεν διατίθεται πλέον.

 
 

Ερευνητικές περιοχές