Ερευνητική περιοχή - Υποδομή Γλωσσικών Πόρων
ΕΡΕΥΝΑ

Υποδομή Γλωσσικών Πόρων

 

Η επικράτηση των σύγχρονων υπολογιστικών μεθόδων και τεχνικών μηχανικής μάθησης σε όλους σχεδόν τους τομείς γλωσσικής τεχνολογίας - από την αναγνώριση και σύνθεση φωνής μέχρι τη μηχανική μετάφραση και τις τεχνολογίες μετατροπής αδόμητης πληροφορίας από ετερογενείς πηγές (κείμενο ή πολυμέσα) σε δομημένη, με την χρήση προηγμένων εφαρμογών εξαγωγής πληροφορίας - καθιστά την ύπαρξη και διαθεσιμότητα κατάλληλων γλωσσικών πόρων ιδιαίτερα επιτακτική.

Με τον ίδιο τρόπο, η ανάπτυξη και αξιολόγηση εύρωστων εργαλείων και υποσυστημάτων που αποτελούν τα δομικά συστατικά των ανωτέρω εφαρμογών στηρίζεται στη χρήση λεξικών πόρων ή/και σωμάτων κειμένων (ΣΚ) επισημειωμένων ή μη. Έτσι, συντακτικοί και σημασιολογικοί αναλυτές, εργαλεία αναγνώρισης ονοματικών οντοτήτων, καθώς επίσης και πληθώρα άλλων εργαλείων επεξεργασίας φυσικής γλώσσας αναπτύσσονται βάσει γλωσσικών μοντέλων, τα οποία εξάγονται από κατάλληλα επιλεγμένα και επισημειωμένα γλωσσικά δεδομένα. Την ίδια στιγμή, η επικράτηση των ποσοτικών μεθόδων στη μηχανική μετάφραση καθιστά τους πολυγλωσσικούς πόρους απαραίτητη προϋπόθεση έρευνας και ανάπτυξης στον εν λόγω τομέα.

Καθώς όμως, η σχεδίαση και ανάπτυξη γλωσσικών πόρων αποτελεί ιδιαίτερα χρονοβόρα και δαπανηρή εργασία, οι περιορισμοί διαθεσιμότητας, η απουσία επαρκούς και αποτελεσματικής τεκμηρίωσης των υπαρχόντων πόρων, καθώς επίσης και ο μικρός βαθμός επαναχρησιμοποίησής τους αποτελούν τροχοπέδη για την ανάπτυξη συστημάτων και εφαρμογών.

Επιτεύγματα:

Όσον αφορά στη σχεδίαση και ανάπτυξη ψηφιακών γλωσσικών πόρων, το ΙΕΛ κατέχει, πλέον, εξέχουσα θέση στην ερευνητική κοινότητα, ενώ ταυτόχρονα, έχει καθιερωθεί μεταξύ των πρωτοπόρων στον τομέα της οργάνωσης και λειτουργίας ψηφιακών ερευνητικών υποδομών (e?infrastructure). Μάλιστα, ο επαναπροσδιορισμός, τα τελευταία χρόνια, της έννοιας “γλωσσικός πόρος” συνέτεινε στο να συμπεριλαμβάνονται στις εν λόγω υποδομές όχι μόνο γλωσσικοί πόροι, αλλά και τα σχετικά εργαλεία γλωσσικής τεχνολογίας. Στον άξονα αυτό, τα ερευνητικά και αναπτυξιακά αποτελέσματα του ΙΕΛ συνοψίζονται στα ακόλουθα:

  • σχεδίαση, ανάπτυξη και τεκμηρίωση γλωσσικών πόρων απαραίτητων για την εκπαίδευση και αξιολόγηση εργαλείων επεξεργασίας φυσικής Γλώσσας και προηγμένων εφαρμογών γλωσσικής τεχνολογίας
  • ανάπτυξη τεχνολογιών αποθετηρίων και διαμόρφωση πολιτικών συμβατών με τις σύγχρονες απαιτήσεις για την διάθεση γλωσσικών πόρων και εργαλείων
  • προώθηση της έρευνας για τον καθορισμό μεταδεδομένων και επαρκών προδιαγραφών με στόχο την αποτελεσματική τεκμηρίωση και αναζήτηση γλωσσικών πόρων
  • συμμετοχή στις διαδικασίες τυποποίησης κατά ISO, ISODCR, ISOTC37
  • παροχή διαδικτυακών υπηρεσιών που σχετίζονται με γλωσσικούς πόρους και εργαλεία. Οι υπηρεσίες αυτές απευθύνονται τόσο τους ερευνητές του ΙΕΛ όσο και στην ευρύτερη ερευνητική κοινότητα
  • σχεδίαση και καθορισμός επιπέδων διαλειτουργικότητας για τα εργαλεία που έχουν αναπτυχθεί στο ΙΕΛ και καθορισμός ροών εργασιών
  • ανάπτυξη πλατφόρμας υπηρεσιών η οποία χρησιμοποιεί την αρχιτεκτονική UIMA, υποστηρίζοντας ανοικτά πρότυπα, για την ενσωμάτωση γλωσσικών πόρων και εργαλείων, με στόχο την παροχή ολοκληρωμένων υπηρεσιών σχετικών με διάφορες εφαρμογές επεξεργασίας φυσικής γλώσσας
  • συμμετοχή σε όλα τα σχετικά ερευνητικά δίκτυα και οργανισμούς (FlarenetELRA)
  • συμμετοχή στην προ-παρασκευαστική φάση της ερευνητικής υποδομής Γλωσσικών Πόρων και Τεχνολογιών Clarin, με απώτερο στόχο την λειτουργία του ΙΕΛ ως κέντρου παροχής γλωσσικών υπηρεσιών του δικτύου Clarin
  • οργάνωση του εθνικού δικτύου της ερευνητικής υποδομής Γλωσσικών Πόρων και Τεχνολογιών Clarin για την Ελλάδα
  • συντονισμός, οργάνωση και λειτουργία της μεγαλύτερης σε πανευρωπαϊκό επίπεδο, ανοικτής και διαλειτουργικής ερευνητικής υποδομής γλωσσικών πόρων και γλωσσικών τεχνολογιών, META-SHARE

Ερευνητικοί και αναπτυξιακοί στόχοι:

  • οργάνωση και λειτουργία αποθετηρίου δεδομένων και εργαλείων για την ελληνική γλώσσα
  • τεκμηρίωση όλων των γλωσσικών πόρων και εργαλείων που διαθέτει το ΙΕΛ
  • παροχή υπηρεσιών σχετικών με την επεξεργασία φυσικής γλώσσας (off-line και on-line)
  • σχεδίαση και καθορισμός επιπέδων συντακτικής και σημασιολογικής διαλειτουργικότητας των γλωσσικών εργαλείων και διασύνδεσή τους με άλλα εξωτερικά αρθρώματα
  • οργάνωση και λειτουργία της υποδομής κατανεμημένων και δικτυωμένων αποθετηρίων META-SHARE
 
 

Έργα