Ερευνητική περιοχή - Επεξεργασία Φυσικής Γλώσσας
ΕΡΕΥΝΑ

Επεξεργασία Φυσικής Γλώσσας

 

Κατά τα τελευταία έτη το ΙΕΛ έχει καταβάλει σημαντικές προσπάθειες για την ανάπτυξη βασικών εργαλείων Επεξεργασίας Φυσικής Γλώσσας. Το αποτέλεσμα είναι ένα σύνολο από επαναχρησιμοποιήσιμα γλωσσικά εργαλεία και πόρους για την επεξεργασία και τη γλωσσική ανάλυση κειμένου (εργαλεία για διαχωρισμό λέξεων, εύρεση ρίζας λέξεων, μορφολογική ανάλυση, λημματοποίηση, αναγνώριση ονοματικών οντοτήτων, εξαγωγή ορολογίας, συντακτικοί αναλυτές και υπολογιστικά λεξικά). Το επιστημονικό και τεχνολογικό αυτό εγχείρημα βασίστηκε σε ένα καλά τεκμηριωμένο πρότυπο: πιθανοτικά και καθοδηγούμενα από δεδομένα μοντέλα. Τα γλωσσικά αρθρώματα ολοκληρώθηκαν σε πλατφόρμα αρχιτεκτονικής προσαρμοσμένης σε υπηρεσίες αξιοποιώντας ανοιχτά πρότυπα, παράγοντας γλωσσικούς πόρους και εργαλεία, προκειμένου να ανταποκριθεί στις ανάγκες διαφόρων εφαρμογών επεξεργασίας φυσικής γλώσσας.

Κατά την τρέχουσα δεκαετία παρατηρείται άνθιση των ανοιχτών εργαλείων επεξεργασίας φυσικής γλώσσας και των ερευνητικών προγραμμάτων. Οι πρόσφατες εξελίξεις τόσο στο θεωρητικό υπόβαθρο όσο και στις αναπαραστάσεις της γλώσσας λειτουργούν ως η κινητήριος δύναμη που θα συνδράμει την κατανόηση της γλώσσας και την περαιτέρω εκβιομηχάνιση του γλωσσικού τοπίου. Η συνεργασία διαφορετικών επιστημονικών πεδίων όπως η μηχανική μάθηση, η γνωσιακή ψυχολογία και η υπολογιστική γλωσσολογία καθιστούν αναγκαία την αλλαγή των καθιερωμένων τρόπων έρευνας και δραστηριοποίησης. Υπό το πλαίσιο αυτό, το ΙΕΛ αναδιαμορφώνει το όραμα και τον ερευνητικό του σχεδιασμό για να ανταποκριθεί στις νέες προκλήσεις και τις τεχνολογικές εξελίξεις.

Επιτεύγματα:

  • Greek Dependency Treebank (γλωσσικά επισημειωμένο σώμα κειμένων 100Κ λέξεων στο επίπεδο της σύνταξης και της σημασιολογίας)
  • Ελληνικό Σώμα Επισημειωμένων Γεγονότων (επισημείωση γεγονότων και χρονικών εκφράσεων σύμφωνα με το σχήμα TimeML)
  • συντακτικός αναλυτής για σχέσεις εξάρτησης (dependency parser) για τη νέα ελληνική
  • εργαλείο αναγνώρισης χρονικών εκφράσεων για τα ελληνικά (Timex Recogniser)
  • ταξινομητές κειμένων βασισμένοι σε τεχνικές μηχανικής μάθησης
  • υπολογιστικοί σημασιολογικοί πόροι για αναγνώριση σημασιολογικών ρόλων, βασισμένοι στη γνωσιακή σημασιολογία
  • εργαλεία αυτόματης περίληψης κειμένων

Ερευνητικοί και αναπτυξιακοί στόχοι:

  • επέκταση της υπάρχουσας υποδομής πόρων για την ελληνική γλώσσα
  • βελτίωση της αλυσίδας επεξεργασίας κειμένου μέσω γλωσσικών εργαλείων που εστιάζουν στην επίλυση συναναφοράς, την αναγνώριση σημασιολογικών ρόλων και την αναγνώριση χωρικών εκφράσεων
  • μοντελοποίηση θέματος σε δεδομένα ιστού
  • αναγνώριση γεγονότων και χωροχρονική αγκίστρωσή τους με την υιοθέτηση καινοτόμων τεχνικών εξόρυξης κειμένου
  • εξόρυξη άποψης, ανάλυση άποψης και συναισθήματος, περίληψη και πρόβλεψη άποψης και οπτικοποίηση των αποτελεσμάτων
 
 

Έργα