Το έργο ΟικΟΝΟΜίΑ απέβλεπε στην ανάπτυξη εύρωστων μεθόδων επιφανειακής κατανόησης ελεύθερου κειμένου. Συγκεκριμένα, αποσκοπούσε στην κατασκευή ενός συστήματος αυτόματης ανάλυσης για την παραγωγή από ελεύθερο κείμενο μιας επιφανειακής σημασιολογικής αναπαράστασης, που περιλαμβάνει πληροφορία γλωσσική (μορφοσυντακτική ανάλυση και λήμμα για κάθε λέξη, αναγνώριση ονοματικών οντοτήτων και κατηγοριοποίηση αυτών, ανάλυση της επιφανειακής συντακτικής δομής κάθε πρότασης, συναναφορές μεταξύ ονομάτων, ονοματικών φράσεων και αντωνυμικών τύπων). Η αναπαράσταση αυτή μπορεί να χρησιμοποιηθεί για την αποδοτική δεικτοδότηση κειμένων η οποία βασίζεται όχι μόνο στην "επίπεδη" πληροφορία που παρέχουν οι συχνότητες των λέξεων - κλειδιών, αλλά και στην σύνθετη επεξεργασία - σε γραμματικό και συντακτικό επίπεδο - της αναζήτησης του χρήστη.
Τα στάδια επεξεργασίας περιελάμβαναν :
1. γραμματική κατηγοριοποίηση και λήμμα για κάθε λέξη,
2. ονοματικές οντότητες και κατηγοριοποίηση αυτών,
3. ανάλυση της επιφανειακής συντακτικής δομής κάθε πρότασης, συντακτικές σχέσεις μεταξύ των συντακτικών δομών και εντός αυτών,
4. συναναφορές μεταξύ ονομάτων, ονοματικών φράσεων και αντωνυμικών τύπων, χειρισμός ελλειπτικών φαινομένων
H γραμματική κατηγοριοποίηση και η λημματοποίηση αποσκοπούν στην αναγνώριση της γραμματικής κατηγορίας κάθε λέξης και του αντίστοιχου λήμματος. Η διαδικασία αυτή χρησιμοποιεί ένα σύνολο ~670 χαρακτηριστικών που καλύπτει τα φαινόμενα της Ελληνικής γλώσσας και είναι συμβατό με το σύνολο χαρακτηριστικών που προβλέπονταν στις προδιαγραφές του έργου PAROLE.
Στα πλαίσια του έργου, αναπτύχθηκε ένα καινοτόμο υποσύστημα αναγνώρισης ονοματικών οντοτήτων. Τα ονόματα (κύρια ονόματα προσώπων, εταιριών, τοπωνύμια κ.α.) αποτελούν κατά κύριο λόγο τις σημασιολογικές κεφαλές που δυνάμει συμπληρώνουν τους θεματικούς ρόλους των γεγονότων που περιγράφονται σε ένα κείμενο. Συγκεκριμένα, το έργο επέτυχε την αναγνώριση και κατηγοριοποίηση ονοματικών οντοτήτων των εξής κατηγοριών:
- εταιρίες και οργανισμοί,
- φυσικά πρόσωπα,
- τοποθεσίες,
- ημερομηνίες και εκφράσεις ώρας,
- χρηματικά ποσά και ποσοστώσεις.
Μετά την αναγνώριση των ονοματικών οντοτήτων, πραγματοποιείται επιφανειακή συντακτική ανάλυση που αποσκοπεί στην αναγνώριση των φράσεων και προτάσεων σύμφωνα με το πρότυπο EAGLES. Συγκεκριμένα, αναγνωρίζονται ονοματικές, επιθετικές, προθετικές, επιρρηματικές και ρηματικές φράσεις, οι κεφαλές τους και τυχόν προσδιορισμοί. Επίσης σημειώνονται τα όρια των προτάσεων (clauses) και οι κατηγορίες τους. Με τη βοήθεια ενός λεξικού υποκατηγοριοποίησης, συμβατού με τις προδιαγραφές PAROLE, αναγνωρίζονται οι φράσεις που κατέχουν θέση υποκειμένου και αντικειμένου και εντοπίζονται οι περιπτώσεις έλλειψης υποκειμένου. Tην αναγνώριση ονοματικών οντοτήτων και την επιφανειακή συντακτική ανάλυση ακολουθεί στην αρχιτεκτονική το σύστημα επίλυσης συναναφορών μεταξύ ονομάτων, ονοματικών φράσεων και αντωνυμικών τύπων. Η επίλυση των συναναφορών γίνεται σε δύο στάδια: Το πρώτο στάδιο περιλαμβάνει τον εντοπισμό και χαρακτηρισμό των κειμενικών εκείνων στοιχείων τα οποία εν δυνάμει μετέχουν σε σχέσεις συναναφοράς (markables). Στο δεύτερο στάδιο πραγματοποιείται η διασύνδεση μεταξύ εκείνων μόνο των στοιχείων τα οποία μετέχουν σε σχέσεις συναναφοράς. Η επίλυση των συναναφορών πραγματοποιείται με βάση γραμματικά και συντακτικά χαρακτηριστικά που αξιολογούνται από ένα υποσύστημα που θα περιλαμβάνει εφαρμογή κανόνων. |
|
|