Υπολογιστικό μορφολογικό και συντακτικό λεξικό της Νέας Ελληνικής
ΕΡΕΥΝΗΤΙΚΑ ΑΠΟΤΕΛΕΣΜΑΤΑ

Υπολογιστικό μορφολογικό και συντακτικό λεξικό της Νέας Ελληνικής

Κατηγορία: Γλωσσικοί Πόροι

Το υπολογιστικό Μορφολογικό και συντακτικό Λεξικό της Νέας Ελληνικής που αναπτύχθηκε από το ΙΕΛ / Ε.Κ. "Αθηνά" στο πλαίσιο του προγράμματος LE-PAROLE, προορίζεται να χρησιμοποιηθεί σε εφαρμογές Γλωσσικής Τεχνολογίας.

Περιλαμβάνει 20.149 λήμματα κωδικοποιημένα σε μορφολογικό και συντακτικό επίπεδο, σύμφωνα με το μοντέλο PAROLE, που βασίζεται στα διεθνή γλωσσολογικά πρότυπα. Με το ίδιο μοντέλο έχουν αναπτυχθεί λεξικά για 11 ακόμη ευρωπαϊκές γλώσσες (Αγγλικά, Γαλλικά, Γερμανικά, Δανικά, Ισπανικά, Ιταλικά, Καταλανικά, Ολλανδικά, Πορτογαλικά, Σουηδικά, Φινλανδικά). Τα λεξικά δεδομένα είναι διαθέσιμα σε μορφή SGML, όπως ορίζεται από ένα κοινό DTD για όλες τις γλώσσες.

Περιεχόμενα λεξικού

Για την επιλογή των 20.000 λημμάτων που περιλαμβάνονται στο λεξικό ακολουθήθηκε μια υβριδική διαδικασία:

  • στατιστική επεξεργασία ενός Σώματος Κειμένων 9.000.000 λέξεων περίπου, με στόχο τον εντοπισμό των συχνότερων λημμάτων,
  • επεξεργασία του καταλόγου των συχνότερων λημμάτων με βάση γλωσσολογικά κριτήρια.

Πιο συγκεκριμένα, το λεξικό περιλαμβάνει:

  • 20.149 μορφολογικές μονάδες, και
  • 25.092 συντακτικές μονάδες.

Στο μορφολογικό επίπεδο, τα λήμματα φέρουν πληροφορίες λημματολογίου (π.χ. σύνδεση με άλλα λήμματα, ορθογραφικές εκδοχές, κτλ.) και πληροφορίες μορφολογίας (γραμματική κατηγορία και υποκατηγορία, κλιτικό παράδειγμα, θέματα).

Στο επόμενο επίπεδο, κωδικοποιείται, με τη μορφή συντακτικών μονάδων, η συντακτική συμπεριφορά του λήμματος: κωδικοποιούνται, δηλαδή, τα συμπληρώματα με τα οποία συντάσσεται ένα λήμμα, καθώς και τα χαρακτηριστικά που απαιτούνται για τον χαρακτηρισμό και την αναγνώριση των συμπληρωμάτων αυτών (π.χ. αν πρόκειται για υποκείμενο - ουσιαστικό σε πτώση ονομαστική, κτλ.).


Κατανομή λημμάτων ανά γραμματική κατηγορία σε κάθε επίπεδο

Μορφολογικό επίπεδο

Κατηγορία

Αριθμός
Ουσιαστικό 12.402
Ρήμα 3.014
Επίθετο 3.405
Αριθμητικό 106
Αντωνυμία 45
Αρθρο 2
Πρόθεση 48
Σύνδεσμος 51
Επιφώνημα 21
Μόριο 19
ΣΥΝΟΛΟ 20.149

 

Συντακτικό επίπεδο

Κατηγορία Αριθμός
Ουσιαστικό 14.548
Ρήμα 5.397
Επίθετο 3.558
Επίρρημα 1.410
Πρόθεση 73
Αριθμητικό 106
ΣΥΝΟΛΟ 25.092


Περισσότερες πληροφορίες και δείγματα του λεξικού μπορείτε να βρείτε και στον κόμβο του προγράμματος Parole.

 
 

Έργα