Σώμα κειμένων ΙΕΛ/“Ελευθεροτυπίας”
ΕΡΕΥΝΗΤΙΚΑ ΑΠΟΤΕΛΕΣΜΑΤΑ

Σώμα κειμένων ΙΕΛ/“Ελευθεροτυπίας”

Κατηγορία: Γλωσσικοί Πόροι

Το σώμα κειμένων ΙΕΛ/“Ελευθεροτυπίας” διατίθεται μέσω της ELRA, ενός μη κερδοσκοπικού που αποτελεί τον Ευρωπαϊκό Σύνδεσμο Γλωσσικών Πόρων. Αποτελείται από περίπου 3.000.000 λέξεις, που έχουν αντληθεί από άρθρα της καθημερινής εφημερίδας “Ελευθεροτυπία”.

Διατίθενται κείμενα κατηγοριοποιημένα και επισημειωμένα κατά το διεθνές πρότυπο επισημείωσης PAROLE. Έτσι, κάθε φάκελος κατηγοριοποιείται με βάση το μέσο δημοσίευσης, τη θεματική περιοχή και το κειμενκό είδος. Το σώμα κειμένων είναι δομικά επισημειωμένο σε επίπεδο παραγράφου και βρίσκεται σε μορφή αρχείων SGML.

Μέρος του σώματος κειμένων, αποτελούμενο από 250.000 λέξεις, είναι μορφοσυντακτικά επισημειωμένο, ενώ όλες οι λέξεις είναι λημματοποιημένες και ελεγμένες. Ορισμένα κείμενα περιέχουν αποσπάσματα στην καθαρεύουσα, τα οποία είναι μαρκαρισμένα και δεν έχουν επισημειωθεί μορφοσυντακτικά.

 
 

 Ερευνητικές περιοχές