Δημοσίευση - Εντοπισμός, διαχωρισμός, κατάτμηση: Διεργασίες επεξεργασίας χειρόγραφων και πολυμεσικών δεδομένων εν όψει εφαρμογών Αναγνώρισης, Αρχειοθέτησης και Δεικτοδότησης
ΤΑΥΤΟΤΗΤΑ

Εντοπισμός, διαχωρισμός, κατάτμηση: Διεργασίες επεξεργασίας χειρόγραφων και πολυμεσικών δεδομένων εν όψει εφαρμογών Αναγνώρισης, Αρχειοθέτησης και Δεικτοδότησης

Ερευνητική περιοχή:  
    
Είδος:  
Διδακτορική διατριβή

 

Έτος: 2010
Συγγραφείς: Βασίλης Παπαβασιλείου
Πανεπιστήμιο: Εθνικό Μετσόβιο Πολυτεχνείο
Περίληψη:
Η διδακτορική διατριβή εστιάζει στην ανάλυση ψηφιακών δυαδικών εικόνων χειρόγραφων κειμένων και ιδιαίτερα στη μελέτη των μεθόδων επίλυσης προβλημάτων εντοπισμού των φυσικών στοιχείων του κειμένου, όπως οι γραμμές και οι λέξεις. Στην εργασία περιγράφονται οι αδυναμίες των υπαρχουσών μεθόδων και προτείνονται δύο νέες τεχνικές για την οριοθέτηση των γραμμών κειμένου και μία για την κατάτμηση του χειρόγραφου κειμένου σε λέξεις. Η πρώτη υιοθετεί τις επιμέρους προβολές και εισάγει μια νέα μοντελοποίηση με Κρυφά Μαρκοβινά Μοντέλα για την ανάδειξη των τμημάτων της εικόνας που περιέχουν τα κύρια τμήματα των γραμμών κειμένων. Στη συνέχεια, εφαρμόζεται ο αλγόριθμος Viterbi για την εύρεση της βέλτιστης ακολουθίας περιοχών κειμένου και κενών σε κατακόρυφες ζώνες του κειμένου. Η μέθοδος υποβλήθηκε προς αξιολόγηση σε δύο σχετικούς διεθνείς διαγωνισμούς (ICDAR2007 και ICDAR2009 Handwriting Segmentation Contests) και κατέλαβε την πρώτη και δεύτερη θέση αντίστοιχα. Η δεύτερη τεχνική βασίζεται στην εφαρμογή τελεστών δυαδικής μορφολογίας και προτείνει τη σταδιακή εξέλιξη των συνεκτικών συνιστωσών της εικόνας για την «κάλυψη» των περιοχών που περιέχουν τις γραμμές κειμένου. Η καινοτομία της μεθόδου έγκειται στην εισαγωγή μιας διαδικασίας παρακολούθησης και διόρθωσης της εξέλιξης των συνεκτικών συνιστωσών μέσω της εφαρμογής του τελεστή (p,q)-th generalized foreground rank opening με κατάλληλα επιλεγμένα δομικά στοιχεία για τον εντοπισμό και την απομάκρυνση σχημάτων/προτύπων που δηλώνουν ότι διαδοχικές γραμμές κειμένου έχουν ενωθεί ή τείνουν να ενωθούν. Η αξιολόγηση της προτεινόμενης τεχνικής στα ανωτέρω σετ εξέτασης αναδεικνύει την αποτελεσματικότητά της Η κατάτμηση των εικόνων χειρόγραφων κειμένων σε λέξεις αντιμετωπίζεται ως ένα πρόβλημα που απαιτεί την ποσοτικοποίηση των κενών μεταξύ διαδοχικών γραφημάτων και την κατηγοριοποίηση των κενών σε «μεταξύ» ή «εντός» λέξεων. Στη διατριβή περιγράφεται μια νέα μοντελοποίηση των κενών-αποστάσεων μεταξύ διαδοχικών γραφημάτων που βασίζεται στις μηχανές διανυσμάτων υποστήριξης χαλαρών περιθωρίων. Παρατηρήθηκε ότι η εκτιμωμένη συνάρτηση πυκνότητας πιθανότητας των «περιθωρίων» παρουσιάζει δύο σημαντικούς λοβούς και επομένως ως κατώφλι για την κατηγοριοποίηση επιλέχθηκε η τιμή που αντιστοιχεί στο τοπικό ελάχιστο μεταξύ των δύο λοβών. Η προτεινόμενη τεχνική αξιολογήθηκε στα πλαίσιο των ανωτέρω διεθνών διαγωνισμών και αναδείχθηκε ως η αποτελεσματικότερη και η πιο εύρωστη. Ως επέκταση της ανάλυσης εικόνων κειμένων, ο υποψήφιος διδάκτορας ασχολήθηκε με τον εντοπισμό πρόσθετου κειμένου σε πλαίσια βίντεο. Από τη μελέτη της βιβλιογραφίας προκύπτει ότι είναι απαραίτητη η ενσωμάτωση ενός σταδίου επαλήθευσης, στο οποίο οι εντοπισμένες περιοχές κατηγοριοποιούνται σε κειμενικές ή μη. Για την κάλυψη της συγκεκριμένης ανάγκης προτείνεται η μοντελοποίηση και ταξινόμηση των υποψήφιων περιοχών κειμένου με τη βοήθεια μιγμάτων γκαουσιανών κατανομών. Η σχετική ερευνητική εργασία που πραγματοποιήθηκε, συνδυάστηκε με την ανάπτυξη ενός συστήματος δεικτοδότησης του βίντεο με βάση το εμφανιζόμενο κείμενο. Το συγκεκριμένο σύστημα έχει εγκατασταθεί και λειτουργεί με επιτυχία στο Εθνικό Συμβούλιο Ραδιοτηλεόρασης.
[Bibtex]