H Ομάδα Επεξεργασίας Φυσικής Γλώσσας του ΟΠΑ |
Η Ομάδα Επεξεργασίας Φυσικής Γλώσσας του ΟΠΑ αναπτύσσει αλγορίθμους, μοντέλα και συστήματα που επιτρέπουν στoυς υπολογιστές να επεξεργάζονται και να παράγουν κείμενα φυσικής γλώσσας και ομιλία. Διερευνούμε, επίσης, μεθόδους επεξεργασίας πολυτροπικής πληροφορίας, π.χ. συνδυάζοντας επεξεργασία κειμένου, ομιλίας και εικόνων.
Τα τρέχοντα ερευνητικά ενδιαφέροντα της ομάδας περιλαμβάνουν:- μηχανική μάθηση για κείμενο, ομιλία και πολυτροπική πληροφορία, ιδιαίτερα μοντέλα βαθιάς μάθησης,
- κατανόηση ομιλίας και συστήματα διαλόγων,
- συστήματα ερωταποκρίσεων, παραγωγή κειμένων υποβοηθούμενη από ανάκτηση πληροφοριών, συλλογιστική πολλαπλών βημάτων για συλλογές εγγράφων,
- παραγωγή κειμένων από εικόνες, ιδιαίτερα παραγωγή διαγνωστικών ετικετών και κειμένων από ιατρικές εικόνες,
- βελτίωση διαδικτυακών συζητήσεων, συμπεριλαμβανομένου του εντοπισμού και της διαχείρισης τοξικών αναρτήσεων και παραπληροφόρησης, καθώς και της χρήσης μεγάλων γλωσσικών μοντέλων ως μεσολαβητών,
- αναγνώριση συναισθημάτων για κείμενο και ομιλία,
- επεξεργασία φυσικής γλώσσας στις ψηφιακές ανθρωπιστικές επιστήμες,
- επεξεργασία φυσικής γλώσσας για βιοϊατρικά, νομικά και χρηματοοικονομικά δεδομένα,
- εργαλεία επεξεργασίας κειμένου και ομιλίας για τα Ελληνικά.
Η ομάδα είναι μέρος του Εργαστηρίου Επεξεργασίας Πληροφοριών του Τμήματος Πληροφορικής του Οικονομικού Πανεπιστημίου Αθηνών.
Μέλη της ομάδας συμμετείχαν ως συν-συγγραφείς στο άρθρο "Restoring and attributing ancient texts using deep neural networks", που δημοσιεύθηκε στο περιοδικό Nature (Μάρτιος 2022).
Η ομάδα συνδιοργανώνει το 2nd Athens Natural Language Processing Summer School (AthNLP 2024) και το Machine Learning for Ancient Languages workshop στο ACL 2024. Η ομάδα συνδιοργάνωσε το 3rd Workshop on Natural Legal Language Processing (NLLP 2021) στο EMNLP 2021, τον διαγωνισμό SemEval Toxic Spans Detection (2021), το 11ο Συνέδριο Τεχνητής Νοημοσύνης της Ελληνικής Εταιρείας Τεχνητής Νοημοσύνης (ΣΕΤΝ 2020), το 2nd Workshop on Natural Legal Language Processing (NLLP 2020) στο KDD 2020, το 1st Athens Natural Language Processing Summer School (AthNLP 2019), το συνέδριο EACL 2009 στην Αθήνα, καθώς και τους διαγωνισμούς Large Scale Hierarchical Text Classification (το LSHTC3 ήταν το ECML/PKDD 2012 Discovery Challenge), BioASQ και SemEval Aspect-Based Sentiment Analysis (2014, 2015, 2016).
Η ομάδα κατέκτησε τη 2η θέση στην αναγνώριση εννοιών (concept detection) και την 4η θέση στην παραγωγή περιγραφών εικόνων (caption prediction) στον διαγωνισμό ImageCLEFmed Caption 2024. Kατέκτησε επίσης την 1η θέση στην αναγνώριση εννοιών (concept detection) και την 3η θέση στην παραγωγή περιγραφών εικόνων (caption prediction) στον διαγωνισμό ImageCLEFmed Caption 2023 (δείτε και αυτή την ανακοίνωση του ΟΠΑ). Κατακτήσαμε επίσης την 1η θέση στην αναγνώριση εννοιών και τη 2η θέση στην παραγωγή περιγραφών εικόνων στους διαγωνισμούς ImageCLEFmed Caption 2021 και ImageCLEFmed Caption 2022. Τα συστήματά μας κατετάγησαν επίσης στις θέσεις 1, 2, 3 και 5 μεταξύ περίπου 60 συστημάτων στον διαγωνισμό ImageCLEFmed Caption 2019, καθώς και στις θέσεις 1, 2, 6 μεταξύ 49 συστημάτων του ImageCLEFmed Caption 2020 (δείτε και αυτή την ανακοίνωση του ΟΠΑ). Η ομάδα έλαβε βραβείο στον διαγωνισμό BioASQ του 2018, όπου πρώτευσε σε τρεις από τις πέντε δέσμες αξιολόγησης ανάκτησης εγγράφων και σε όλες τις (πέντε) δέσμες αξιολόγησης ανάκτησης αποσπασμάτων. Λάβαμε άλλο ένα βραβείο στον διαγωνισμό BioASQ του 2019, όπου η ομάδα μας πρώτευσε στις τέσσερις δέσμες αξιολόγησης ανάκτησης εγγράφων και αποσπασμάτων στις οποίες διαγωνίσθηκε. Λάβαμε επίσης βραβείο στον διαγωνισμό BioASQ του 2020, επειδή η ομάδα μας κατετάγη στις κορυφαίες 2 θέσεις σε 4 από τις 5 δέσμες αξιολόγησης ανάκτησης εγγράφων και στην 1η θέση σε 4 από τις 5 δέσμες αξιολόγησης ανάκτησης αποσπασμάτων εγγράφων.