Ομάδα Επεξεργασίας Φυσικής Γλώσσας ΟΠΑ

Λογισμικό και Δεδομένα

Δείτε επίσης το λογισμικό και τα δεδομένα που συνοδεύουν τις Δημοσιεύσεις και τις Διατριβές της ομάδας. Παρέχουμε επίσης λογισμικό και δεδομένα στο GitHub.

Λογισμικό

SynDisco: Μια ελαφριά, απλή και εξειδικευμένη βιβλιοθήκη που χρησιμοποιείται για τη δημιουργία, αποθήκευση, επισημείωση και ανάλυση συνθετικών συζητήσεων μεταξύ LLMs. [Website] [Code]
Apunim: Μια στατιστική μετρική που μετράει κατά πόσο η πόλωση μπορεί να εξηγηθεί από ομάδες επισημειωτών. Χρησιμοποιείται για την ανάδειξη απόψεων μειονοτήτων σε ευαίσθητα θέματα της ΕΦΓ. Περιλαμβάνει έλεγχο στατιστικής σημαντικότητας (p-value test). [Webpage] [Code]
GR-NLP-TOOLKIT: Μια εργαλειοθήκη Επεξεργασίας Φυσικής Γλώσσας ανοικτού πηγαίου κώδικα για τα Νέα Ελληνικά. Παρέχει αναγνώριση μερών του λόγου και μορφολογική ανάλυση, συντακτική ανάλυση εξαρτήσεων, αναγνώριση ονομάτων οντοτήτων, μετατροπή από Greeklish σε Ελληνικά. [Paper] [Code]
SEC-BERT: μια οικογένεια μοντέλων BERT για τον χρηματοοικονομικό τομέα (αγγλικά), προεκπαιδευμένα πάνω σε καταθέσεις της αμερικανικής SEC (EDGAR) και δημοσιευμένα μαζί με την εργασία μας FiNER (ACL 2022). [Paper] [SEC-BERT-BASE] [SEC-BERT-NUM] [SEC-BERT-SHAPE]
Μηχανή αναζήτησης COVID-19: Μια πειραματική μηχανή αναζήτησης για ανάκτηση εγγράφων και αποσπασμάτων από το σύνολο δεδομένων CORD-19 (COVID-19), βασισμένη στο καλύτερο σύστημά μας του BioASQ7. [Paper] [Paper] [Code]
EDGAR-CRAWLER : ένα εργαλείο ανοικτού κώδικα που μετατρέπει ακατέργαστες, μη δομημένες καταθέσεις της αμερικανικής SEC (EDGAR) σε καθαρά και δομημένα δεδομένα σε μορφή JSON σε επίπεδο ενοτήτων. Παρουσιάστηκε στο WWW 2025. [Paper] [Code]
Μέτρα Αξιολόγησης για Ιεραρχική Κατηγοριοποίηση: Tο λογισμικό που συνοδεύει το άρθρο μας "Evaluation Measures for Hierarchical Classification: A Unified View and Novel Approaches". Download
Greek BERT: Ελληνική έκδοση του BERT, εκπαιδευμένο σε ελληνικά σύνολα δεδομένων.
NaiveBayesSpamDetector: ένα πειραματικό φίλτρο ανεπιθύμητης ηλεκτρονικής αλληλογραφίας που χρησιμοποιεί διάφορες μορφές του ταξινομητή Naive Bayes. Download
NaturalOWL: ένα σύστημα παραγωγής φυσικής γλώσσας για οντολογίες OWL που υποστηρίζει τα αγγλικά και ελληνικά και μπορεί να χρησιμοποιηθεί εντός του Protégé. Download
NLITDB: Μια πειραματική διεπαφή φυσικής γλώσσας για χρονικές βάσεις δεδομένων. Download

Σύνολα Δεδομένων

PEFK: "Prosocial and Effective Facilitation in Konversations". Πρόκειται για ένα συγκεντρωμένο και τυποποιημένο σύνολο δεδομένων που αποτελείται από όλα τα σημαντικά σύνολα δεδομένων συντονισμού συζητήσεων που παρουσιάζονται στη βιβλιογραφία των Κοινωνικών Επιστημών. Δυστυχώς, δεν μπορούμε να παρέχουμε άμεσες λήψεις λόγω θεμάτων με αδειοδοτήσεις. [Code]
FiNER-139: το σύνολο δεδομένων της εργασίας μας στο ACL 2022 «FiNER: Αναγνώριση Χρηματοοικονομικών Αριθμητικών Οντοτήτων για Επισήμανση XBRL»· 1,1 εκατομμύρια προτάσεις από καταθέσεις στην SEC, σχολιασμένες με ετικέτες XBRL. [Dataset] [Paper] [Code]
EDGAR-CORPUS: το σύνολο δεδομένων της εργασίας μας στο ECONLP 2021 «EDGAR-CORPUS: Billions of Tokens Make the World Go Round»· ένα μεγάλης κλίμακας σώμα χρηματοοικονομικής επεξεργασίας φυσικής γλώσσας (NLP) από ετήσιες εκθέσεις (καταθέσεις 10-K) της αμερικανικής SEC, που δημιουργήθηκε με το EDGAR-CRAWLER. [Dataset] [Paper]
EU/UK RegIR dataset: το σύνολο δεδομένων του άρθρου μας "Regulatory Compliance through Doc2Doc Information Retrieval: A case study in EU/UK legislation where text similarity has limitations.” του EACL 2021. Download
BioMRC: σύνολο δεδομένων μηχανικής κατανόησης βιοϊατρικών κειμένων. Download
AspectTermSimilarities: χειρωνακτικά καθορισμένες ομοιότητες μεταξύ όρων (aspect terms) αγγλικών κριτικών εστιατορίων και φορητών υπολογιστών, όπως χρησιμοποιήθηκαν στο άρθρο μας "Multi-Granular Aspect Aggregation in Aspect-Based Sentiment Analysis" του EACL 2014. Download
Βιοϊατρικές διανυσματικές παραστάσεις λέξεων: Διανυσματικές παραστάσεις αγγλικών λέξεων προ-εκπαιδευμένες σε βιοϊατρικά κείμενα του MEDLINE®/PubMed® χρησιμοποιώντας την υλοποίηση του Word2Vec της εργαλειοθήκης gensim. [Readme] [Embeddings-200D] [Embeddings-400D]
Contracts dataset: το σύνολο δεδομένων του άρθρου μας "Extracting Contract Elements" του ICAIL 2017. Download
EURLEX57K dataset: το σύνολο δεδομένων του άρθρου μας "Extreme Multi-Label Legal Text Classification: A case study in EU Legislation" του NLLP Workshop 2019. Download
Enron-Spam: περιέχει επιθυμητά μηνύματα e-mail από το σώμα κειμένων Enron και ανεπιθύμητα μηνύματα. Download
Gazzetta dataset: Το σύνολο δεδομένων των άρθρων "Deep Learning for User Comment Moderation" (ACL 2017 workshop "Abusive Content Online") και "Deeper Attention to Abusive User Content Moderation" (EMNLP 2017). Download
Ling-Spam: περιέχει επιθυμητά μηνύματα e-mail από μια λίστα ταχυδρομείου και ανεπιθύμητα μηνύματα. Download
Παραφράσεις: μια συλλογή προτάσεων και χειρωνακτικά αξιολογημένων υποψηφίων παραφράσεων, όπως χρησιμοποιήθηκε στο άρθρο μας "A Generate and Rank Approach to Sentence Paraphrasing" του EMNLP 2011. Download
PU: περιέχει επιθυμητά μηνύματα e-mail (σε κωδικοποιημένη μορφή) και ανεπιθύμητα μηνύματα. Download