Ομάδα Επεξεργασίας Φυσικής Γλώσσας

Τμήμα Πληροφορικής - Οικονομικό Πανεπιστήμιο Αθηνών

Λογισμικό και δεδομένα

Δείτε επίσης το λογισμικό και τα δεδομένα που συνοδεύουν τις Δημοσιεύσεις και τις Εργασίες Φοιτητών της ομάδας. Παρέχουμε επίσης λογισμικό και δεδομένα μέσω GitHub.

Λογισμικό

  • Αναγνωριστής ονομάτων οντοτήτων για ελληνικά κείμενα.
    • Download (έκδοση 2): Αναγνωρίζει χρονικές εκφράσεις, ονόματα προσώπων και οργανισμών.
    • Download (έκδοση 1): Αναγνωρίζει χρονικές εκφράσεις και ονόματα προσώπων.
  • edgar-crawler: Λογισμικό ΕΦΓ για λήψη, καθαρισμό και εξαγωγή δεδομένων κειμένου από οικονομικές αναφορές στις Ηνωμένες Πολιτείες.
  • Ελληνικό BERT: Ελληνική έκδοση του BERT, προ-εκπαιδευμένου σε ελληνικά σώματα κειμένων.
  • Ελληνικός επισημειωτής μερών του λόγου και αναλυτής συντακτικών εξαρτήσεων. Υλοποιήθηκαν στη διάρκεια της μεταπτυχιακής διπλωματικής εργασίας του Μ. Κυριακάκη. [εργασία] [κώδικας]
  • Ελληνικός επισημειωτής μερών του λόγου. Ο επισημειωτής επιχειρεί να προσδιορίσει αυτόματα το μέρος του λόγου (π.χ. ουσιαστικό, επίθετο, ρήμα κλπ.) κάθε εμφάνισης λέξεως σε ελληνικά κείμενα. Μπορεί επίσης να επισημειώσει κάθε εμφάνιση λέξεως με πρόσθετες πληροφορίες, όπως το γένος, ο αριθμός και η πτώση κάθε ουσιαστικού, η φωνή, ο χρόνος και ο αριθμός κάθε ρήματος κλπ.
    • Download (έκδοση 2.2 άλφα): Μικρές διορθώσεις.
    • Download (έκδοση 2.1 άλφα): Αυτή η έκδοση χρησιμοποιεί τον Ταξινομητή Μεγίστης Εντροπίας του Stanford (βλ. http://nlp.stanford.edu/software/), επιτυγχάνει καλύτερα αποτελέσματα από την έκδοση 1 και παρέχει προγραμματιστική διεπαφή (API). Δεν παρέχει, όμως, ακόμα γραφική διεπαφή χρήστη (GUI), ούτε μηχανισμούς ενεργητικής μάθησης.
    • Download (έκδοση 1): Αυτή η έκδοση χρησιμοποιεί έναν ταξινομητή k-κοντινότερων γειτόνων. Περιλαμβάνει GUI και μηχανισμούς ενεργητικής μάθησης, αλλά όχι API.
  • Λογισμικό συμπίεσης προτάσεων: το λογισμικό του άρθρου μας στο HLT-NAACL 2010. Download
  • Μηχανή αναζήτησης COVID-19: Μια πειραματική μηχανή αναζήτησης για ανάκτηση εγγράφων και αποσπασμάτων από το σύνολο δεδομένων CORD-19 (COVID-19), βασισμένη στο καλύτερο σύστημά μας του BioASQ7. [online demo] [άρθρο] [άρθρο] [κώδικας]
  • Μέτρα Αξιολόγησης για Ιεραρχική Κατηγοριοποίηση: Το λογισμικό που συνοδεύει το άρθρο μας "Evaluation Measures for Hierarchical Classification: A Unified View and Novel Approaches". Download
  • NaiveBayesSpamDetector: ένα πειραματικό φίλτρο ανεπιθύμητης ηλεκτρονικής αλληλογραφίας που χρησιμοποιεί διάφορες μορφές του ταξινομητή Naive Bayes.
  • NaturalOWL: ένα σύστημα παραγωγής φυσικής γλώσσας για οντολογίες OWL που υποστηρίζει τα αγγλικά και ελληνικά και μπορεί να χρησιμοποιηθεί εντός του Protégé.
  • NLITDB: Μια πειραματική διεπαφή φυσικής γλώσσας για χρονικές βάσεις δεδομένων. Download

Δεδομένα

  • EU/UK RegIR dataset: το σύνολο δεδομένων του άρθρου μας "Regulatory Compliance through Doc2Doc Information Retrieval: A case study in EU/UK legislation where text similarity has limitations.” του EACL 2021. Download
  • BioMRC: σύνολο δεδομένων μηχανικής κατανόησης βιοϊατρικών κειμένων. Download
  • AspectTermSimilarities: χειρωνακτικά καθορισμένες ομοιότητες μεταξύ όρων (aspect terms) αγγλικών κριτικών εστιατορίων και φορητών υπολογιστών, όπως χρησιμοποιήθηκαν στο άρθρο μας "Multi-Granular Aspect Aggregation in Aspect-Based Sentiment Analysis" του EACL 2014. Download
  • Βιοϊατρικές διανυσματικές παραστάσεις λέξεων: Διανυσματικές παραστάσεις αγγλικών λέξεων προ-εκπαιδευμένες σε βιοϊατρικά κείμενα του MEDLINE®/PubMed® χρησιμοποιώντας την υλοποίηση του Word2Vec της εργαλειοθήκης gensim. [Readme] [Embeddings-200D] [Embeddings-400D]
  • Contracts dataset: το σύνολο δεδομένων του άρθρου μας "Extracting Contract Elements" του ICAIL 2017. Download
  • EURLEX57K dataset: το σύνολο δεδομένων του άρθρου μας "Extreme Multi-Label Legal Text Classification: A case study in EU Legislation" του NLLP Workshop 2019. Download
  • Enron-Spam: περιέχει επιθυμητά μηνύματα e-mail από το σώμα κειμένων Enron και ανεπιθύμητα μηνύματα. Download
  • Gazzetta dataset: Το σύνολο δεδομένων των άρθρων "Deep Learning for User Comment Moderation" (ACL 2017 workshop "Abusive Content Online") και "Deeper Attention to Abusive User Content Moderation" (EMNLP 2017). Download
  • Ling-Spam: περιέχει επιθυμητά μηνύματα e-mail από μια λίστα ταχυδρομείου και ανεπιθύμητα μηνύματα. Download
  • Παραφράσεις: μια συλλογή προτάσεων και χειρωνακτικά αξιολογημένων υποψηφίων παραφράσεων, όπως χρησιμοποιήθηκε στο άρθρο μας "A Generate and Rank Approach to Sentence Paraphrasing" του EMNLP 2011. Download
  • PU: περιέχει επιθυμητά μηνύματα e-mail (σε κωδικοποιημένη μορφή) και ανεπιθύμητα μηνύματα. Download