Ομάδα Επεξεργασίας Φυσικής Γλώσσας

Τμήμα Πληροφορικής - Οικονομικό Πανεπιστήμιο Αθηνών

Λογισμικό και δεδομένα

Δείτε επίσης το λογισμικό και τα δεδομένα που συνοδεύουν τις Δημοσιεύσεις και τις Εργασίες Φοιτητών της ομάδας.

Λογισμικό

  • Αναγνωριστής ονομάτων οντοτήτων για ελληνικά κείμενα.
    • Download (έκδοση 2): Αναγνωρίζει χρονικές εκφράσεις, ονόματα προσώπων και οργανισμών.
    • Download (έκδοση 1): Αναγνωρίζει χρονικές εκφράσεις και ονόματα προσώπων.
  • Ελληνικός επισημειωτής μερών του λόγου. Ο επισημειωτής επιχειρεί να προσδιορίσει αυτόματα το μέρος του λόγου (π.χ. ουσιαστικό, επίθετο, ρήμα κλπ.) κάθε εμφάνισης λέξεως σε ελληνικά κείμενα. Μπορεί επίσης να επισημειώσει κάθε εμφάνιση λέξεως με πρόσθετες πληροφορίες, όπως το γένος, ο αριθμός και η πτώση κάθε ουσιαστικού, η φωνή, ο χρόνος και ο αριθμός κάθε ρήματος κλπ.
    • Download (έκδοση 2.2 άλφα): Μικρές διορθώσεις.
    • Download (έκδοση 2.1 άλφα): Αυτή η έκδοση χρησιμοποιεί τον Ταξινομητή Μεγίστης Εντροπίας του Stanford (βλ. http://nlp.stanford.edu/software/), επιτυγχάνει καλύτερα αποτελέσματα από την έκδοση 1 και παρέχει προγραμματιστική διεπαφή (API). Δεν παρέχει, όμως, ακόμα γραφική διεπαφή χρήστη (GUI), ούτε μηχανισμούς ενεργητικής μάθησης.
    • Download (έκδοση 1): Αυτή η έκδοση χρησιμοποιεί έναν ταξινομητή k-κοντινότερων γειτόνων. Περιλαμβάνει GUI και μηχανισμούς ενεργητικής μάθησης, αλλά όχι API.
  • Λογισμικό συμπίεσης προτάσεων: το λογισμικό του άρθρου μας στο HLT-NAACL 2010. Download
  • Μέτρα Αξιολόγησης για Ιεραρχική Κατηγοριοποίηση: Το λογισμικό που συνοδεύει το άρθρο μας "Evaluation Measures for Hierarchical Classification: A Unified View and Novel Approaches". Download
  • NaiveBayesSpamDetector: ένα πειραματικό φίλτρο ανεπιθύμητης ηλεκτρονικής αλληλογραφίας που χρησιμοποιεί διάφορες μορφές του ταξινομητή Naive Bayes.
  • NaturalOWL: ένα σύστημα παραγωγής φυσικής γλώσσας για οντολογίες OWL που υποστηρίζει τα αγγλικά και ελληνικά και μπορεί να χρησιμοποιηθεί εντός του Protégé.
  • NLITDB: Μια πειραματική διεπαφή φυσικής γλώσσας για χρονικές βάσεις δεδομένων. Download

Δεδομένα

  • AspectTermSimilarities: χειρωνακτικά καθορισμένες ομοιότητες μεταξύ όρων (aspect terms) αγγλικών κριτικών εστιατορίων και φορητών υπολογιστών, όπως χρησιμοποιήθηκαν στο άρθρο μας "Multi-Granular Aspect Aggregation in Aspect-Based Sentiment Analysis" του EACL 2014. Download
  • Enron-Spam: περιέχει επιθυμητά μηνύματα e-mail από το σώμα κειμένων Enron και ανεπιθύμητα μηνύματα. Download
  • Ling-Spam: περιέχει επιθυμητά μηνύματα e-mail από μια λίστα ταχυδρομείου και ανεπιθύμητα μηνύματα. Download
  • Παραφράσεις: μια συλλογή προτάσεων και χειρωνακτικά αξιολογημένων υποψηφίων παραφράσεων, όπως χρησιμοποιήθηκε στο άρθρο μας "A Generate and Rank Approach to Sentence Paraphrasing" του EMNLP 2011. Download
  • PU: περιέχει επιθυμητά μηνύματα e-mail (σε κωδικοποιημένη μορφή) και ανεπιθύμητα μηνύματα. Download