Λογισμικό
- Αναγνωριστής ονομάτων οντοτήτων για ελληνικά κείμενα.
- Ελληνικός επισημειωτής μερών του λόγου. Ο επισημειωτής επιχειρεί να προσδιορίσει αυτόματα το μέρος του λόγου (π.χ. ουσιαστικό, επίθετο, ρήμα κλπ.) κάθε εμφάνισης λέξεως σε ελληνικά κείμενα.
Μπορεί επίσης να επισημειώσει κάθε εμφάνιση λέξεως με πρόσθετες πληροφορίες, όπως το γένος, ο αριθμός και η πτώση κάθε ουσιαστικού, η φωνή, ο χρόνος και ο αριθμός κάθε ρήματος κλπ.
- Download (έκδοση 2 άλφα): Αυτή η έκδοση χρησιμοποιεί τον Ταξινομητή Μεγίστης Εντροπίας του Stanford (βλ. http://nlp.stanford.edu/software/), επιτυγχάνει καλύτερα αποτελέσματα από την έκδοση 1 και παρέχει προγραμματιστική διεπαφή (API).
Δεν παρέχει, όμως, ακόμα γραφική διεπαφή χρήστη (GUI), ούτε μηχανισμούς ενεργητικής μάθησης.
- Download (έκδοση 1): Αυτή η έκδοση χρησιμοποιεί έναν ταξινομητή k-κοντινότερων γειτόνων. Περιλαμβάνει GUI και μηχανισμούς ενεργητικής μάθησης, αλλά όχι API.
- Λογισμικό συμπίεσης προτάσεων: το λογισμικό του άρθρου μας στο HLT-NAACL 2010. Download
- NaiveBayesSpamDetector: ένα πειραματικό φίλτρο ανεπιθύμητης ηλεκτρονικής αλληλογραφίας
που χρησιμοποιεί διάφορες μορφές του ταξινομητή Naive
Bayes.
- NaturalOWL: ένα σύστημα παραγωγής φυσικής γλώσσας για οντολογίες OWL που υποστηρίζει τα αγγλικά και ελληνικά και
μπορεί να χρησιμοποιηθεί εντός του Protégé.
- NLITDB: Μια πειραματική διεπαφή φυσικής γλώσσας για χρονικές βάσεις δεδομένων. Download
Δεδομένα
- Enron-Spam: περιέχει επιθυμητά μηνύματα e-mail από το σώμα κειμένων Enron και ανεπιθύμητα μηνύματα. Download
- Ling-Spam: περιέχει επιθυμητά μηνύματα e-mail από μια λίστα ταχυδρομείου και ανεπιθύμητα μηνύματα. Download
- Παραφράσεις: μια συλλογή προτάσεων και χειρωνακτικά αξιολογημένων υποψηφίων παραφράσεων, όπως χρησιμοποιήθηκε στο άρθρο μας του EMNLP 2011. Download
- PU: περιέχει επιθυμητά μηνύματα e-mail (σε κωδικοποιημένη μορφή) και ανεπιθύμητα μηνύματα. Download
|