Λογισμικό και Δεδομένα
Δείτε επίσης το λογισμικό και τα δεδομένα που συνοδεύουν τις Δημοσιεύσεις και τις Διατριβές της ομάδας. Παρέχουμε επίσης λογισμικό και δεδομένα στο GitHub.
Λογισμικό
- SynDisco: Μια ελαφριά, απλή και εξειδικευμένη βιβλιοθήκη που χρησιμοποιείται για τη δημιουργία, αποθήκευση, επισημείωση και ανάλυση συνθετικών συζητήσεων μεταξύ LLMs. [Website] [Code]
- Apunim: Μια στατιστική μετρική που μετράει κατά πόσο η πόλωση μπορεί να εξηγηθεί από ομάδες επισημειωτών. Χρησιμοποιείται για την ανάδειξη απόψεων μειονοτήτων σε ευαίσθητα θέματα της ΕΦΓ. Περιλαμβάνει έλεγχο στατιστικής σημαντικότητας (p-value test). [Webpage] [Code]
- GR-NLP-TOOLKIT: Μια εργαλειοθήκη Επεξεργασίας Φυσικής Γλώσσας ανοικτού πηγαίου κώδικα για τα Νέα Ελληνικά. Παρέχει αναγνώριση μερών του λόγου και μορφολογική ανάλυση, συντακτική ανάλυση εξαρτήσεων, αναγνώριση ονομάτων οντοτήτων, μετατροπή από Greeklish σε Ελληνικά. [Paper] [Code]
- SEC-BERT: μια οικογένεια μοντέλων BERT για τον χρηματοοικονομικό τομέα (αγγλικά), προεκπαιδευμένα πάνω σε καταθέσεις της αμερικανικής SEC (EDGAR) και δημοσιευμένα μαζί με την εργασία μας FiNER (ACL 2022). [Paper] [SEC-BERT-BASE] [SEC-BERT-NUM] [SEC-BERT-SHAPE]
- Μηχανή αναζήτησης COVID-19: Μια πειραματική μηχανή αναζήτησης για ανάκτηση εγγράφων και αποσπασμάτων από το σύνολο δεδομένων CORD-19 (COVID-19), βασισμένη στο καλύτερο σύστημά μας του BioASQ7. [Paper] [Paper] [Code]
- EDGAR-CRAWLER : ένα εργαλείο ανοικτού κώδικα που μετατρέπει ακατέργαστες, μη δομημένες καταθέσεις της αμερικανικής SEC (EDGAR) σε καθαρά και δομημένα δεδομένα σε μορφή JSON σε επίπεδο ενοτήτων. Παρουσιάστηκε στο WWW 2025. [Paper] [Code]
- Μέτρα Αξιολόγησης για Ιεραρχική Κατηγοριοποίηση: Tο λογισμικό που συνοδεύει το άρθρο μας "Evaluation Measures for Hierarchical Classification: A Unified View and Novel Approaches". Download
- Greek BERT: Ελληνική έκδοση του BERT, εκπαιδευμένο σε ελληνικά σύνολα δεδομένων.
- NaiveBayesSpamDetector: ένα πειραματικό φίλτρο ανεπιθύμητης ηλεκτρονικής αλληλογραφίας που χρησιμοποιεί διάφορες μορφές του ταξινομητή Naive Bayes. Download
- NaturalOWL: ένα σύστημα παραγωγής φυσικής γλώσσας για οντολογίες OWL που υποστηρίζει τα αγγλικά και ελληνικά και μπορεί να χρησιμοποιηθεί εντός του Protégé. Download
- NLITDB: Μια πειραματική διεπαφή φυσικής γλώσσας για χρονικές βάσεις δεδομένων. Download