Litterae.eu
Humanities & IT


Generazione automatica di glossari da memorie di traduzione

Oggi che machine learning, reti neurali e NMT stanno diventando la norma per la linguistica computazionale, forse parlare di memorie di traduzione e applicativi CAT può sembrare preistoria. Eppure possono essere ancora strumenti preziosi, quanto meno per compilare e allineare i corpora su cui addestrare proprio gli applicativi NMT.
Ma restiamo sulle memorie di traduzione. Sarebbe possibile generare automaticamente dei glossari a partire da loro? In effetti sì, applicando una semplice comparazione statistica.
Prendiamo il corpus già preparato per l'addestramento di Marian NMT: una tabella di 40 mila righe circa su due colonne, la prima con i testi latini segmentati e la seconda con i corrispondenti italiani. Ipotizziamo di volere cercare il significato della parola ultio senza ricorrere al Castiglione-Mariotti [1].

Ebbene si tratterà di individuare nel corpus tutte le linee della colonna del latino in cui appaia la parola in questione ed estrarre le linee corrispondenti nella colonna dell'italiano. A questo punto occorrerà conteggiare le frequenze di tutte le parole contenute nelle frasi italiane estratte, ordinandole in ordine decrescente per frequenza al netto delle cosiddette stop words (congiunzioni, preposizioni, articoli e così via).
Per raffinare l'estrazione fisseremo una soglia di probabilità; metà della frequenza massima può essere un buon compromesso. Così ad esempio, se in una lista estratta di 10 parole la più frequente appare 100 volte, tutte le parole con frequenza inferiore a 50 verranno scartate in quanto corrispondenze meno probabili. La parola o le parole con frequenza uguale o superiore a 50 invece saranno le più probabili traduzioni della parola latina di cui stavamo cercando il significato italiano.
Naturalmente si potrebbero immaginare e implementare ulteriori metodi di raffinazione per giungere all'esito più accurato possibile; e altrettanto naturalmente è imprescindibile la revisione a posteriori dello stesso. Tuttavia già la bruta comparazione statistica qui descritta è in grado di fornire risultati importanti e significativi.
A proposito, lo script PHP in cui ho implementato quanto sopra mi restituisce a colpo sicuro vendetta e castigo come traduzioni di ultio; risposta confermata dal Castiglione-Mariotti.


1. IL - Vocabolario della lingua latina di Luigi Castiglioni e Scevola Mariotti.


Site designed by litterae.eu. © 2004-2024. All rights reserved.
Info GDPR EU 2016/679: no cookies used, no personal data collected.