Identification of Cognates and Recurrent Sound Correspondences in Word Lists

Grzegorz Kondrak
2009 Revue TAL  
Identification of cognates and recurrent sound correspondences is a component of two principal tasks of historical linguistics: demonstrating the relatedness of languages, and reconstructing the histories of language families. We propose methods for detecting and quantifying three characteristics of cognates: recurrent sound correspondences, phonetic similarity, and semantic affinity. The ultimate goal is to identify cognates and correspondences directly from lists of words representing pairs
more » ... languages that are known to be related. The proposed solutions are language independent, and are evaluated against authentic linguistic data. The results of evaluation experiments involving the Indo-European, Algonquian, and Totonac language families indicate that our methods are more accurate than comparable programs, and achieve high precision and recall on various test sets. The results also suggest that combining various types of evidence substantially increases cognate identification accuracy. RÉSUMÉ. L'identification de mots apparentés et des correspondances de sons récurrents intervient dans deux des principales tâches de la linguistique historique: démontrer des filiations linguistiques et reconstruire l'histoire des familles de langues. Nous proposons des méthodes de détection et de quantification de trois caractéristiques des mots apparentés: les correspondances de sons récurrents, la ressemblance phonétique et l'affinité sémantique. Le but ultime est d'identifier les mots apparentés et les correspondances directement à partir de listes de mots représentant des paires des langues dont la filiation est connue. Les solutions proposées sont indépendantes des langues traitées et sont évaluées sur des données linguistiques réelles. Les résultats d'expériences impliquant des langues indo-européennes, algonquines et des langues de la famille du totonaque indiquent que nos méthodes sont plus précises que des programmes comparables et d'atteignent une haute précision et un haut taux de rappel sur des ensembles de test. Les résultats suggèrent également que la combinaison de divers types d'indices augmente grandement la justesse de l'identification des mots apparentés.
dblp:journals/tal/Kondrak09 fatcat:y44izq2dfza4xfgxfmpmigbtpu