Parsing of Kumauni Language Sentences after Modifying Earley's Algorithm [chapter]

Rakesh Pandey, Nihar Ranjan Pande, H. S. Dhami
2011 Communications in Computer and Information Science  
Kumauni language is one of the regional languages of India, which is spoken in one of the Himalayan region Kumaun. Since the language is relatively understudied, in this study an attempt has been made to develop a parsing tool for use in Kumauni language studies. The eventual aim is help develop a technique for checking grammatical structures of Kumauni sentences. For this purpose, we have taken a set of pre-existing Kumauni sentences and derived rules of grammar from them. While selecting this
more » ... set of sentences, effort has been made to select those sentences which are representative of the various possible tags of parts of speeches of the language, as used currently. This has been done to ensure that the sentences constitute all possible tags. These derived rules of Kumauni grammar have been converted to a mathematical model using Earley's algorithm suitably modified by us. The mathematical model so developed has been tested on a separate set of pre-existing Kumauni sentences and thus verified. This mathematical model can be used for the purpose of parsing new Kumauni sentences, thus providing researchers a new parsing tool. Resumen La lengua kumauni es una de las lenguas regionales de la India, hablada en el área de Kumaun en la región del Himalaya. Puesto que esta lengua ha sido muy poco estudiada, en este trabajo se ha pretendido desarrollar una herramienta de etiquetado útil para los estudios sobre el kumauni. El objetivo final es contribuir a desarrollar una técnica para la comprobación de de las estructuras gramaticales en las oraciones del kumauni. Con esta finalidad, se ha escogido un conjunto de oraciones preexistentes del kumauni y a partir de ellas se han derivado reglas gramaticales. Además de esta selección, se ha intentado elegir aquellas oraciones que se usan actualmente y que son representativas de las posibles etiquetas en que pueden marcarse partes del habla. Esta elección se ha realizado para asegurar que en las oraciones aparezcan todas las etiquetas posibles. Las reglas derivadas de la gramática del Kumauni se han convertido a un modelo gramatical mediante el uso del algoritmo de Earley's previamente modificado. El modelo matemático desarrollado se ha verificado aplicándolo a un conjunto separado de oraciones preexistentes del Kumauni. Este modelo puede usarse para etiquetar nuevas oraciones del kumauni, ofreciendo a los investigadores una nueva herramienta de etiquetaje. Palabras clave lengua kumauni, gramática libre de contexto, algoritmo de Earley's, Procesamiento del lenguaje natural, etiquetado Dialectologia 7 (2011), 75-92.
doi:10.1007/978-3-642-19403-0_26 fatcat:pbdcecyorzhqnkug2eze6uqfya