Interactive Pattern Recognition applied to Natural Language Processing [thesis]

Luis Rodríguez Ruiz
Quiero aprovechar estas líneas para mostrar mi agradecimiento a todas las personas que de una forma o de otra han contribuido a que esta tesis se haya hecho realidad. En primer lugar quiero agradecer sinceramente a mis directores de tesis todo su apoyo, paciencia y dedicación. Ismael, a quién hace tiempo que no considero simplemente mi director de tesis, sino un amigo y del que he aprendido muchas cosas, sobre todo en cuanto a traducción automática se refiere. En cuanto a Enrique, no puedo sino
more » ... ique, no puedo sino considerarlo como un auténtico maestro para mí. Gracias por enseñarme que el detalle es realmente importante y por reconducir mis raras e improvisadas propuestas. En definitiva, si de alguna forma ahora puedo considerarme un investigador, es fundamentalmente gracias a ellos. También me gustaría incluir aquí a Francisco Casacuberta, con quien he compartido varios proyectos y artículos y del que también he tenido oportunidad de aprender muchas cosas. No quiero dejar pasar la oportunidad de agradecer a todos los que de uno u otro modo han compartido conmigo su aprendizaje en el mundo de la investigación. Empezando con mis compañeros en el proyecto TT2: Antonio, Elsa y Jorge, con quien tantos momentos entrañables compartí. Extiendo este agradecimiento a todos los miembros del ITI que me brindaron una extraordinaria acogida durante mis casi tres años en Valencia: Alejandro (quien siempre tiene algún truco nuevo que enseñarte), José Ramón, Dani (con quien siempre se mantienen conversaciones productivas), Javi, Jose, Jorge, Vicent y a todos los miembros del grupo PRHLT. También quiero agradecer a todos los integrantes del grupo SIMD, especialmente a sus directores José Antonio y José Miguel por acogerme a mi regreso de Valencia. Porúltimo, quiero también mostrar mi agradecimiento a José Oncina, por encontrar un algoritmo que hace mejores los resultados de predicción de texto aquí presentados. En el aspecto personal, quiero agradecer a mis padres todo su apoyo y cariño en las diferentes etapas de mi vida. También al resto de mi familia. A todos mis amigos, por saber perdonar mi falta de dedicación con ellos debido a lo absorbente de este trabajo. Porúltimo, mi más profundo agradecimiento a Sonia, por todo su apoyo y amor durante estos años tan complicados. Finalmente, y citando a los geniales "Monty Python": and now, for something completely different . ABSTRACT This thesis is about Pattern Recognition. In the last decades, huge efforts have been made to develop automatic systems able to rival human capabilities in this field. Although these systems achieve high productivity rates, they are not precise enough in most situations. Humans, on the contrary, are very accurate but comparatively quite slower. This poses an interesting question: the possibility of benefiting from both worlds by constructing cooperative systems. This thesis presents diverse contributions to this kind of collaborative approach. The point is to improve the Pattern Recognition systems by properly introducing a human operator into the system. We call this Interactive Pattern Recognition (IPR). Firstly, a general proposal for IPR will be stated. The aim is to develop a framework to easily derive new applications in this area. Some interesting IPR issues are also introduced. Multi-modality or adaptive learning are examples of extensions that can naturally fit into IPR. In the second place, we will focus on a specific application. A novel method to obtain high quality speech transcriptions (CAST, Computer Assisted Speech Transcription). We will start by proposing a CAST formalization and, next, we will cope with different implementation alternatives. Practical issues, as the system response time, will be also taken into account, in order to allow for a practical implementation of CAST. Word graphs and probabilistic error correcting parsing are tools that will be used to reach an alternative formulation that allows for the use of CAST in a real scenario. Afterwards, a special application within the general IPR framework will be discussed. This is intended to test the IPR capabilities in an extreme environment, where no input pattern is available and the system only has access to the user actions to produce a hypothesis. Specifically, we will focus here on providing assistance in the problem of text generation. The use of adaptive learning in this scenario will be emphasized. Besides, two derived applications will be also considered. Notably, the use of text prediction for information retrieval systems. In addition, we will pose an interesting question about IPR systems. The inclusion of multi-modality as a natural part of IPR. The design of a speech input interface for Computer Assisted Translation (CAT) will be addressed. To this end, we will describe several interaction scenarios, which facilitate the speech recognition process by taking advantage of the CAT environment. Finally, a set of prototypes that include the main features of the work here developed will be presented. The main motivation is to provide real examples about the feasibility of implementing the techniques here described. vii RESUMEN El presente trabajo versa sobre Reconocimiento de Formas. En lasúltimas décadas, se han destinado numerosos esfuerzos en construir sistemas automáticos capaces de competir con las habilidades humanas en este campo. Aunque dichos sistemas son capaces de obtener niveles de productividad muy altos no son lo suficientemente precisos en muchos casos. Los seres humanos, por otra parte, resuelven este problema de forma bastante precisa, aunque no pueden competir en cuanto a velocidad. Este hecho plantea un problema interesante: la posibilidad de combinar ambas aproximaciones construyendo sistemas cooperativos. Esta tesis se centra en presentar diferentes contribuciones a una nueva propuesta encuadrada dentro de este tipo de sistemas colaborativos. Para ello, se propone incluir al usuario como parte del propio sistema. Esta aproximación se conoce con el nombre de Reconocimiento Asistido de Formas (IPR, Interactive Pattern Recognition). En primer lugar, se propondrá una formulación general para el problema del Reconocimiento Asistido de Formas. Se pretende, de esta manera, desarrollar un marco formal que permita el desarrollo de nuevas aplicaciones dentro de este campo. Por otra parte, se discutirán ciertos aspectos generales, relevantes dentro del marco de IPR. Cuestiones como la multi-modalidad o el aprendizaje adaptativo constituyen extensiones naturales al problema en cuestión. En segundo lugar, se desarrollará una nueva aplicación destinada a obtener transcripciones del habla de calidad. Para ello, primeramente se estudiará una formalización de dicha aplicación para, más adelante, proponer diferentes alternativas de implementación. Se discutirán, además, diversos aspectos prácticos, como por ejemplo el tiempo de respuesta que presenta un sistema de este tipo. El uso de grafos de palabras y las técnicas de análisis sintáctico corrector de errores serán incluidas en una formulación alternativa encaminada a mejorar dicho tiempo de respuesta. A continuación, se describirá un caso especial de aplicación, en la cual no se dispone de un patrón de entrada a reconocer y el sistema sólo puede basarse en las acciones realizadas por el usuario para generar nuevas hipótesis. Desde un punto de vista práctico, este enfoque pretende facilitar la generación de texto en diferentes situaciones. Además, se describirán dos aplicaciones derivadas de esta propuesta, destacando el uso de sistemas de generación de texto en sistemas de recuperación de información, que se presenta como una aproximación completamente nueva en este campo. Por otra parte, se discutirá la inclusión de interfaces multi-modales en un sistema IPR. En concreto, se abordará el diseño de un interfaz basado en reconocimiento del habla para un sistema de traducción asistida. Se estudiarán, para ello, diferentes escenarios de interacción. ix Porúltimo, se presentará una serie de prototipos que implementan algunas de las técnicas aquí desarrolladas, con el objeto de mostrar su viabilidad como aplicaciones finales para el usuario. x LRR-DSIC-UPV RESUM El present treball versa sobre Reconeixement de formes. En lesúltimes dècades, s'han destinat nombrosos esforços a construir sistemes automàtics capaços de competir amb les habilitats humanes en aquest camp. Encara que aquests sistemes són capaços d'obtenir nivells de productivitat molt alts, no són prou precisos en molts casos. Elséssers humans, per altra banda, resolen aquest problema de forma prou precisa, encara que no poden competir quant a velocitat. Aquest fet planteja un problema interessant: la possibilitat de combinar ambdues aproximacions construint sistemes cooperatius. Aquesta tesi se centra a presentar diferents contribucions a una nova proposta enquadrada dins d'aquest tipus de sistemes col·laboratius. Amb aquesta finalitat, es proposa incloure a l'usuari com part del propi sistema. Aquesta aproximació es coneix amb el nom de Reconeixement Assistit de Formes (IPR, Interactive Pattern Recognition). En primer lloc, es proposarà una formulació general per al problema del Reconeixement Assistit de Formes. Es pretén, d'aquesta manera, desenvolupar un marc formal que permeta el desenvolupament de noves aplicacions dins d'aquest camp. D'altra banda, es discutiran certs aspectes generals, rellevants dins del marc de IPR. Qüestions com la multi-modalitat o l'aprenentatge adaptatiu constitueixen extensions naturals al problema en qüestió. En segon lloc, es desenvoluparà una nova aplicació destinada a obtenir transcripcions del parla de qualitat. Amb aquesta finalitat, en primer lloc s'estudiarà una formalització d'aquesta aplicació per a, més endavant, proposar diferents alternatives d'implementació. Es discutiran, a més a més, diversos aspectes pràctics, com ara el temps de resposta que presenta un sistema d'aquest tipus. L'ús de grafs de paraules i les tècniques d'anàlisi sintàctica correctores d'errors seran incloses en una formulació alternativa encaminada a millorar aquest temps de resposta. A continuació, es descriurà un cas especial d'aplicació, en la qual no es disposa d'un patró d'entrada a reconèixer i el sistema només pot basar-se en les accions realitzades per l'usuari per a generar noves hipòtesis. Des d'un punt de vista pràctic, aquest enfocament pretén facilitar la generació de text en diferents situacions. A més a més, es descriuran dues aplicacions derivades d'aquesta proposta, destacant l'ús de sistemes de generació de text en sistemes de recuperació d'informació, que es presenta com una aproximació completament nova en aquest camp. Per altra banda, es discutirà la inclusió d'interfícies multi-modals en un sistema IPR. En concret, s'abordarà el disseny d'una interfície basada en reconeixement de la parla per a un sistema de traducció assistida. S'estudiaran, amb aquesta finalitat, diferents escenaris d'interacció . xi Finalment, es presentarà una sèrie de prototips que implementen algunes de les tècniques ací desenvolupades, amb l'objecte de mostrar la seua viabilitat com aplicacions finals per a l'usuari. xii LRR-DSIC-UPV
doi:10.4995/thesis/10251/8479 fatcat:kule5chjkra6rg23b4ikiwom5u