Ciencia

Crean un buscador multilingüe basado en una interlingua

Un buscador multilingüe basado en una interlingua, que permite lanzar una pregunta en cualquier lengua y obtener una respuesta precisa en la lengua original, ha sido desarrollado por investigadores de la Facultad de Informática de la UPM. Se trata de un sistema de pregunta-respuesta que tiene la finalidad de contestar de forma precisa a preguntas sobre hechos formuladas en la lengua materna del usuario.

Investigadores del Grupo de Validación y Aplicaciones Industriales (VAI) de la Facultad de Informática de la Universidad Politécnica de Madrid han desarrollado un motor de búsqueda multilingüe que permite lanzar una pregunta en cualquier lengua a un repositorio de contenidos escritos en una interlingua y obtener una respuesta de gran precisión en la lengua en la que ha sido formulada la pregunta, informa la citada Facultad en un comunicado.

El sistema explota las características de la representación en una interlingua de la pregunta del usuario para encontrar la respuesta, considerando que la respuesta está implícita en la pregunta. Por lo tanto, lo que hace el buscador no es encontrar la respuesta, sino que la deduce de la pregunta.

La interlingua es una representación de contenidos independiente de la lengua. En la actualidad, la única interlingua viva y de propósito general, con estándares, manuales y organizaciones que se ocupan de ella, es el UNL (Universal Networking Language), de la Universidad de las Naciones Unidas, que fue creada para eliminar las barreras lingüísticas en Internet. El VAI es el soporte de UNL para la lengua española.

El buscador multilingüe es un sistema de pregunta-respuesta que tiene la finalidad de contestar de forma precisa a preguntas sobre hechos formuladas en la lengua materna del usuario. Por ejemplo: ¿Quién descubrió América y en qué año? La respuesta obtenida por este sistema sería Cristóbal Colón en 1492.

Información en UNL

La novedad de este sistema es que la pregunta puede ser formulada en inglés, francés, español o cualquier otra lengua, y la respuesta se obtiene en la misma lengua en que ha sido formulada sin que medie ninguna traducción de una lengua a otra, ya que la base de la información que se busca está en UNL.

El sistema explota las características de la representación en UNL de la pregunta del usuario para encontrar la respuesta, considerando que la respuesta está implícita en la pregunta. Por lo tanto, lo que hace el buscador no es encontrar la respuesta, sino que la deduce de la pregunta.

El motor de búsqueda es el encargado de encontrar la respuesta en la base documental escrita en UNL siguiendo la secuencia: primero busca frases del texto que podrían tener la respuesta, segundo, de ese conjunto de oraciones determina cuál tiene la respuesta y cuál es la respuesta. A continuación, genera la respuesta en la misma lengua en que fue formulada.
Por ejemplo, a la pregunta ¿Por qué Aubert fue galardonado con el premio Caméré?, el buscador encuentra en el repositorio un grafo del que se deduce la respuesta: por un nuevo tipo de exclusa (movable dam). (Ver gráfico).

Resultados prometedores

Para el ejercicio de la pregunta sobre el ingeniero francés Jean Aubert (1894-1984), la investigación utilizó como base la enciclopedia biográfica de la UNESCO, que tiene 25 artículos pasados a UNL, con 101 expresiones UNL y 2.534 palabras universales.

Los resultados obtenidos con esta investigación son muy prometedores: 82% de aciertos precisos. Se han formulado 75 preguntas de diferente tipo (cuándo, cómo, quién…), sabiendo de antemano cuál es la respuesta correcta. También se han formulado preguntas sin respuesta en el repositorio para determinar el comportamiento del sistema en este supuesto. Los resultados obtenidos confirman la validez de este buscador para el desarrollo de sistemas pregunta-respuesta multilingües.

———————–

Jesús Cardeñosa (director del VAI), Carolina Gallardo y Miguel A. de la Villa, Comunicación en la 8th International Conference FQAS 2009 (Dinamarca, octubre de 2009).

Los resultados se publicaron en Lecture Notes in Artificial Intelligence 5822, Springer, Berlín, septiembre de 2009, págs. 500 y ss.

Fuente: UPM

Sobre el autor

Jordi Sierra Marquez

Comunicador y periodista 2.0 - Experto en #MarketingDigital y #MarcaPersonal / Licenciado en periodismo por la UCM y con un master en comunicación multimedia.