Ingeniería lingüística y terminología

 Lluís de Yzaguirre


Disponible en paper a De Yzaguirre, Ll. (1996) "Ingeniería lingüística y terminología", a Terminómetro. Monográfico: La terminología en España, pàg. 69-71, Unión Latina-IULA, París.

 

Il existe depuis une dizaine d'années, une nouvelle branche à mi-chemin entre informatique et linguistique, appelée "industries de la langue" ou "ingénierie linguistique". Alors que cette discipline se met de plus en plus au service de la terminologie, notamment à travers l'utilisation de corpus permettant l'extraction automatique de termes, la terminologie, elle, trouve place parmi les outils des industries de la langue.

Existe, ha mais de dez anos, um novo ramo entre a informática e a lingüística, denominado "indústrias da língua" ou "engeharia lingüística". Enquanto esta disciplina se coloca cada vez mais a serviço da terminologia, sobretudo através da utilizaçâo de corpus que permitem a extraçâo automática de termos, a terminologia, por sua vez, encontra seu lugar entre as ferramentas das indústrias da língua.

 

La ingeniería lingüística

A mediados de los ochenta se produce la siguiente contradicción: por un lado, se hace evidente que las expectativas creadas por la lingüística computacional no pueden verse colmadas a corto plazo con aplicaciones complejas como v.g. sistemas robustos de traducción totalmente automática de textos de cualquier temática y tipología, mientras que, por otro lado, los sistemas informáticos son cada vez más potentes, incluso los personales, y cada vez son más numerosos los dominios profesionales a los cuales la informática aporta soluciones que revolucionan los métodos de trabajo y que reducen astronómicamente los costes humanos de muchas prácticas.

En este contexto, y desde hace diez años aproximadamente, empieza a consolidarse una rama tecnológica que los franceses denominan al principio "industrias de la lengua" y los anglosajones ''ingeniería lingüística" o "ingeniería del lenguaje natural". Nosotros la denominaremos aquí "ingeniería lingüística" y la definiremos como el "conjunto de las técnicas, fundamentalmente informáticas, que permiten la aplicación de los conocimientos lingüísticos a la industria, las comuniaciones, etc.".

Existe, desde nuestro punto de vista, una complementariedad entre ingeniería lingüística y lingüística computacional', la que se expresa en la ecuación siguiente:

I (investigación) lingüística computacional

------------------------ = -----------------------------------

D (desarrollo) ingeniería lingüística

 

y que explica por qué "lingüística" es substantivo en la primera y adjetivo en la segunda.

 

Ingeniería lingüística y corpora

Uno de los terrenos de interés para la terminología es la lingüística de corpus, por cuanto ofrece nuevas perspectivas, que presentaremos más adelante, para el establecimiento de los repertorios terminológicos. Pero antes debemos esbozar las aportaciones de la ingeniería lingüística a la constitución y explotación de corpora.

Un "corpus" no es sólo una colección de ficheros de textos acumulada en un ordenador: tiene que haber sido objeto de un proceso, que llamamos "marcaje", de acumulación de informaciones ("marcas") que permiten formalizar tanto las distintas subunidades en que se estructuran dichos textos como las informaciones lingüísticas (categoría gramatical, función sintáctica...) que permitirán, por ejemplo, localizar entre millones de palabras aquellas frases que contienen una determinada combinación sintagmática. Evidentemente no todos los corpora tienen los mismos objetivos ni necesitan la misma profundidad de marcaje, pero por leve que éste sea, se necesitan herramientas informáticas para (semi)automatizarlo. Tanto la lingüística computacional como la ingeniería lingüística tienen aportaciones que hacer en este terreno: analizadores y etiquetadores de varios tipos, corpora de entrenamiento. etc.

 

Terminología y corpora

De entre las técnicas de obtención de repertorios terminológicos, cada vez gana más adeptos la de recurrir a la extracción automática de terminología a partir de corpora. Para ello dichos corpora deben cumplir ciertas condiciones, que nos permiten hablar de "validación".

 

Extracción de terminología

Hay dos evidencias que posibilitan la detección automática de términos a partir de textos pertenecientes a un ámbito de especialidad:

a) los términos aparecen con frecuencia más alta en los textos de especialidad que en la lengua general;

b) no es posible escribir textos de una especialidad sin recurrir a sus términos.

Por ello, mediante miles de operaciones sobre volúmenes ingentes de datos, realizadas por ordenador, es posible localizar las unidades nacionales claves de un  ámbito científico o profesional (nanca se podría hacer un trabajo serio sobre pocos datos, ni sería rentable). La detección se completa con la extracción automática de las referencias a la fuente, el contexto de uso y la categoría gramatical, cosa que reduce notablemente la carga mecánica de la producción de terminología. Por consiguiente, es más propio hablar de "extracción'' de terminología que no solamente de "detección".

 

Validación recíproca de terminología y representatividad del corpus

Para que la extracción automática de terminología de resultados válidos, debe efectuarse sobre un corpus de textos representativo del  ámbito en cuestión: por ejemplo, para estudiar los términos de la odontología, habrá que acumular desde artículos científicos y tesis doctorales hasta historias clínicas, albaranes y facturas del material usado en su práctica profesional y manuales de instrucciones del sofisticado instrumental que tienen. Por el contrario, un repertorio de términos obtenido con metodología "clásica" puede, especialmente en terrenos científicos o profesionales sujetos al trepidante ritmo de las innovaciones tecnológicas, quedar desfasado antes de ver la luz.

 Si de la confrontación entre una terminología extraída de corpus y una elaborada a partir del análisis nocional del dominio resultasen diferencias, ello podría deberse a uno de los factores siguientes o a ambos:

a) el corpus usado para la extracción automática de terminología no es representativo de todos los aspectos de la práctica profesional o el ámbito científico, o no está adecuadamente equilibrado en sus proporciones;

b) el análisis nocional ha quedado obsoleto en alguno de sus aspectos.

Ello es interesante no sólo para el trabajo terminológico, puesto que le da el valor añadido de instrumento de calibración de la representatividad y equilibrio de corpora.

 

Métodos para la extracción de terminología

Hay muchos equipos trabajando en extracción automática de terminología y cada año se presentan métodos nuevos o mejorados, lo cual no significa que el camino haya llegado al final. Sintetizaremos aquí algunas de las líneas en que estamos trabajando en el IULA de la UPF:

a) frecuencias contrastivas: se trata de comparar las frecuencias de palabras aisladas y de grupos concurrentes de palabras, obtenidas sobre un corpus de especialidad con métodos lexicométricos clásicos, con aquéllas obtenidas en un corpus de referencia, para detectar índices significativos de variación que se puedan usar a gran escala;

b) secuencias de etiquetas: después de establecer cuáles son las combinaciones sintagmáticas más frecuentes entre los términos complejos de un dominio y de expresarlas como secuencias de etiquetas es posible calibrar con gran refinamiento la probabilidad (que no certeza) de que un grupo concurrente de palabras sea o no un término;

c) desequilibrio de formas: parece ser que un término complejo tiene unas posibilidades de variabilidad más limitadas; ello implica que, a partir de niveles de frecuencia que estamos aún estudiando, si un lema presenta desequilibrio de formas, probablemente hay un uso especializado: por ejemplo, hemos detectado en un corpus de prensa que todos los artículos donde ''turismo" aparecía sólo en singular trataban sobre ocio, mientras que aquellos que trataban de automóbiles dicha palabra aparece casi exclusivamente en plural; o el caso de "letra" y ''cambio'' en el término "letra de cambio'' en el corpus del IULA, donde "cambio" sólo aparece en singular y "letra" tiene sólo algún caso esporádico en plural;

d) densidad de términos: en un corpus con marcaje estructural, y una vez establecida una primera hipótesis sobre qué palabras pueden tener valor de términos, tiene sentido medir el promedio de términos por frase o párrafo, que llamamos densidad terminológica del texto. Se supone que en un discurso especializado debe haber una cierta regularidad en la distribución de dicha densidad: puede ser lógico que la presentación del texto sea menos densa, o que una relación de los útiles profesionales sea más densa que la media del documento, pero lo más probable es que donde se produzca una caída significativa de la densidad terminológica tengamos uno o varios términos que han escapado a nuestras técnicas de detección (o un párrafo superfluo).

Ni el más tecnófilo de los lingüistas creería que son únicamente uno de estos métodos sea posible ofrecer resultados convincentes. Pero la combinación de los anteriores y otros que se están desarrollando serán capaces de convertir a los más reticentes.

 

Las aplicaciones de la terminología por parte de la ingeniería lingüística

La colaboración entre ingeniería lingüística y terminología no acaba con la obtención de repertorios a partir de corpora e, inversamente, con la validación de corpora mediante terminologías; cada día florecen nuevas tecnologías y nuevos usos que permiten mejorar los procedimientos de trabajo y, en le caso que nos ocupa, revalorizar el producto terminológico como útil al servicio de otros procesos laborales, como por ejemplo:

Epílogo

Para aquellos que ven los autómatas con temor, terminaremos diciendo que no se atisba ni remotamente la posibilidad de que la técnicas nos lleve a prescindir del terminólogo; bien al contrario, le iremos descargando progresivamente de las partes más mecánicas y menos creativas del trabajo, le permitiremos abarcar más terreno y proporcionaremos nuevas salidas al producto de su esfuerzo.

 


Notas

1. Computational linguistics: The study of language using the techniques and concepts of computer science especially with reference to the problems posed by the fields of machine translation, information retrieval, and artificial intelligence. (Crystal, D. The Cambridge Engyclopedia of Language, pàg. 412). La lingüística computacional es el estudio de los sistemas de computación utilizados para la comprensión y la generación de las lenguas naturales. (Grishman, R. Introducción a la lingüística computacional, pág. 15).