La Rambla 30-32. 08071 Barcelona . 
           Telèfon 542 23 22 . FAX 542 23 21. e-mail: iula@grup.upf.es

1.3. Un model: entrada morfemàtica vs lexemàtica{1}

Tot el que ja s'ha dit sobre les unitats d'anàlisi fa evidents els motius de l'adopció del model de diccionari. En tant que aquest treball és, efectivament, un diccionari, presento una breu discussió sobre quin model adopta. Limito el tema a la doble proposta de Cabré i Rigau (1986) que resa al títol d'aquest apartat.

El primer model llista morfemes i el segon llista lexemes. L'elecció d'un o altre model implica l'acceptació d'alguna mena de limitació en relació a dues característiques essencials i oposades de la llengua: la regularitat i l'excepcionalitat.

Un diccionari que explota la regularitat funciona amb unitats més senzilles, i les regles combinatòries necessàries per a construir les unitats complexes. Aquest diccionari és incapaç de resoldre els casos excepcionals, en tant que les regles són per definició generalitzadores.

Per contra, un diccionari que pretengui donar raó de l'excepcionalitat ha de renunciar a l'explotació de les constants i treballar de manera independent per a cada unitat; funciona amb unitats necessàriament més complexes.

Si l'objectiu últim comú a dos diccionaris són els mots de la llengua, el primer descrit hi arribarà a partir de la combinació de morfemes (entrada morfemàtica: menys peces, més regles, més econòmic); i el segon funcionarà llistant directament els mots formats (entrada lexemàtica: més peces, menys regles, menys econòmic). El primer és dinàmic i generatiu ja que pot combinar els morfemes en solucions inèdites (els mots reals i els possibles, o només els probables, els quals aporten significants nous per a significats que no disposen ja en la llengua d'altres significants). El segon és estàtic i finit; conté només els mots reals de la llengua i és necessàriament redundant.

En aquest punt cal un breu comentari sobre les possibilitats generatives de la llengua. Cito Cabré i Rigau (1986):

(...) independentment de la productivitat que marcarà les tendències dels parlants a l'hora de crear noves paraules, si no hi ha cap impediment que eviti la combinació d'un radical i un afix, la peça lèxica que en resulti, real o no, freqüent o esporàdica, serà ben formada.{2}

El diccionari de formants és d'entrada morfemàtica, llista les peces desmuntades. La innovació del plantejament és en relació al sistema de segmentació. Acceptant com a certa l'afirmació de Cabré i Rigau, l'eina de segmentació, el partidor, sempre serà potencialment capaç de segmentar mots irreals però possibles, en tant que disposa de la llista de formants de la llengua i dels principals condicionaments, regles en termes de Cabré i Rigau, de combinació. Òbviament el corpus que presento té un valor intrínsec, tant pel que fa a l'aportació manual, com a la mostra automàtica (obtinguda de l'estudi de les regularitats del manual), però allò que el fa més atractiu és el seu origen, l'eina (partidor) i el sistema (confrontació recursiva manual-automàtic) amb què s'obté, amb un percentatge alt, tot i que no pas òptim, de segmentacions correctes.

Amb tot, al diccionari que presento, caracteritzat en bona part pel paper que hi té la informàtica i l'adopció com a mètode de treball de l'explotació de sistemes i subsistemes de regularitat, s'hi adiu força millor el model d'entrada morfemàtica:

Because many applications of computers to language require bulky lexicons, one obvius motive for morphological analysis is to eliminate redundancy and thus reduce the memory required for machine lexicons and minimize the time needed to search them.{3}

Un exemple força evident d'aquesta mena de sistemes de regularitat és el que s'esmenta a De Yzaguirre (1995) com a "lematització derivacional":

Proposem parlar de lematització derivaciónal quan la forma sigui associada al lema d'una altra forma de la qual es pugui obtenir per un procés de derivació. Suposem que considerem que "acte" > "actuar" > "actuació" > "actuacions"; la lematització flexiva ens donarà "actuacions" < "actuació" mentre que la derivacional ens donarà "actuacions" < "acte". Tècnicament no hi ha gaire diferència entre els mecanismes necessaris per a ambdues modalitats; la diferència és sobretot funcional: la primera és la que té més usos, la segona servirà més aviat per a sistemes de classificació de documentació, interfícies de llenguatge natural que cerquin treballar amb el mínim d'unitats d'informació possibles, o detecció d'errors estadístics (...){4}

La informàtica es caracteritza per l'extraordinària capacitat de manipulació de dades. Els avantatges de tota mena relacionats amb l'economia aconsellen treballar el lèxic com si es tractés d'una gramàtica: a partir dels formants (peces simples) i les regles de combinació. El plantejament lexemàtic, a partir de la llista total dels mots ja formats, no ofereix, en el camp de la informàtica, avantatges substancials sobre la mateixa llista impresa en un diccionari-paper (pràctic).

L'aplicació de la informàtica en el camp de la lexicografia no és nova, i ha estat definitiva per a solucionar els tradicionals problemes de revisió, correcció, i manipulació, en general, dels volums de material amb què treballa un diccionari. La innovació d'aquest projecte és que usa un programa capaç de segmentar les peces lèxiques.

El plantejament d'un diccionari de funcionament automatitzat no és tampoc inèdit. Alguns estudis sobre diccionaris electrònics informen de les possibilitats d'aquestes eines, i de la bondat del plantejament morfemàtic per a extreure'ls el major rendiment.

We maintain here that a morphological analysis module is an essential part of computational dictionaries. Moreover, the analysis must be as neutral as possible, in order to be independent from the constrains of a particular system.{5}

Malgrat l'economia de llenguatge, la llengua no s'organitza sempre de manera sintètica. La redundància hi és molt freqüent: en el llenguatge natural espontani més del 50% de la informació és redundant, la qual cosa no vol dir que hi sobri. La funció de la informàtica és fonamentalment una qüestió d'estalvi: de temps, de lloc, d'energia, de feina, etc. Abans de plantejar-se la seva utilització com a eina de transformació de productes, la primera funció és la precisió i velocitat amb què és capaç de processar quantitats ingents de dades de tota mena: la manipulació. L'avantatge definitiu en aquest sentit és la sistematicitat (p.ex. si se li demana que llisti separadament tots els mots iniciats amb la seqüència abs-, és impossible que n'oblidi cap. Qualsevol discrepància entre els resultats obtinguts i els esperats posa de manifest alguna mena d'error, tipogràfic, per exemple).

La naturalesa redundant de moltes estructures lingüístiques és el que permet plantejar-se l'explotació de la informàtica en aquest camp. És a dir, el descobriment de rutines constants, de fórmules de regularitat i d'identitat permet de reduir el nombre total de peces manipulades i permet treballar amb conjunts de peces anàlogues, la qual cosa esdevé un estalvi global i una simplificació substancial de les recerques, alhora que afavoreix el tractament coherent i unívoc dels corpus en relació a allò que cada mena d'unitat té de característic i de distintiu. El tractament informàtic de les dades aporta la seguretat que l'oblit és impossible. No és que la redundància dels corpus s'elimini, sinó que s'analitza i s'organitza amb la finalitat d'aconseguir una major economia de memòria, una major manipulabilitat, en un mot, una major eficiència de processament.

Realistic natural language processing (NPL) requires large lexicons. Many applications using such will to express generalizations over various aspects of the data in order to emphasize regularities and avoid redundancy.{6}

Entenent el mot (lexema o no) com una unitat almenys potencialment descomponible, i admetent que les diferents parts que el componen poden tenir distribucions diverses en d'altres mots, el sistema de segmentació (tant el programa com el procediment manual) ha de funcionar de manera anàloga al component morfològic de la llengua. És a dir, amb un nombre limitat d'elements i unes regles combinatòries:

This vision of morphology as a process of affixation brings on the one hand the possibility of reducing the size of the lexicon, since many elements can be reused in different combinations, and on the other a need for rules governing morpheme concatenation.{7}

La relació entre la llengua i la informàtica no és, però, perfecta. L'excepcionalitat de la primera contrasta amb l'extrema regularitat de la segona. La segmentació manual dels mots mostra un inventari de problemes que l'algorisme mai no resoldrà satisfactòriament; es tracta en general de totes les ocurrències que no respecten les regles de formació del grup al qual pertanyen per forma o categoria. És a dir, aquells casos en què l'aplicació d'una determinada rutina, vàlida per a la majoria de mots semblants, dóna com a resultat un impossible, un error. Cal admetre aquesta limitació d'entrada i per tant cal estudiar la llengua des de la recerca de subsistemes de regularitat, a fi d'aïllar els elements realment excepcionals; alhora que s'adopten sistemes de verificació dels resultats aconseguits, com per exemple, en aquest treball, utilitzar com a filtre de fiabilitat els formants, arrels sobretot, documentats fefaentment en recerques etimològiques manuals.

Morphological analysis then becomes a problem of segmenting words into components and searching for them one in the lexicon. This is an oversimplification, however, since the forme of each morpheme may not remain unchanged;...{8}

Aquest inconvenient, no obstant, no menysté la utilitat descrita per al tractament dels elements més regulars. D'altra banda l'aïllament per exclusió de les excepcions tampoc no deixa de ser un sistema de selecció. Tot i això, es pot preguntar: "why morphological analysis in computational dictionaries?",{9} i no per exemple un tractament lexemàtic.

Els algorismes que resulten aptes per al tractament de llengües d'alta rendibilitat flexiva i derivativa (com el català) són aquells que es basen en una llista base o lexicó, i diverses subllistes amb les informacions d'afixos necessàries. El programa de segmentació esdevé aleshores una gramàtica del mot que permet la correcta segmentació-combinació dels mots-segments del diccionari per a la descomposició-formació de mots complexos. El partidor només resol la primera part d'aquest binomi.

La manera més eficaç d'emmagatzemar els diccionaris en suport magnètic és a partir d'una acurada segmentació morfològica; treballant a partir de segments (formants) i no de mots, i és per a l'obtenció d'aquests formants que es crea el partidor. I és per tot això que cal concloure que en essència el model de diccionari adoptat, potser estrictament el diccionari a aconseguir, és el d'entrada morfemàtica: una llista de tots els formants coneguts del català amb l'estipulació de la categoria, contextos, etc., de cadascun, a partir de la qual es puguin generar tots els mots reals i possibles de la llengua.

Hi ha una evidència lingüística:

(...) el mot té una estructura interna sotmesa a regularitats i per tant no tot el mot és idiosincràtic (...) es poden utilitzar mecanismes morfològics, regularitats que ja existeixen en els mots de la llengua, per crear una peça nova{10} a partir de morfemes ja existents.{11}


NOTES

{1} Per a la descripció dels models, vegi's Cabré i Rigau (1986). retorn)

{2} Cabré i Rigau (1986), pàg. 66. retorn)

{3} Smith (1991), pàg. 22. retorn)

{4} De Yzaguirre (1995), pàg. 18.retorn)

{5} Bouillon i Tovena (1990), pàg. 447. retorn)

{6} Bouillon i Tovena (1990), pàg. 448. retorn)

{7} Bouillon i Tovena (1990), pàg 448. retorn)

{8} Bouillon i Tovena (1990), pàg. 448.retorn)

{9} Bouillon i Tovena (1990), pàg. 448.retorn)

{10} ...O coneguda. (comentari meu) retorn)

{11} Mascaró (1986), pàg. 13. retorn)


Per comentaris i observacions, poseu-vos en contacte amb Antoni Jaume Farriols (o amb Lluís de Yzaguirre)
Institut Universitari de Lingüística Aplicada (IULA)