La Rambla 30-32. 08071 Barcelona . 
           Telèfon 542 23 22 . FAX 542 23 21. e-mail: iula@grup.upf.es

1.6. Els models formals

Els models no són el partidor entès com a eina de transformació, no són la màquina, però condicionen els resultats empírics de la seva aplicació. Efectivament, la qualitat dels models és directament responsable dels resultats obtinguts en la segmentació, mesurada en termes de percentatges de mots correctament resolts pel partidor; més concretament, en termes de segmentacions que obtinguin un alt grau de fiabilitat en funció dels recursos d'avaluació disponibles, que no vol dir per tant que es tracti de segmentacions estrictament "correctes".{1}

El punt d'arrencada en la confecció d'aquests models són les llistes d'afixos obtingudes de diverses fonts bibliogràfiques. En els següents apartats, presento la descripció del procés de creació d'aquests models des de les fonts d'origen fins al model acceptat com a llista teòrica de sortida. Concretament presento els models de sufixos, d'infixos i de prefixos. Tanmateix, en l'apartat dedicat a les arrels, exemplifico els criteris fonamentals de confecció dels models de co-radicals, tot i que aquests no tenen un origen tan teòric com empíric.

Aquests models formals evolucionen fins a esdevenir com es presenten pràcticament aplicats al partidor, en relació directa a l'experiència de segmentació manual i revisions del tractament automàtic. Als models utilitzats pel programa els anomeno "funcionals", per oposició a aquests que presento ara que anomeno "formals".

Les llistes referents a terminacions són potser les més complexes, tant en aquesta elaboració inicial teòrica, com en l'evolució funcional posterior en el programa: l'experiència pràctica demostra que la terminació dels mots és la part més explotable automàticament per quantitat de possibilitats, i, sobretot, per possibilitats combinatòries de formants en seqüències complexes, a voltes constants i a voltes variables. Això no exclou la proliferació d'elements estranys i imprevisibles que cal tractar manualment.

La confecció de la llista de prefixos, essent més simple, genera molts més problemes a l'aplicació automàtica, ja que la proporció de mots que s'inicien directament amb un radical és molt alta, i tots aquests mots són susceptibles de confondre el programa si llur seqüència inicial coincideix amb algun prefix descrit. Aquí em mantinc en la descripció de l'elaboració de les llistes inicials formals que neixen directament de les fonts bibliogràfiques.

El procediment de treball és ben simple: es comparen diverses llistes d'afixos en català. D'aquesta comparació, a partir de criteris que tot seguit exposo, se'n confecciona una única que és la suma i síntesi de totes, a fi d'obtenir la previsió sobre el màxim de terminacions i inicis possibles.

La selecció de les fonts no és exhaustiva. Tot i això he mirat de disposar d'un ventall d'autors distanciats diacrònicament, de reconeguda vàlua en la història de la nostra lingüística moderna, de sistema de treball ben divers, i ubicades en llibres de caràcter ben diferent (dues gramàtiques, una de més descriptiva i l'altra més prescriptiva, un manual teòric, un llibre d'ensenyament, i un diccionari). Tot plegat amb la finalitat de comptar amb el màxim d'opcions de tractament i de tria.

Les fonts, per a totes les llistes són: Fabra (1956), Badia (1962), Mascaró (1986), Ruaix (1990), i Bruguera (1990).

Com a font d'exemples he utilitzat el Diccionari Català Invers amb Informació Morfològica, de Joan Mascaró i Joaquim Rafel (1990). L'ordenació inversa el fa especialment útil a la recerca d'ocurrències concretes pel que fa als sufixos. A banda, evidentment, de les obres generals (DGLC, DLC, DCVB, DeCat).

La comparació dels treballs d'aquests autors genera alguns problemes de caire pràctic, especialment quant a la identificació de les formes d'unes fonts amb les altres. Sovint les diferències de notació i d'ordenació, criteris de classificació, etc., i d'altres qüestions com l'absència d'exemples o de llur categoria gramatical (això darrer per als sufixos), esdevenen obstacles importants. Per exemple: Mascaró treballa amb formes fonològiques obviant qualsevol altre criteri i, per tant, en cas de coincidència, no duplica afixos homònims; s'ha de detectar la varietat en els exemples. En l'altre extrem, Badia, dóna la representació ortogràfica, i repeteix l'afix tantes vegades com possibilitats gramaticals, i àdhuc semàntiques, tingui l'afix en qüestió.

A la comparació, bàsicament, es comproven tres aspectes:

a) Si presenten les mateixes unitats.

b) Si presenten discrepàncies quant a la delimitació interna de seqüències complexes.

c) Si presenten discrepàncies quant a la mena de mots generables amb cada afix.


NOTES

{1} En el segon capítol exposo els sistemes de verificació de segmentacions automàtiques i de la quantificació en índexs de confianç (retorn)


Per comentaris i observacions, poseu-vos en contacte amb Antoni Jaume Farriols (o amb Lluís de Yzaguirre)
Institut Universitari de Lingüística Aplicada (IULA)