Diccionari de formants

           La Rambla 30-32. 08071 Barcelona . 
           Telèfon 542 23 22 . FAX 542 23 21. e-mail: iula@grup.upf.es

1.5. Referent teòric del "partidor"

Anomeno partidor el programa informàtic encarregat de segmentar els lexemes del corpus de treball. Com a eina pràctica, en descriuré el funcionament, evolució i constituents en el segon capítol del treball. Com a sistema de segmentació, cal donar-li, però, un referent teòric tant al sistema en general com al funcionament. Ho faig breument.

El partidor actua bàsicament per comparació i reconeixement de models de formants previsibles. En aquest sentit, la clau de tot és en l'elaboració d'aquests models. De tota manera, l'aplicació d'aquests models en el procés de segmentació és ordenada i aquest ordre respecta uns criteris preestablerts a mig camí entre els avantatges pràctics i els orígens teòrics. El procés és senzill en termes de decisions a prendre, però complex i sofisticat en termes de viabilitat informàtica. És a dir, la complexitat del sistema quant a la tipologia de les ordres que ha d'executar és poca, però l'aplicació d'aquestes ordres es complica, en termes sobretot de temps d'execució, a causa de la multiplicitat de possibilitats amb què es poden combinar i el volum dels corpus a què s'apliquen.

El partidor és una eina; és essencialment pràctic, per tant. Tot i això, a l'hora de cercar-li un referent teòric en l'àmbit de la lingüística, es pot comparar amb una gramàtica: la filosofia es fonamenta a analitzar la realitat individual en base a generalitzacions més o menys importants: regles. El fet de treballar amb regles implica l'acceptació tàcita de les excepcions, que s'han d'explicar fora del sistema. Bona part de les regles es basen en la confecció de models de formants. Els models són de dues menes: en primer lloc, les llistes d'afixos, tancades i quantitativament limitades; en segon lloc, els models de co-radicals, i tanmateix els llistats de radicals comprovats manualment, que es constitueixen en nous models de comparança. De fet, en el partidor, les regles fan referència a l'ordre i restriccions d'aplicació dels models, i no tant als models en si, que són a mig camí d'esdevenir eines i dades. Certament en aquest treball l'inventari de peces pròpiament dit, és a dir, el material lingüístic a transformar per efecte de la gramàtica (partidor), el constitueix la llista de lexemes a segmentar; nogensmenys, però, cal remarcar un parell de qüestions més:

a) La llista de radicals comprovats manualment sempre és menor que el global del corpus d'anàlisi. La seva funció és la localització d'aquests radicals en els mots ja tractats de manera automàtica per tal d'atorgar un índex de confiança a la seva segmentació, que és més alt si la segmentació proposada delimita radicals documentats que si no ho fa, la qual cosa és determinant en la tria que el programa fa de totes les segmentacions possibles que obté d'un mateix mot. Amb tot, aquesta llista de radicals verificats s'aproxima a la noció d'eina i s'allunya de l'estatus de dada.

b) El partidor funciona estrictament en la resolució dels casos regulars, d'aquesta manera aconsegueix d'aïllar-los dels excepcionals que es reconeixeran fàcilment en donar resultats anòmals quan s'intenti la segmentació automàtica. La revisió manual final dels resultats obtinguts és inevitable a fi de delatar els resultats funcionalment correctes o incorrectes, gramaticals o agramaticals. Les llistes de radicals, des del punt de vista teòric, són en aquest sentit un satèl·lit no essencial del funcionament del programa i actuen de "context d'ús", de delators de formes mal generades pel sistema regular. Pràcticament, a més, ajuden a un objectiu futur: l'enriquiment de la llista real de radicals del català.

Aquest treball intenta assolir dos objectius simultàniament. El Diccionari de Formants es presenta en part com un producte efectivament generat pel partidor, però alhora també com a eina de futur (material de consulta i treball d'altres programes més evolucionats). L'adopció d'un sistema de treball que elimini subconjunts de mots a base de comprovar-los manualment no va en detriment del projecte quant a automatització. Un sistema i l'altre són complementaris i tenen objectius diferents. El partidor es planteja com a eina de solució, segmentació, dels casos estrictament regulars, entenent per regulars aquells que es poden reduir a regles a partir de models d'afixos i a tot estirar de co-radicals inicials i finals. L'aplicació global d'aquests models tancats al corpus ofereix dues dades importants: a) Comprova la seva pròpia efectivitat percentual de resolució. I b) dóna mostra fidel del nivell de regularitat de la formació dels mots en català.

La comprovació manual de llistats de mots no resolubles{1} amb el sistema regular té com a funció, en canvi, l'obtenció mateixa de la segmentació correcta d'aquests mots per a la generació del diccionari complet d'arrels, útil a futures aplicacions, i serveix de recerca per a la detecció de nous subsistemes de regularitat que es poden incorporar al model.

Queda pendent de resoldre sobre l'ordenació de les regles, pràcticament, sobre l'ordre amb què s'apliquen els models; i sobre les restriccions i condicionaments d'aplicació. Una part d'aquestes qüestions no tenen importància en l'ordre teòric i s'apliquen en relació a avantatges pràctics que no fan al cas ja que no són producte de la investigació del doctorand.

Una altra part, requereixen una justificació teòrica. Els més importants són els següents:

1. En cas de disputa de fonemes (lletres) entre dos formants, preval la forma del de la dreta, en general.{2}

a) Radical-sufix: sempre es reconeix la forma completa del sufix i s'admet que l'element més variable són els radicals, encara que surtin formes inversemblants.

b) Prefix-radical: s'aplica el mateix principi que en el punt anterior. Tot i això, la possibilitat que l'aplicació estricta d'aquest criteri provoqui errors és molt més gran, especialment quan es tracta de prefixos breus (una o dues lletres). Si és cert que la immensa majoria dels mots acaben amb un formant que no és radical, no és igualment cert que hi comencin. En molts d'aquests casos, com es veurà, la revisió manual és indispensable.

c) Radical-radical: s'aplica el criteri general de preponderància de l'element de la dreta amb què romanen els fonemes en disputa, entenent, a més, que la majoria de modificacions que es produeixen en els formants per causa d'al·lomorfisme, són al final dels formants, a la dreta.

d) Prefix-sufix: quan es reconeix un sufix i un prefix de tal manera que desapareix el radical, es considera que el prefix no és tal prefix, sinó el radical, mantenint el criteri inicial que fa prevaler la categoria i la integritat de l'element de la dreta.

e) Infix-sufix: quan una mateixa seqüència es pot analitzar com un sufix més llarg o com una combinació de sufixos, seguint la màxima de segmentar tant com sigui possible, preval l'opció amb més fronteres, és a dir, el reconeixement d'infixos. Val a dir, però, que en aquesta mena de casos les probabilitats d'error són importants. En aquest sentit el sistema pal·lia el problema incorporant al model de sufixos tantes seqüències complexes com sigui possible, seqüències que sempre prevalen sobre l'opció d'un sufix simple. El model estricte d'infixos s'aplica, però, després dels sufixos per fer minvar les possibles confusions. Més precisions sobre les interferències concretes entre sufixos i infixos es troben més avall, en la descripció dels models.

2. L'ordre d'aplicació dels models és el següent:

Seguint criteris de Cabré i Rigau (1986), segons els quals en primer lloc es donen els processos relatius a les arrels (composició), les quals es modifiquen si convé més tard en l'aplicació d'altres processos morfològics, combinat amb l'anterior sobre el domini de l'element de la dreta, l'ordre d'aplicació no pot ser altre que el següent:

1r Co-radicals.

2n Sufixos i Infixos.

3r Prefixos.

D'altra banda aquest sistema coincideix amb el criteri pràctic d'iniciar la recerca pels elements més idiosincràtics a fi d'eliminar possibilitats de confusió de formants per coincidència casual.

3. En relació als processos de formació de mots.

Com ja s'ha defensat en els capítols precedents el funcionament formal dels processos de flexió i sufixació és idèntic. En aquest sentit la recerca i segmentació de formants derivatius i flexius és simultània, com si es tractés de la mateixa mena de formants.

Tots els criteris de funcionament exposats fins ara se supediten al sistema de verificació que xifra l'índex de confiança de les segmentacions automàtiques en funció dels elements documentats que reconeix a cada segmentació, especialment arrels i estructures morfològiques anomenades "patrons". Això vol dir que, per exemple, al diccionari de formants es poden trobar propostes de segmentació que no respectin el criteri de mantenir la integritat de l'element de la dreta. El partidor no es limita a una possibilitat de segmentació sinó que prova totes les possibles en funció de les llistes de formants anomenades models de què disposa, respectant i sense respectar els criteris al·ludits. Entre segmentacions amb el mateix índex de confiança, és a dir, que tenen igual quantitat i qualitat d'elements documentats a la mostra manual, tria aquella que respecta els criteris. Si, però, alguna que no respecta els criteris obté millor índex de confiança, és a dir, que té més elements documentats, tria aquesta en detriment d'aquella que respectava els criteris. Es pot comprovar en el diccionari que els millors índexs de confiança no són cap garantia automàtica de correcció; en el futur, lligant amb la idea de "experimentació" que es dóna al diccionari, caldrà replantejar-se què ha de prevaler en la tria: l'índex de confiança, elements documentats reconeguts, o bé l'aplicació estricta de criteris de prioritat dels formants.

En el capítol segon, dedico un altre apartat a la descripció del partidor, on reprenc algunes d'aquestes qüestions tot connectant-les amb el detall de l'aplicació concreta. Per als objectius d'ara, cloc aquest apartat només fent esment del fet que el funcionament del partidor és coherent amb el que s'ha acceptat com a principi teòric de treball respecte dels processos de formació de mots, i en això troba el principal referent teòric; i que bona part d'aquesta justificació teòrica es troba en els models. Tot seguit n'inicio la descripció.

NOTES

{1} En l'estadi teòric en què sóc ara, faig una descripció quasi d'intencions. A la pràctica, els mots revisats manualment han estat la meitat aproximada del diccionari i l'objectiu futur és el de completar aquesta revisió manual. Òbviament, el sistema és capaç de segmentar més del 90% d'aquests mots tractats manualment, és a dir que no es tracta de mots "no resolubles" pel sistema. De fet, molts ho eren en fases anteriors d'evolució del sistema i ha estat justament de llur tractament manual que s'ha pogut evolucionar el programa fins a saber-los obtenir. En aquest sentit faig un primer esment de la recursivitat exhaustiva amb què s'han revisat els mateixos materials després de cada nou assaig de segmentació automàtica. En el segon capítol, de la praxi, preciso totes les qüestions referents al treball de camp estricte. (retorn)

{2} Més avall tracto d'aquesta preponderància general de l'element situat a la dreta, arran de diverses qüestions. (retorn)

Per comentaris i observacions, poseu-vos en contacte amb Antoni Jaume Farriols (o amb Lluís de Yzaguirre)
Institut Universitari de Lingüística Aplicada (IULA)