Diccionari de formants

           La Rambla 30-32. 08071 Barcelona .
           Telèfon 542 23 22 . FAX 542 23 21. e-mail: iula@grup.upf.es

2.4.2.1. Generalitats

Els models són cinc en total: de sufixos, infixos, prefixos, co-radicals inicials i co-radicals finals. Com els seus noms indiquen, en principi, són llistes que contenen les diverses menes de formants esmentats, i tenen pretensions d'esdevenir individualment força completes, especialment les d'afixos. La seva funció es resumeix a esdevenir el catàleg de formes de què el partidor disposa per a comparar les seqüències inicials, medials i finals de cada mot. Després de la comparació, si n'ha reconegut alguna part, en calca la demarcació sobre el mot. P.ex. la terminació i l'inici, per aquest ordre, del mot desmoralitzar,v es compara amb les llistes primer de sufixos, després d'infixos i finalment de prefixos. Al model de sufixos el partidor llegeix: si trobes ar,v final, segmenta }ar,{1} i fa desmoralitz}ar. Al model d'infixos troba l'ordre: si trobes itz abans de }, segmenta }itz, i fa desmoral}itz}ar. Com que el procés és recursiu, també hi llegeix: si trobes al abans de }, segmenta }al, i fa desmor}al}itz}ar. Finalment al model de prefixos llegeix: si trobes des inicial, segmenta des{, i fa des{mor}al}itz}ar.{2} Els models, malgrat l'exemple precedent, no duen ordres en registre lingüístic, ja que la informació hi apareix codificada, és a dir, sufixos: AR],»AR]V; infixos: ITZ»,»ITZ), etc.; prefixos: [DES,[DES«, on el que hi ha abans de la coma és el segment íntegre i el context a reconèixer en la lectura del mot a segmentar, i el que hi ha al darrere és la segmentació que proposa el model.

Les funcions elementals de cada model en el procés de segmentació són en principi òbvies:

- el model de co-radicals finals reconeix terminacions, amb sufixos o no, que incloguin radicals de tipus culte: reconeix #GRAF»I»A a radiografia per fer radio+graf}i}a.

- el model de co-radicals inicials reconeix inicis, amb prefixos o no i/o amb sufixos o no, que incloguin radicals de tipus culte: reconeix DES«HIDR»O# a deshidrogen}a}nt per fer des{hidr}o+gen}a}nt.

- el model de sufixos reconeix terminacions afixals d'un o diversos sufixos, és a dir, amb seqüències finals complexes de sufixos: reconeix »A»CI/O, a vocació per fer voc}a}ció.

- el model d'infixos reconeix un o diversos infixos previs a un o diversos sufixos ja detectats en el model de sufixos: reconeix »ION» a flexion}ar per fer flex}ion}ar.

- el model de prefixos reconeix inicis afixals d'un o diversos prefixos: reconeix PRE« a preven}ir per fer pre{ven}ir.

Val a dir que el reconeixement d'un determinat formant depèn del fet que la demarcació proposada no col·lisioni amb d'altres marques ja introduïdes pels models que hagin actuat en primer lloc, segons l'ordre i prevalències descrits a l'apartat precedent, o fins i tot per alguna forma del mateix model detectada abans que una altra. Per exemple, si el mot mercader rep des del model de sufixos la segmentació merc}a}der, el demarcador } entre la a i la d impedirà que reconegui ja un possible infix ad per a fer una terminació }ad}er. Tot això en relació a un mateix intent de segmentació sobre un mot, sense perjudici, per tant, dels múltiples altres intents que com s'ha dit el partidor sempre prova de fer per aconseguir la segmentació òptima en relació als requisits dels índexs de confiança.

La constitució d'un model d'afixos és en essència molt simple: s'hi poden trobar formants afixals corresponents al tipus concret del model (sufixos, infixos o prefixos, amb les consideracions a bastament esmentades sobre sufixos i infixos) de manera aïllada, solts, o combinats amb d'altres formants de la mateixa mena. Les formes simples de cada model provenen majorment de les llistes formals, mentre que les complexes provenen més sovint de l'extracció de seqüències constants de les mostres treballades manualment. Mentre que les formes simples obtingudes del treball empíric són raríssimes tant per la troballa en si com per la naturalesa de les formes (-egm-a, òst-ic), les formes complexes aportades des de les llistes teòriques són poques però molt ben documentades.

En definitiva, aquest plantejament d'absorció de seqüències en els models fa que, respecte de la teoria estricta i al títol de cada model, es transgredeixin els principis de restricció d'entrada de les formes als models. Això és:

a) El model de sufixos conté múltiples infixos: »I»ES»A o »I»AL»ISM»E.

b) El model de prefixos, teoria en mà, també conté infixos: ANTI«SUB« o A«CON«.

c) El model d'infixos és l'únic que conté únicament infixos.

d) El model de co-radicals finals conté sufixos i infixos: #CENTR»ISM»E o #DACT»ÍL»I»A

e) El model de co-radicals inicials conté sufixos, infixos i prefixos: A«CROM»AT»O# o PER«HIDR»O#.

Aquesta és la mena de transgressions que el plantejament pràctic està obligat a fer. L'aparent contradicció és resol fàcilment si es flexibilitza la interpretació dels títols de cada model i es convé que es tracta amb modalitats de terminació i d'inici de mots, substancialment lligades a les categories esmentades, però no estrictament; potser hauria estat més ajustat etiquetar els models com: terminacions 1, terminacions 2, etc., però segurament també hauria estat massa abstracte i menys entenedor. D'altra banda el que cal prioritzar són la mena de marques que introdueixen en la segmentació dels mots; aquestes sí que reflecteixen estrictament la categoria dels formants demarcats: sufix sempre després de » i abans de ], infix sempre abans de » i després de », etc.

Un dels tractaments més pragmàtics l'han sofert els models de sufixos i infixos. Alguns infixos passen indiscriminadament d'un model a l'altre, o es repeteixen, en funció de criteris de rendibilitat. El model d'infixos ha hagut de renunciar a les formes més breus (una lletra, que fins les darreres evolucions n'eren dues) procedents de la llista formal per evitar massa confusions (segmentacions per excés) en l'interior dels mots. Sovint alguns infixos han d'aparèixer integrats en cadenes constants al model de sufixos.

Incidint en això darrer, un dels problemes fonamentals d'un sistema de models per excés, vast, com aquest, és el ja esmentat perill constant que el partidor reconegui formants tipificats als models per pura coincidència casual amb segments d'un mot en concret, és a dir, que es confongui. Les fases inicials d'aquest projecte treballaven amb models que excloïen les formes amb les quals es documentava, o simplement es preveia, un determinat nivell de possibles confusions. Finalment s'ha optat per un sistema que prima la potencialitat en detriment de la precisió concreta, al qual s'ha dotat de sistemes de verificació considerablement potents que alerten el sistema davant la documentació de determinades seqüències considerades com a segures: les arrels documentades i els patrons documentats, sobretot.

L'evolució de tots els models no ha estat la mateixa, per això els dedico subapartats independents tot seguit. Tot i això, sí que es pot parlar d'algunes fases generals per les quals han passat tots en graus diversos d'optimització. Descric succintament les més importants que serviran de referència per al tractament individual de cada model.

El punt d'arrencada dels models d'aquesta tesi són els numerats com a 10. Els models 06, utilitzats a Farriols (1993) es van desestimar com a fonament estricte d'arrencada donada l'evolució dràstica dels criteris de segmentació des d'aquell treball a aquest, la qual cosa canvia moltíssim la fesomia dels models quantitativament, i qualitativa, és a dir, de les segmentacions de les formes complexes que inclouen. Malgrat aquesta reconstrucció des de l'origen teòric, els models 10 també s'han beneficiat de l'experiència dels 06. En general, l'evolució dels 06 al 10 es pot resumir en les següents qüestions, algunes ja esmentades en relació al procediment d'anàlisi (ap. 2.3.1, 1a fase manual):

a) Es refà de zero, ampliant amb més formes i noves fonts, la llista d'origen teòric.

b) La nova llista formal es refon amb l'antic model 06, que incloïa formes complexes extretes de la primera segmentació manual de la lletra A a Farriols (1993), tot verificant per a cada forma l'aplicació dels nous criteris de segmentació extrema, de vocals, etc.

c) Es creen els models de co-radicals inicials i finals amb formants de tipus culte de categories majors (substantius, adjectius i verbs) però de distribució travada, com un afix, que els models 06 incloïen, respectivament, als prefixos i sufixos. Alhora se'ls segmenta amb marques que els defineixen com a radicals i no pas com a afixos, també a diferència dels models 06. Aquestes formes provenen de llistes preexistents que el seu dia es van incloure als models de prefixos i sufixos.

d) Es passa a utilitzar la categoria gramatical dels mots com a restricció en l'aplicació de la segmentació dels mots, per tant cada sufix del model incorpora informació sobre la o les categories gramaticals que pot derivar. Es revisen les formes rebutjades al model 06 per confusionàries i que amb aquesta restricció deixen de ser-ho, i s'introdueixen al model 10.

e) S'ha creat el model de prefixos des d'una llista formal, com la de sufixos i infixos, (els models 06 treballaven amb una de funcional preexistent), a banda de les aportacions en seqüències inicials de la lletra A.

Com es veu aquestes evolucions dels models ho són de plantejament general, i en particular d'algun model concret.

El diccionari de formants, pel que fa als mots segmentats automàticament amb el partidor i els models, s'ha obtingut de la versió 12 d'aquests models, versió sorgida de les darreres revisions manuals de mots problemàtics. La versió 11 actualitza algunes qüestions de la 10 sense representar cap canvi essencial i esdevé sobretot un enriquiment considerable de formes procedents de les mostres tractades manualment. Algunes qüestions com les següents:

a) Com ja es va fer als 06, als 11 s'hi inclouen totes les seqüències afixals constants detectades en la nova verificació manual de la lletra A, és a dir, de la darrera segmentació amb els darrers criteris que presenta aquesta tesi, molt més potents respecte del reconeixement de formes que els aplicats per a la primera segmentació a Farriols (1993).

b) Es preveu el sistema de verificació d'arrels i patrons i per tant, a diferència dels 10, no s'exclouen les formes, tant provinents de la teoria com de la lletra A, que esdevenen confusionàries. És a dir, es creen uns models per excés capaços de localitzar la majoria de formants afixals del català, fins i tot els molt minoritaris i altament confusionaris.

c) Es completen els models de co-radicals amb aportacions del buidatge de llistes d'origen bibliogràfic; també s'hi introdueixen formes localitzades a la passada manual de la lletra A. Tot plegat quintuplica la quantitat de co-radicals inicials i duplica els finals.

d) S'admet també com a novetat que un mateix infix aparegui alhora als models de sufixos i infixos; al primer combinat en seqüències finals constants, al segon solt o amb d'altres infixos. Per a això s'ha corregit el partidor per evitar de posar dues marques seguides (}}) en reconèixer el mateix segment, primer al model dels sufixos i després al dels infixos.

Els darrers models (12) i els futurs models: l'evolució futura del model hauria de convertir el partidor en un autèntic analitzador morfològic capaç de discriminar qualsevol formant independent sense confondre's. Ara mateix, en estar dotat de models tan explícits quant a seqüències complexes descrites íntegrament, no analitza tant, com compara. Des de la perspectiva que té el doctorand en aquest estadi del projecte, això passa per dues condicions indispensables: 1a disposar d'uns fitxers de filtres amplíssims. A la pràctica, doncs, d'un diccionari d'arrels molt complet, que si no desactivava l'actuació del partidor, almenys sí que n'avisés, com ja fa ara, de la versemblança de les propostes. 2a El desmembrament automàtic de totes les seqüències complexes dels models per a constituir models de formes simples, lliures per a combinar-se amb qualsevol altre formant respectant únicament els contextos d'aparició (inicials, medials i finals). És a dir, uns models amb menys quantitat de formants, i més simples, però amb majors possibilitats de combinació. Els darrerament usats (12), ja inicien aquesta tendència a la individualització de formants beneficiant-se dels darrers avenços dels sistemes de verificació de segmentacions. Concretament, el model de sufixos s'ha reduït a la meitat a base d'augmentar l'inventari d'infixos, la qual cosa permet eliminar seqüències completes del model de sufixos.

NOTES

{1} Recupero per als exemples d'aquest apartat i els següents el sistema de notació definitivament utilitzat per a la presentació del diccionari, excepte per a al•lusions directes als models que presento en el format de treball: vegi's l'apartat 2.4.2.3) (retorn)

{2} He simplificat deliberadament la descripció del procés per a fer més entenedor l'exemple. (retorn)

Per comentaris i observacions, poseu-vos en contacte amb Antoni Jaume Farriols (o amb Lluís de Yzaguirre)
Institut Universitari de Lingüística Aplicada (IULA)