La Rambla 30-32. 08071 Barcelona . 
           Telèfon 542 23 22 . FAX 542 23 21. e-mail: iula@grup.upf.es

CONCLUSIONS FINALS

Una part important de les conclusions, objectius de futur, i d'altres qüestions de tipus terminal sobre el treball, han anat quedant palesos en l'exposició dels aspectes particulars a què fan referència. En aquests darrers mots del treball voldria presentar-ne una síntesi dels principals tot agrupant-los, amb el denominador comú de pertànyer tots a l'àmbit de l'anàlisi del treball, tant pel que fa als objectius futurs, com a l'avaluació de l'anàlisi efectivament realitzada.

En primer lloc, sobre el plantejament teòric, vull incidir en la naturalesa aplicada del treball, i per tant en el paper absolutament funcional que hi fa la teoria. S'ha estructurat una teoria específica per al treball, segurament en bona part només aplicable a aquest treball. S'ha fet prevaler com a sistema la idea d'anar avançant informació sobre la naturalesa del treball pràctic, que condiciona en tot moment aquest plantejament. Totes les justificacions i decisions, han anat encaminades a donar suport a l'actuació empírica feta sobre els mots, tant des del tractament automàtic del corpus, com des del plantejament de correcció i segmentació manual.

En segon lloc, sobre la descripció de l'anàlisi pràctica duta a terme, s'ha mirat de fer una presentació aclaridora i ordenada en dos sentits: el de donar la idea i la dimensió exacta del treball pràctic, i el de completar aspectes de fonament encara teòric específic de formes individuals o procediments pràctics menors.

La necessària estructuració del treball exigeix posar el límit en algun punt i establir clarament els criteris d'organització i presentació de la informació. Aquí s'ha escollit la clàssica dicotomia teoria-pràctica. En tot cas, la recurrència d'algunes qüestions ha obligat a unes certes dosis de reiteració, així com a difuminar la frontera entre la teoria i l'aplicació.

Segueixo amb la valoració dels dos aspectes següents i interrelacionats: Revisió manual del major nombre possible de lexemes, i optimització del sistema de segmentació automàtica:

La idea de disposar d'un inventari prou complet d'arrels verificades per al funcionament dels mecanismes de comprovació de les segmentacions automàtiques, ha empès, com ja s'ha dit durant el treball, a multiplicar fins on ha estat possible la revisió manual de lexemes. L'objectiu del projecte global, en aquest tema, ha passat d'uns inicis en què es pretén obtenir la generalització del tractament automàtic des de l'anàlisi de mostres, a un altre objectiu molt més ambiciós que vol absorbir des de l'anàlisi manual tot el corpus, això, amb la finalitat d'obligar el sistema a obtenir uns resultats al més semblants possibles, per no dir idèntics, a aquells que es tenen verificats manualment; i deixar el sistema en condicions per enfrontar-se al tractament de llistes obertes de lexemes, i fins i tot de textos, amb una probabilitat molt alta d'encert. La idea es fonamenta a aconseguir una descripció molt precisa dels processos i els formants que intervenen efectivament en la formació dels mots en català. D'aquesta descripció, s'obté la informació que va millorant el programa, normalment ampliant, però alhora retallant en alguns aspectes, la potència del sistema en relació a les necessitats concretes dels mots.

L'estadi, en relació a tot això que dic, que es presenta amb aquest treball, es pot considerar òptim en diversos sentits:

- Primer, perquè la revisió manual d'aproximadament la meitat del corpus, es pot considerar una fita ja prou important de per si atesa la limitació que suposa el treball d'una sola persona.

- Segon, perquè aquesta primera meitat de la segmentació ha obligat a l'establiment d'unes bases teòriques sobre els límits dels formants i dels processos de formació de mots, aspecte necessari per al qual ja no caldrà cap més despesa, més enllà de modificacions menors de criteri que la mateixa anàlisi en el futur pugui suggerir.

- Tercer, perquè el procediment de seleccionar les mostres tractades a partir de casuístiques concretes, és a dir, a partir de la conflictivitat de cada grup per al tractament automàtic, va limitant el corpus restant als mots de formació més regular, que són aquells per als quals el sistema de segmentació automàtica hauria de ser més efectiu, tenint en compte que aquest sistema s'ha pensat i es pensa com un analitzador dels fenòmens morfològics més generalitzats. Òbviament, encara queden molts mots especials en la part tractada només automàticament, mots que solen donar segmentacions automàtiques inacceptables com es pot veure al diccionari adjunt, i caldrà continuar l'anàlisi manual amb aquesta estratègia de selecció deliberada de mostres específiques marcades per algun concepte especial.

- I quart, perquè l'anàlisi ha demostrat que en la meitat del corpus tractada manualment, i de la qual s'ha obtingut la informació específica, tant de processos com de formants, que fa funcionar l'actual partidor, aquest obté un altíssim nivell d'encert xifrat en més del 94% de segmentacions automàtiques en què sap obtenir la mateixa segmentació de la proposta manual. En conseqüència, al final del tractament manual de tot el corpus, i tenint en compte que seguiran apareixent noves constants a explotar en la formació dels mots, el partidor pot esdevenir realment una eina molt afinada, sense excessius riscos d'error.

D'altres objectius més específics aconseguits totalment o parcialment, són els següents:

- Després del buidatge de les mostres tractades manualment, crec que ja es disposa d'un inventari molt complet dels finals de mots derivats realment rendibles en català.

- Alhora, també s'ha aconseguit un inventari suficient d'inicis derivats de mots, tot i que en aquest camp cal seguir buidant d'altres corpus més heterogenis.

- Es disposa també d'un inventari considerable de co-radicals, amb especial rendiment dels finals, malgrat contenir menys formants diferents.

- S'ha aconseguit una dinàmica de funcionament del partidor molt flexible, i per tant l'adopció de canvis de plantejament no ha de suposar un cost excessiu en l'adaptació del programa: realment no ha estat fàcil escollir la modalitat final de funcionament per a aplicar a tot el corpus.

- S'han fixat, ni que sigui arbitràriament, els límits dels principals fenòmens morfològics, així com de la terminologia utilitzada, amb la finalitat d'operar en l'anàlisi sobre conceptes unívocs.

- S'han donat mostres que exemplifiquen la rendibilitat lingüística tant del diccionari com del partidor i dels productes lingüístics que ofereix, és a dir, algunes explotacions del material obtingut (segmentacions, patrons, etc.).

I un llarg etcètera de qüestions encara d'abast més limitat. Tot plegat ha volgut presentar-se com un treball útil en el context de la lingüística aplicada i de la llengua en general, no pas com un macro- exercici sense transcedència real. En aquest sentit, l'avaluació succinta dels resultats, així com dels objectius de futur dibuixa un panorama prou encoratjador. Alhora, l'acollida ja esmentada de tot el projecte en l'IULA de la UPF hauria de garantir la millora dels resultats, la finalització del tractament, i la continuïtat d'algunes de les iniciatives que aquesta tesi ha posat damunt la taula, com la categorització dels radicals genèrics dels patrons.

El diccionari que es presenta mostra l'èxit general del plantejament xifrat en segmentacions correctes o amb índexs de confiança alts. D'altra banda es pot considerar una llista força exhaustiva dels formants del català, objectiu a obtenir també. És evident, però, que també manifesta clarament tota una sèrie de limitacions que es palesen en segmentacions estranyes o inadequades en alguns mots per culpa d'un sistema de segmentació automàtica que és massa potent per a la limitació dels filtres idiosincràtics que se li poden posar avui. Alhora, l'error humà es fa evident també en la part tractada manualment.

En relació a totes aquestes limitacions que al·ludia, especialment a les primeres, les del tractament automàtic, neixen algunes hipòtesis de treball futur que rectifiquen, o simplement matisen, l'actual plantejament, tot preveient una hipotètica millora dels resultats de la segmentació, sobretot automàtica, en el supòsit que s'apliquessin sistemàticament. Algunes suposen només el retorn a plantejaments anteriors desestimats per a la presentació del diccionari en aquesta tesi, d'altres es poden considerar innovacions. Tots s'hauran de posar a prova sense garanties d'èxit, i si no s'hi han posat ja en l'abast d'aquest mateix paper, és perquè el cost de cada aplicació del partidor a tot el corpus és molt alt, i per al treball ha calgut fer opcions de tractament en funció d'hipòtesis de resultats sobre mostres menors, per la impossibilitat material i temporal de provar-les totes sobre tot el corpus. Tot i pensar que s'ha optat per les solucions més rendibles en funció de les dades existents i de les possibilitats reals del programa, res definitiu, atès que manca la meitat del corpus per verificar, no permet descartar la possibilitat que d'altres modalitats de funcionament, o simplement d'altres condicionaments al sistema actual, com els que esmento tot seguit, no haurien obtingut millors resultats en la part tractada exclusivament de manera automàtica; o simplement, que tot i haver escollit la millor possibilitat en funció de les dades disponibles, els resultats amb el que queda de diccionari puguin millorar amb algun d'aquests canvis.

a) Atès que sovint entre les segmentacions inacceptables es troba la identificació per error d'algun co-radical, potser caldrà verificar la possibilitat que millorin les segmentacions si les arrels que actuen de filtre, el diccionari d'arrels verificades, exclouen aquelles que són co- radicals.

b) Per la mateixa lògica, i donat el buidatge que ha suposat l'extracció com a mostres dels mots amb co-radicals dels models, cal contemplar la possibilitat que el sistema no utilitzi com a models de segmentació els de co-radicals. És a dir, que es limiti la segmentació als afixos, potser deixant els llistats de co-radicals com a tractament paral·lel per a la localització d'hipotètics cultismes, no necessàriament reals per tant.

c) En el futur, l'adopció de la categoria gramatical que el model de sufixos ja estipula com a filtre de les segmentacions, s'hauria de reincorporar al plantejament, ja que malgrat la gran polivalència de la majoria de sufixos, és un criteri discriminador més que cal rendibilitzar per evitar segmentacions no procedents.

d) Una hipòtesi de funcionament que no s'ha pogut verificar i que caldrà provar en el futur més immediat és el d'anteposar els criteris originals de segmentació (prevalència de l'element de la dreta, ordenació en l'aplicació dels models, etc.) al reconeixement d'arrels i patrons, o sigui, a l'índex de confiança. És a dir, com a primera opció de segmentació d'un mot per a extreure els seus formants i incloure'ls al diccionari, triar l'obtinguda del respecte al major nombre possible dels criteris, i si n'hi ha més d'una en les mateixes condicions, triar la que obtingui un millor índex de confiança, la que reconeix més elements documentats. Actualment la preferència de les segmentacions funciona a la inversa: s'escull la de millor índex de confiança, i si n'hi ha més d'una, la que respecta més criteris.

e) Abans de continuar explotant manualment el corpus i incorporant noves informacions idiosincràtiques al procés automàtic, caldrà valorar la transcendència del fet plausible que la segmentació automàtica dels mots tractats manualment és correcta, coincideix amb la manual, en la quasi totalitat dels casos, però a la vista d'una revisió dels mots que només han rebut tractament automàtic, la intuïció diu que les segmentacions correctes no van encara gaire més enllà de la meitat, amb grans encerts i grans errors. I tot això, malgrat els índexs de confiança obtinguts, positius quant a la identificació d'arrels, patrons, o totes dues coses, en la pràctica totalitat dels mots. De fet, malgrat l'optimisme del resultat i el bon aspecte de bona part de les segmentacions automàtiques, he de constatar un cert sentiment d'insatisfacció pel resultat que es copsa de llegir el diccionari en relació a les segmentacions obtingudes de manera exlusivament automàtica.

f) Lligat amb el que exposava ara, potser alguns filtres ja desestimats en la darrera versió (impedir la localització lliure d'infixos de dues lletres, augmentar la longitud mínima admissible del radical, etc.), a causa del desenvolupament del partidor i la confiança amb el sistema de verificació de l'índex de confiança, encara haurien calgut per a limitar la potència del sistema, ja que no es disposa encara, per exemple, d'un diccionari d'arrels comprovades prou exhaustiu.

Ultra la verificació d'aquesta mena de qüestions, i de les actuacions empíriques que se'n desprenguin, diversos objectius de futur estricte es mouen encara en el terreny del dubte i de l'especulació, i caldrà que es cohesionin amb el plantejament teòric, o bé que l'acabin de definir. Per exemple, la diversos cops al·ludida necessitat de convertir el partidor en un autèntic analitzador morfològic (desmuntant les seqüències complexes dels models d'afixos, afavorint la lliure combinatòria dels afixos tot respectant, això sí, llurs contextos d'aparició, és a dir, impulsar un sistema capaç de resoldre totes les potencials noves derivacions) topa amb una possibilitat pràcticament molt recomanable, sobretot quan es compti amb la segmentació manual de tot el diccionari: substituir els actuals models d'afixos pel conjunt dels patrons documentats, que mostrarien la combinatòria real de la derivació en català, renunciant, però, al tractament d'estructures derivatives no documentades, que almenys quedarien en evidència en no poder-se tractar. Com se sap, el sistema actual és un híbrid: treballa amb els models d'afixos que contenen, a banda de la quasi totalitat d'afixos solts, lliures per a qualsevol combinació, també algunes seqüències ja combinades, i sovint, donada la seva major longitud, aquestes tenen preferència en la localització sobre el afixos solts més breus; tot plegat sumat al fet que, un cop donada la segmentació pel programa, el reconeixement d'un patró documentat prioritza unes possibles segmentacions sobre les altres. Segurament el sistema haurà de mantenir-se durant força temps encara en aquest estat d'hibridació i fins i tot és possible que es pugui aproximar als dos extrems (desmuntatge total de seqüències i llista exhaustiva de patrons) sense necessitat que s'excloguin els tractaments: el respecte a la teoria adoptada empeny cap a la consecució de l'analitzador esmentat, i la lògica de les possibilitats reals de la derivació cap a millorar tant com sigui possible l'inventari de patrons.

En relació a l'aspecte general que ofereix el diccionari de formants, és a dir, les segmentacions que s'hi presenten dels lexemes del corpus, he d'admetre que no es pot fer una valoració unànimement positiva i fins es pot expressar una certa insatisfacció, com ja he dit, en alguns aspectes, especialment dels mots tractats només automàticament. Per exemple massa sovint als mots simples se'ls reconeix una estructura complexa basada en la localització de radicals d'origen culte (co-radicals) realment inexistents, cosa a la qual contribueix el fet que les fonts dels llistats de mots tractats n'incorporen molts de tènics o exòtics que sovint se surten dels recursos normals del català. Malgrat el filtre que suposen les arrels i els patrons documentats, la identificació per error de formants, arrels o afixos, en un mot on en realitat no existeixen és força evident. Les interferències en el reconeixement de determinats formants no s'ha resolt del tot satisfactòriament (-der, ...d-er, etc.). En general el gran problema del sistema, malgrat els resultats bàsicament positius i l'evolució dràstica per a solucionar-lo, o com a poc, pal·liar-lo, és que la coincidència parcial en la forma de dos formants, especialment quan un de més breu és totalment idèntic a part d'un altre de menys breu, provoqui l'aïllament equivocat de la seqüència completa del formant més curt en l'interior del més llarg.

De les limitacions en el treball manual, també n'han quedat vestigis al diccionari en forma d'errors palesos. Més enllà que es pugui discrepar dels criteris de segmentació adoptats, pel simple fet de tractar-se d'una feina manual i individual sempre queden mostres d'errors mecànics.

En definitiva, enunciat l'objectiu principal d'aquest treball en els termes següents: extreure de la revisió manual dels mots prou informació general i idiosincràtica sobre la formació d'aquests mots per a aconseguir que el programa funcioni, segmenti, al millor possible, tot explotant en termes de regles i informació idiosincràtica aquesta informació obtinguda; així com obtenir la segmentació mateixa dels mots tractats manualment, es pot dir que l'objectiu ha estat assolit en totes dues vessants. El sistema automàtic funciona de manera excel·lent sobre les mostres tractades manualment, acceptablement sobre la resta del diccionari, i el corpus tractat manualment s'aproxima a la meitat del diccionari. La millora dels resultats en relació a aquests objectius generals queda, com he insistit diverses vegades, fora de l'abast del doctorand, i la lògica científica aconsella de traslladar el projecte a l'àmbit del treball en equip.

"No sóc jo qui n'hagi de fer cap judici, però espero que em serà permès de dir que el llibre estava destinat a prestar un servei no negligible"{1}


NOTES

{1} Badia (1981), pàg. xi, dins l'advertiment preliminar, tot parlant la 1a edició del seu llibre. (retorn)


Per comentaris i observacions, poseu-vos en contacte amb Antoni Jaume Farriols (o amb Lluís de Yzaguirre)
Institut Universitari de Lingüística Aplicada (IULA)