La Rambla 30-32. 08071 Barcelona . 
           Telèfon 542 23 22 . FAX 542 23 21. e-mail: iula@grup.upf.es

2. DESCRIPCIÓ DEL PROJECTE EMPÍRIC

Preàmbul:

Al segon bloc d'aquesta tesi vull presentar, amb tot el detall possible, la feina pràctica duta a terme. En aquest apartat preval la pel·lícula dels fets, la mostra, l'exemple, la descripció del treball empíric: evolució, dades, incidències, exemples, materials, treballs laterals i parcials, relació manual-automàtic, i estadístiques. En resum, tot allò que explica el diccionari de formants adjunt.

L'objectiu original d'aquest treball era aconseguir un diccionari de formants obtinguts tots de la segmentació morfològica automàtica dels mots d'un corpus d'uns 68000 registres. Per a aconseguir-ne una segmentació correcta i coherent amb els criteris teòrics adoptats, s'optà per l'elaboració d'un algorisme de segmentació, objectiu també en si mateix, que treballava amb models d'afixos. Aquests models es perfeccionaven i aprofundien a partir de l'experiència de revisar manualment la segmentació de sèries parcials de mots, seleccionades aleatòriament, uns cops, i a partir de restriccions diverses, d'altres. L'evolució de la feina ha mutat bona part d'aquests objectius, sobretot en un sentit: l'augment de les mostres tractades manualment o semi-manualment ha anat fent atractiva la idea de crear un diccionari d'arrels documentades amb què l'algorisme de segmentació pot verificar l'adequació real, o només potencial, de les solucions de segmentació que dóna. En definitiva, doncs, els objectius, assolits en el grau que es descriu més avall, són ara els d'aconseguir la verificació manual del major nombre possible de mots del diccionari font, que el partidor sàpiga obtenir al seu torn segmentacions idèntiques a les proposades manualment en el major nombre possible de casos, i que la resta dels mots es beneficiïn d'aquesta recerca en concepte de filtre als resultats clarament anòmals. Amb tot s'obté l'evolució dels models d'afixos i radicals que permeten aconseguir una segmentació automàtica versemblant en un percentatge molt alt d'entrades.

Les expectatives creades a l'entorn de la revisió manual s'han acomplert sobradament, tant quantitativament (més de 30.000 mots), com qualitativament. La capacitat del partidor per a generar segmentacions idèntiques a les proposades manualment depassa sobradament el 90%, i les mostres revisades visualment en relació a mots no tractats manualment ofereixen un aspecte prou satisfactori com es veurà, malgrat els també evidents desajustaments i errors flagrants encara.

Tots aquests objectius s'han d'entendre en termes relatius, i és per això que l'èxit no rau en l'absoluta perfecció sinó en l'evolució constant, i per tant la detecció d'errors o discrepàncies en el diccionari, en relació al criteri de segmentació adoptat aquí sobre un mot en concret, només palesa el fet que el projecte roman obert. En aquest sentit la feina s'ha clos oficialment per a la redacció d'aquesta tesi però òbviament ha de continuar tan bon punt com hagi superat aquest escull. És per tot plegat que, ultra les limitacions d'una tasca individual en relació a uns corpus tan grans, l'objectiu no ha estat ni la totalitat dels mots, ni la infal·libilitat del sistema, i s'ha aturat en un punt d'òptima relació entre la feina feta i els resultats obtinguts. En principi, les futures evolucions ja no permetran la tasca individualitzada que he dut a terme fins ara amb la finalitat de mantenir-me dins dels límits de l'autoria que exigeix la presentació acadèmica com a tesi doctoral.{1}(...)


NOTES

{1} Em cal en aquest punt d'establir un primer avís sobre la interrelació home-màquina en el treball. En aquest preàmbul cal deixar molt clar que l'objectiu ara per ara és filològic i que la informàtica hi fa un paper més funcional. És cert que també s'ha plantejat com a objectiu, i aconseguit bàsicament, la millora del partidor, però no ho és menys, de cert, que aquesta millora s'esdevé de la investigació lingüística sobre els mots i sobre els models. En tot cas, un aspecte sovint ha depès de l'altre: de les revisions manuals se n'han desprès millores del sistema automàtic, que aleshores ha generat nous materials més evolucionats per a noves recerques manuals. Quan hom té coneixement de les possibilitats de la informàtica dels grans ordinadors, veu en el present programa més un prototip artesanal, un exemple de viabilitat del sistema, de la idea, que no pas una eina en si mateix, tot i que en aquest treball hi ha actuat, d'eina. Al final d'aquest apartat, presento algunes explotacions informàtiques del material segmentat manualment amb una rendibilitat lingüística gens menystenible. (retorn)


Per comentaris i observacions, poseu-vos en contacte amb Antoni Jaume Farriols (o amb Lluís de Yzaguirre)
Institut Universitari de Lingüística Aplicada (IULA)