La Rambla 30-32. 08071 Barcelona . Telèfon 542 23 22 . FAX 542 23 21. e-mail: iula@grup.upf.es
S'ha connectat les revisions manuals amb el tractament automàtic com un procés recursiu: assajos automàtics suggereixen extraccions de mostres per a la revisió manual. Les revisions manuals suggereixen l'evolució del tractament automàtic. Al final, les mostres tractades manualment esdevenen eines de confrontació i filtre, i el tractament automàtic s'enriqueix de les restriccions descobertes manualment i s'optimitza amb l'eliminació de subcorpus idiosincràtics. Tot plegat amb un doble objectiu de present i de futur: principalment la segmentació manualment verificada del màxim de lexemes possibles per a l'obtenció d'un diccionari de formants al més afinat possible; i potser encara secundari en aquest treball concret, que no poc important, l'evolució del sistema automàtic de segmentació amb la finalitat d'aproximar-lo a l'ideal de ser capaç de segmentar els mots comuns reals i possibles de la llengua, aquells que s'obtenen o es poden obtenir de les regles derivatives bàsiques i regulars.
La realització d'aquest procés és infinitament més recursiva del que puc exemplificar aquí, ja que, de fet, per a una mateixa mostra de treball, fins i tot per a un mateix lexema, la concatenació de l'aplicació del programa i la posterior revisió manual dels resultats es repeteix moltíssimes vegades, després de cadascuna de les quals cal revisar els models de formants, les rutines del programa i la segmentació mateixa dels mots. Després de cada revisió milloren els tres aspectes: o bé s'enriqueixen els models de formants amb noves formes, o es perfeccionen modificant les propostes de segmentació interna, perquè no eren capaços de detectar els veritables formants d'un lexema o grup de lexemes; o bé es modifica el funcionament del partidor per tal d'arribar més eficaçment als resultats esperats, sobretot en concepte d'estalvi del temps d'execució; o bé es descobreix l'error d'una proposta manual de segmentació, o s'aïlla un cas excepcional que cal tractar fora del sistema regular perquè no respecta les regles de formació estàndard per a la seva forma i categoria. El procés només s'atura quan es considera que no es pot optimitzar més el resultat en funció dels mitjans actuals, o bé quan s'obté de ple el resultat desitjat.{1}
Ultra nombroses revisions menors de caire molt funcional que és materialment impossible de reproduir per limitacions tant d'espai, com de lògica generalització, com, de vegades, per pur oblit, les grans fases d'aquesta interrelació manual-automàtic són les següents:
Aquesta primera fase aglutina tot d'operacions independents amb una finalitat comuna: crear uns models de formants (afixos i radicals) per a la segmentació automàtica de tot el diccionari. Un element important és la darrera versió dels models de Farriols (1993), numerats 06. Faig a l'apartat específic dels models (2.4.2) una acurada descripció d'aquesta operació en cadascun dels models; ara descric breument les operacions generals i els principals criteris.
a) S'analitzen un a un tots els mots considerats rebutjos en aquell treball, és a dir, aquells que el programa segmentava per excés (reconeixent més formants que els reals, p.ex. a{f}ill}a}ment per a{fill}a}ment), i per defecte (deixant de reconèixer formants reals, p.ex. aiguar}ell}e}s per aigu}ar}ell}e}s). En relació a cada formant analitzat se'n decideix la inclusió als, o exclusió dels, diversos models atenent sobretot a criteris de rendibilitat.
b) Es revisen els models 06 tot segmentant novament molts formants, i seqüències constants de formants, en aplicar els criteris adoptats a la teoria sobre temes com l'aïllament de vocals finals, el reconeixement de nous formants, l'aplicació com a restricció de la categoria gramatical, etc.
c) S'inclouen als models totes les formes que no hi figuraven però que apareixen a les llistes teòriques que ja heu llegit.
d) Molt important pel canvi de filosofia que significa, i seguint també criteris teòrics sobre la consideració dels radicals cultes (co-radicals), s'extreuen dels models d'afixos tots els formants que poden ser considerats radicals a fi de crear-ne un model independent: dos de fet, un d'inicials, antigament amb els prefixos, i un de finals, antigament amb els sufixos.
e) Es duu a terme una investigació bibliogràfica paral·lela per a completar aquests darrers models de co-radicals inicials i finals.
En aquesta fase es revisen manualment, un a un, amb la verificació etimològica corresponent, els 7819 lexemes corresponents a la lletra A del diccionari. A fi d'evitar procediments "aviciats" en criteris superats, com a sistema empíric de treball es prescindeix de la segmentació manual presentada a Farriols (1993), i s'apliquen a ultrança els nous criteris de segmentació: els límits entre els processos de formació de mots, i la reconsideració de la tipologia dels formants (especialment els co-radicals), tots exposats al primer capítol. D'aquesta segmentació, els lexemes de la lletra A queden definitivament tractats, tret de correccions puntuals descobertes en aplicacions posteriors, i esdevenen el material d'extracció de tota mena de regularitats i materials. Per exemple: la majoria de les seqüències afixals documentades passen a completar els models d'afixos; la major part dels radicals cultes documentats s'inclouen directament als models de co-radicals, etc. En tot cas, donada la precisió manual del tractament d'aquesta primera mostra, s'ha aplicat severament la màxima numèrica sobre la probabilitat d'obtenció de noves formes en relació als percentatges de mostres analitzades, màxima documentada pel Dr. Joaquim Rafel:{2} adoptant les seves proporcions, almenys pel que fa a les terminacions, amb la lletra A hauria d'haver-se manifestat més del 70 % de la complexitat i la problemàtica. Al·ludiré més vedades aquest principi en endavant.
Les modificacions i evolucions dels models d'afixos descrites en les dues primeres fases generen uns nous models numerats 10. Aquests nous models provisionals s'apliquen per a la segmentació automàtica altra vegada de la lletra A que s'utilitza sempre com a mostra principal de treball. El partidor considera rebutjos tots aquells lexemes que no aconsegueix segmentar igual que la proposta manual esmentada a la 2a fase.
A partir de recerques formals usant un gestor de bases de dades, s'analitza tot el material tractat manualment amb la finalitat d'extreure noves formes i constants que permetin la creació d'una nova evolució dels models, numerats 11.
Es creen, doncs, els models 11 sobre la base dels 10 i la major part de la informació idiosincràtica d'afixos i radicals obtinguda de la revisió manual de la lletra A, i de l'anàlisi de tots i cadascun dels rebutjos obtinguts d'aplicar els models 10 a la mostra manual de la lletra A (més de 3000 lexemes). De tot, es decideix la rutina de funcionament del partidor per a l'aplicació provisional a la resta del diccionari: prioritat de reconeixement d'uns tipus de formants sobre d'altres, incorporació de filtres d'arrels comunes, etc.
Sorgeix un dubte important: cal fer una aplicació automàtica general amb els models 11 al diccionari complet, o bé extreure prèviament algunes mostres previsiblement conflictives. S'ajorna l'esmentada aplicació i s'opta per això segon, bàsicament, per defugir l'elaboració d'un partidor de solucions massa idiosincràtiques, és a dir, per afavorir-ne un funcionament correcte sobre els mots de formació més regular, i alhora generar més informació específica de mots concrets que serveixi per a introduir nous filtres al funcionament del partidor. S'extreuen automàticament, per tant, per comparació amb els models de co-radicals, tots els mots del diccionari en què es detecta la presència d'un o diversos co-radicals, inicials, medials o finals. També s'extreuen els mots iniciats amb seqüències de lletres coincidents amb les dels prefixos previsiblement més conflictius, de menys de 300 ocurrències. Algunes altres mostres menors extretes per a revisió manual es justifiquen a l'apartat següent (2.3.2).
Seguint amb rigor els mateixos criteris que per a la lletra A, es revisen manualment tots els mots d'aquestes mostres extretes, quasi 22000 paraules (que amb les darreres revisions depassaran les 25000). Una part important i majoritària es confirmen com a mots que contenen realment els co-radicals o prefixos detectats. La resta s'han seleccionat per coincidència casual entre els seus inicis i finals i els d'algun co-radical o prefix dels models. Aquests darrers, segmentats també, passen a engruixir el conjunt de mots "convencionals" revisats manualment i dels quals se'n pot extreure informació per a l'evolució dels models d'afixos. Totes aquestes revisions manuals parteixen d'una proposta prèvia fruit de l'aplicació del programa. En aquestes fases el tractament informàtic sovint és encertat, ni que sigui parcialment, i per tant en algunes ocasions la revisió es limita a una verificació de la proposta automàtica del partidor.
A partir de tot l'anterior, s'estipulen les restriccions definitives del funcionament del partidor, s'afinen amb detalls i correcció d'errors els models 12 i es fan les dues darreres operacions de caire automàtic:
a) L'extracció de tots els formants demarcats com a radicals en el conjunt dels mots tractats manualment a fi de crear un filtratge de fiabilitat, en funció del reconeixement d'aquestes arrels, en la segmentació dels prop de 40000 mots que encara no s'han revisat manualment.
b) Aplicar efectivament el darrer partidor amb els darrers models a tots aquests mots per a obtenir una segmentació automàtica de cada mot, o totes les possibles en funció de la morfologia del mot i de les possibilitats dels models. Alhora, en funció de la quantitat i qualitat dels formants reconeguts, es dóna un índex de confiança a les segmentacions proposades pel partidor. Vegi's en aquest sentit l'apartat dedicat al partidor, apartat 2.4.1.
Així doncs, es dóna per bona la segmentació dels mots revisats manualment i s'adopta la proposta automàtica dels mots no tractats manualment que ostentin els graus de fiabilitat més alts.{3} Vegi- se'n la descripció també a l'apartat 2.4.1. Malgrat tot, el diccionari presentat no és el resultat directe d'aquesta setena fase. Tot seguit n'exposo les raons.
Teòricament, la feina s'hauria de cloure en finalitzar la setena fase descrita. Malgrat això, com que el projecte ha continuat endavant, la presentació del diccionari s'ha beneficiat de darreres evolucions fruit també de les darreres revisions de mots i dels models.
a) La revisió anomenada radic-7
Com ja s'ha dit, l'algorisme de segmentació xifra amb un número l'índex de confiança de la segmentació que proposa. Ja s'ha dit també que els mots que reben un índex de confiança màxim (9) són aquells que, un cop segmentats, presenten una arrel documentada en algun mot de la mostra manual i alhora un patró també documentat. Els d'índex de confiança igual a 7 són aquells en què només s'ha documentat el patró, però l'arrel delimitada per eliminació dels afixos és inèdita en la mostra manual. La revisió ocular d'una llista important d'aquests darrers mots em posa davant de dues evidències: la primera, que l'aspecte general de segmentacions és bàsicament correcte, malgrat un nombre no menystenible de desajustaments; i la segona, que existeixen famílies de mots, amb la mateixa arrel, considerablement productives encara no documentades. Aleshores la deducció és immediata: si d'una família de mots segmentats tots automàticament amb ic = 7, se'n documenta manualment l'arrel tan sols en un, aquest mot s'incorpora a l'inventari de mots de revisió manual, l'arrel, en conseqüència, s'inclou a la llista d'arrels documentades, i per tant la resta de mots de la família troben reconeguda l'arrel i passen directament a obtenir un índex de confiança màxim (9: arrel i patró documentats). Com es veu, amb aquesta operació relativament senzilla s'assoleixen tres objectius importants en si mateixos: 1r augmentar la mostra de mots tractats manualment per aproximar-me a l'objectiu de verificar manualment tot el diccionari; 2n augmentar el diccionari d'arrels documentades amb què treballa el partidor fent-lo evidentment més potent i millorant el sistema de verificació de les segmentacions automàtiques; i 3r millorar els resultats estadístics sobre l'èxit de les segmentacions automàtiques, és a dir, augmentar el nombre de mots amb el màxim ic.
(...)
b) Anàlisi de rebutjos
Per als mots revisats manualment el programa també proposa solucions. Per afinar al màxim el sistema dins de les limitacions d'aquesta fase del projecte, tan sols queda l'avaluació de la quantitat i qualitat de les propostes discrepants manualment i automàticament, és a dir, cal constatar si el programa és capaç d'obtenir la proposta manual, la correcta. Evidentment, quan ho aconsegueix els dóna un índex de confiança màxim. Les darreres versions del partidor descrites a l'apartat 2.4.1. han ofert els següents resultats quant a rebutjos, és a dir, quant a mots que no aconsegueix segmentar igual que la proposta manual, o bé que, sabent-los segmentar, no els tria, en benefici d'alguna altra possible segmentació en què hi reconeix també l'arrel i els afixos documentats:
- al voltant d'uns 1500 mots, dels més de 33000 revisats manualment, no han pogut ser resolts pel partidor obtenint com a resultat la mateixa segmentació proposada manualment. Finalment aquesta xifra s'ha reduït fins a menys de 600 després de revisar-los un per un i adoptar algunes millores als models d'afixos i co-radicals. En resum els rebutjos són mots que el sistema, a partir de les llistes de què disposa de sufixos, infixos, prefixos, i co-radicals, no pot obtenir, ja sigui perquè la segmentació de la proposta manual ha delimitat en alguna d'aquestes categories algun formant inèdit als models, ja sigui perquè ha fet una combinació d'afixos inassolible des d'aquests models. Per exemple, del primer cas, un mot com filagarsa, segmentat manualment fil}ag}ars}a, no es pot obtenir ja que l'infix ars no és al model d'infixos, i a més no s'ha considerat convenient que hi fos, malgrat haver de renunciar a obtenir la segmentació d'aquest mot en concret. D'altres exemples són el prefix de ga{làx}i}a, o el sufix de camp}etx. Del segon cas, un mot com cordaïtàcia, segmentat manualment cord}a}ït}àc}i}a, no pot ser obtingut així pel partidor tot i que té tots els formants als models, però no els pot combinar correctament perquè l'infix ït (amb dièresi) no apareix solt al model d'infixos, amb la qual cosa no es pot localitzar lliurement, i encara que sí que apareix combinat amb algun altre final de mot concret al model de sufixos (}ït}a), la terminació completa d'aquest mot en concret (}a}ït}àc}i}a) tampoc no és al model.
(...)
NOTES
{1} Sense comptar el temps d'execució del programa, ni les hores dedicades a modificar-lo, ni les dedicades a l'evolució dels models, es pot calcular una mitjana de dedicació a la revisió global de cada lexema, en les diverses revisions per tant, d'aproximadament dos minuts (òbviament, la major o menor raresa o complexitat de cada lexema fa que la mínima verificació etimològica d'uns es compensi amb una exhaustiva investigació en d'altres). La multiplicació d'aquest temps pels més de 33.000 lexemes revisats ofereix un resultat força il•lustratiu de l'esforç que ha suposat l'elaboració d'aquest diccionari, només en concepte de revisió manual de segmentacions, per a una sola persona no lliurada en exclusiva a aquest projecte: 1100 hores, és a dir, prop de catorze mesos treballant cinc dies de cada setmana durant quatre hores cada dia. (retorn)
{2} Joaquim Rafel, Dades sobre la freqüència de les unitats fonològiques del la català. Dins Estudis Universitaris, Micel•lània Aramon. Barcelona, 1980. Pàgs 473 a 496 (478 i 479 per a la referència concreta). (retorn)
{3} Sobre la correcció real de les segmentacions en relació a l'índex de confiança obtingut automàticament, vegi's l'apartat específic 2.6. (retorn)
Per comentaris i observacions, poseu-vos en contacte amb
Antoni Jaume Farriols (o amb
Lluís de Yzaguirre)
Institut
Universitari de Lingüística Aplicada (IULA)