La Rambla 30-32. 08071 Barcelona . 
           Telèfon 542 23 22 . FAX 542 23 21. e-mail: iula@grup.upf.es

2.3.2.2. Mostres de revisió manual

Faig ara la justificació de les mostres que s'han tractat manualment ja esmentades a l'apartat 2.2, descripció del diccionari.

a) La lletra A (7819 lexemes): en ser un fragment lineal del diccionari de la llengua, es tracta de la mostra més heterogènia quant a la mena de mots inclosos, amb l'únic punt en comú d'iniciar-se tots amb A. Respecte de les terminacions, doncs, ha estat una mostra fonamental; aplicant les màximes de proporció ja esmentades de Rafel, aquesta mostra ha d'oferir la majoria de les possibilitats formals de la terminació dels mots en català: les xifres obtingudes en la segmentació automàtica dels mots tractats confirmen a bastament aquest extrem (vegi's l'apartat d'estadística, 2.5). Respecte dels inicis de mot, evidentment la mostra no és tan heterogènia, tot i que aproximadament la meitat dels mots de la lletra A s'inicien amb un prefix, la qual cosa fa que es pugui afirmar que poc menys de la meitat dels radicals demarcats a la lletra A no hi comencen per A, pertanyen a d'altres lletres del diccionari. A priori, la quantitat i qualitat de les entrades d'aquesta mostra semblaven suficients per a ser usada com base de totes les operacions d'automatització (captació de constants, formació de models, extracció de formes idiosincràtiques, radicals, etc.), a posteriori, la resta de mostres han arrodonit l'aportació d'aquesta. La tria d'aquest subcorpus no ha estat del tot arbitrària ja que el fet de ser una de les tres lletres més rendibles del diccionari, i el de contenir la proporció més alta de prefixos (afavorint l'obtenció variada de radicals), s'ha anteposat, lògicament, a la convenció de tractar-se de la primera lletra de l'abecedari: s'ha seleccionat la mostra amb la voluntat manifesta d'extrapolar-ne totes les anàlisis a la resta del diccionari amb una probabilitat alta d'èxit.

b) Els co-radicals inicials (12088 lexemes): aquesta és la mostra quantitativament més important. Ha estat extreta automàticament després de disposar dels models de co-radicals inicials i finals, en bona part elaborats amb l'experiència del grup anterior. En aquest cas, com en tots els següents, la intenció no ha estat tant la d'obtenir una mostra de la qual rendibilitzar-ne la informació obtinguda en termes de generalització i automatització, sinó eradicar del global de mots del diccionari a tractar automàticament tot allò que s'escapa evidentment de la formació estàndard dels mots en català. Aquests mots, amb radicals d'origen culte, no són convencionals quant al seu origen morfològic i es resolen manualment amb la finalitat que no desapareguin en el diccionari, però evitant que interfereixin la segmentació dels mots més regulars. Malgrat això, tres precisions en concret:

- el reconeixement formal que fan els models per a localitzar aquests mots és massa potent, i sovint permet la inclusió confosa de mots comuns quan hi ha coincidència formal. P.ex. agr}ir,v, agr}e,a, agr}est,a o bé alb}a,f, albufer}a,f, es confonen dins d'aquesta mostra a causa dels co-radicals documentats agr}o i alb}o. Això, però, s'acaba reconvertint en un avantatge, ja que s'enriqueix l'inventari de mots comuns a afegir als de la lletra A, i alhora també s'enriqueix el diccionari d'arrels documentades. Concretament dels 12088 lexemes d'aquest grup, 6167 no són tals co-radicals inicials sinó mots comuns.

- el fet de tractar-se de radicals inicials implica dues coses: que es pot tractar de compostos, el segon radical dels quals és un nom comú; o que aquest mateix radical sigui l'únic del mot, mot que molt sovint acaba derivat amb afixos catalans. En el primer cas s'enriqueix encara més el diccionari d'arrels comprovades i augmenta la descripció derivativa per a enriquir-ne els models; en el segon almenys això darrer.

- els models de co-radicals elaborats no seran capaços de detectar més mots amb co-radicals que els que han quedat seleccionats en aquesta mostra i la següent;{1} això no obstant els models d'afixos seran capaços de segmentar correctament mots amb co-radicals no documentats als models, sempre que es derivin regularment amb sufixos, infixos o prefixos catalans, en definitiva, la majoria. Les limitacions en aquest sentit vénen en l'ordre de la localització de compostos, ja que el partidor no sabrà on comença i acaba cada radical, si tots dos són desconeguts als models (si en reconeix un l'altre es demarca per eliminació i a més, el mot serà en la mostra que ara tracto). Una altra limitació rau en el fet de demarcar fronteres internes als co-radicals desconeguts, si els calen: és a dir, suposant un mot format sobre un co-radical desconegut, complex en el seu origen i per tant amb un cert grau de derivació llatina o grega, el partidor demarcarà tota aquesta unitat com a radical i només aïllarà, si hi són, aquells formants identificables com a afixos catalans (o no catalans estrictament però contemplats als models, que també n'hi ha).

c) Els co-radicals simultanis (4534 lexemes): Per aparèixer en aquest grup cal que es trobin combinats en el mateix mot un co-radical inclòs al model d'inicials, i un del de finals. Aquest nivell d'exigència millora la precisió en la localització dels lexemes. Concretament 4249 són autèntics co-radicals. En el primer capítol ja he justificat l'adopció del terme co-radical, però és especialment afinat amb aquests mots que duen radicals cultes dependents l'un de l'altre, enfasitzant el significat del prefix co-. En general la finalitat i conseqüències de l'extracció d'aquesta mostra són les mateixes que a l'anterior.

d) Els prefixats (3146 lexemes): Es tracta no pas de tots els prefixats, sinó només d'aquells que comencen amb prefixos que afecten 300 mots o menys. Tenint en compte un principi estadístic, ja citat al primer capítol, sobre el fet que la immensa majoria de mots del diccionari es deriven amb un sufix o altre, però que, ni de llarg, la majoria de mots es deriven amb prefixos, les possibilitats que els models confonguin l'inici d'un mot no prefixat amb un prefix descrit són percentualment molt més altes que la mateixa confusió entre el final d'un mot no derivat, del radical per tant, i un sufix. La selecció d'aquest prefixos s'ha fet sobre aquells que no superen les tres lletres de longitud, a priori els més confusionaris, ja que a major longitud, més especificitat i menor possibilitat de confusió: és considerablement difícil que un mot iniciat amb la seqüència sobre- no sigui un prefixat, mentre que és altament possible que un altre iniciat amb a- no sigui prefixat (de fet, a la vora de 5700, dels 7819 mots de la lletra A no tenen el prefix a-). En aquest sentit, actuo sobre el mateix principi esmentat per als inventaris de co-radicals: eliminar del corpus general, revisant-los manualment, tots els subcorpus que distorsionin el funcionament regular de l'algorisme de segmentació.

(...)

e) Intactes (2850 lexemes): en la línia de verificar possibles anomalies en el funcionament del partidor, s'extreu el conjunt dels mots en què l'algorisme no hi reconeix cap formant dels models (ni afixos ni co-radicals), és a dir, els proposa com a lexemes monomorfemàtics. Algunes restriccions al funcionament del partidor s'exposen tot seguit a l'apartat 2.4.1, però avanço que com a mesura de control mai no es dóna per bona la segmentació automàtica de suposats radicals inferiors a dues lletres, donada la baixa probabilitat que ho siguin, de radicals, formants d'una lletra.{2} Alhora, amb això es limita la potència del partidor en relació a la confusió de segments interns d'un radical amb afixos descrits. Com es veu la xifra de lexemes afectats, en relació al total del diccionari, uns 60000 exclosa la lletra A ja tractada, no és important, però a més, més de la meitat de la mostra extreta (1657) han estat correctament considerats lexemes monomorfemàtics.{3}

f) Darreres mostres extretes (més de 5000 lexemes): aquí pretenc deixar constància de la verificació i segmentació manual de petites, i no tant petites, mostres de lexemes no sempre a partir de criteris concrets. S'hi barregen des dels mots verificats en la revisió anomenada radic-7, ja descrita a l'apartat 2.3.1, dues darreres extraccions de lexemes del diccionari (1148 i 1520 lexemes), que plantegen problemes en relació a determinats prefixos, però filtrats des d'observacions no sistemàtiques, i cates esparses i aleatòries de mots per tal de valorar el funcionament d'algunes de les versions del partidor. Etc. Tots configuren un enriquiment global de la mostra tractada manualment però no han estat seleccionats amb cap finalitat paral·lela en concret.{4}

(...)


NOTES

{1} Els models han evolucionat després de l'extracció d'aquesta mostra, per tant, la segmentació automàtica amb co-radicals és pertinent encara per alguns mots del diccionari.(retorn)

{2} Val a dir que en les revisions manuals sí que s'han documentat radicals més breus, lògicament verificats etimològicament. (retorn)

{3} Altra vegada he de precisar qüestions de versions: el funcionament final del partidor ha afinat encara més, en part gràcies a aquesta mena de revisions. Es tracta, doncs, d'una mostra extreta pels resultats oferts per una de les darreres versions del programa, no pas l'última i definitiva. (retorn)

{4} Si, a diferència dels grups anteriors, no he donat la xifra exacta, és perquè el total de mots a incloure en aquest tan heterogeni pot augmentar encara fins després de cloure la redacció d'aquest paper.(retorn)


Per comentaris i observacions, poseu-vos en contacte amb Antoni Jaume Farriols (o amb Lluís de Yzaguirre)
Institut Universitari de Lingüística Aplicada (IULA)