La Rambla 30-32. 08071 Barcelona . 
           Telèfon 542 23 22 . FAX 542 23 21. e-mail: iula@grup.upf.es

2.2. Descripció general del diccionari

El diccionari és prou explícit i es justifica i exemplifica en si mateix amb una simple revisió de pàgines esparses. En faig aquí, però, una breu descripció a tall de presentació: què és i com s'obté bàsicament, per a què serveix, com funciona, què utilitza, etc.

El diccionari que presento respon en general a uns paràmetres de gran simplicitat, i malgrat la complexitat del treball per a presentar-lo com es veu, el producte final es copsa fàcilment.

Formalment la descripció és la següent: diccionari d'entrada morfemàtica (formants) en què els formants s'ordenen alfabèticament dins de cada tipologia (radicals, infixos, prefixos, sufixos). L'article de cada entrada inclou la llista alfabètica de lexemes que contenen el formant en qüestió. (...) Cada lexema duu indicació dels símbols de les fronteres morfemàtiques (...)

(...)

Els patrons són una de les explotacions automàtiques al·ludides més rendibles del diccionari. Es tracta de "fórmules" que sintetitzen l'estructura morfològica de cada lexema tot substituint els radicals pel símbol +, i deixant explícita tota la derivació amb tota la simbologia de relació amb l'arrel, i que identifica els diversos formants com a prefixos, sufixos o infixos. Per exemple el patró del mot blanquejar, segmentat blanqu}ej}ar és [+>>ej>>ar]; el del mot impressionable, segmentat im{press}ion}a}ble és [im<<+>>ion>>a>>ble]. (...)

(...)

"Les mostres"

Passo a l'enumeració de les mostres més representatives, des del de l'anàlisi global, el corpus, fins als diversos subcorpus de recerques parcials; de les mostres ofertes en segmentació comprovada manualment i automàticament, etc., tot tenint en compte que com a elements "vàlids" d'anàlisi els justifico en l'apartat següent.

El corpus inicial del treball és una llista de paraules, lexemes, que n'inclou 68534 procedents, bàsicament, del diccionari de la llengua generat en la Tesi Doctoral del Dr Lluís de Yzaguirre: "L'estructura sil·làbica del català central", ja esmentada. Aquest diccionari és una síntesi manipulada profundament (correcció d'errors, filtratges de mots residuals, etc.) dels DLC i DGLC.{1} En tot cas, es pot parlar d'un diccionari general de la llengua amb inclusió tant de mots comuns com de cultismes, col·loquialismes, vulgarismes, estrangerismes, etc., tot essencialment restringit a l'àmbit de la llengua normativa.

Val a dir que els mots que des d'un punt de vista qualitatiu han interessat més són els compresos en les categories gramaticals més lèxiques (substantius, adjectius i verbs) sense perjudici de la segmentació de la resta de mots.

Manualment, amb consulta sobre l'ètim particular de cada lexema, s'ha verificat, i corregit si calia, la segmentació automàtica de la meitat aproximada d'aquest corpus. Aquest conjunt se subdivideix en diverses mostres seleccionades arran de diverses tipologies, que són les següents:

a) Tota la lletra A del diccionari, 7819 mots, ja segmentada en la meva tesina de llicenciatura esmentada, que per aquesta tesi s'han tornat a analitzar mot a mot atenent a l'evolució substancial d'alguns criteris teòrics sobre l'estructura morfològica de les paraules en català i de l'evolució dels models d'afixos i arrels del partidor. (...)

b) Tots els mots iniciats amb seqüències coincidents amb co-radicals inicials contemplats al model, 12088 mots, 1751 dels quals, ja treballats a la lletra A. (...)

c) Tots els mots iniciats i acabats alhora amb seqüències coincidents amb co-radicals inicials i finals contemplats al model, 4534 mots, 623 dels quals, ja treballats a la lletra A. (...)

d) Tots els que el partidor, en la penúltima fase d'evolució, abocava sense cap frontera morfemàtica, 2850 mots, tots de la lletra B en endavant. (...)

e) Tots els mots iniciats amb seqüències de lletres coincidents amb prefixos estrictes contemplats al model i que tinguessin menys de 300 ocurrències, 3146 mots, tots de la lletra B en endavant. (...)

f) D'altres extrets per criteris no formals com cates a l'atzar, verificació d'errors, etc., que sumen tots junts més de 5000 mots. (...)

(...)

Automàticament s'han segmentat tots els mots del diccionari i han restat només amb la proposta automàtica aquells que no han quedat inclosos en cap de les mostres d'anàlisi manual. Per a aquests darrers, els manuals, es dóna prevalència a la proposta manual, com s'ha dit, sobre la proposta automàtica. Per als primers, s'estableix un tall de fiabilitat que els inclou o exclou de la llista de lexemes del diccionari. Cal ser conscient del fet que si un lexema s'inclou definitivament en la llista d'admesos, els seus formants passen automàticament a ser entrades del diccionari de formants, la qual cosa m'obliga a afinar tant com sigui possible les segmentacions dels lexemes acceptats per tal de no adulterar excessivament el diccionari, tot això malgrat l'acceptació d'un cert grau de provisionalitat i de possibilitats d'error contemplades implícitament en la qualificació de "experimental" que li atorgo. (...) En aquest sentit, però, hi ha una dada molt significativa: l'únic tipus de formant que pot entrar al diccionari procedent d'una segmentació automàtica sense cap altra verificació són els radicals, que són l'única part del mot que es demarca per eliminació, i que és també la més idiosincràtica, la que pot esdevenir més "peculiar", estranya fins i tot, sense que calgui que alarmi necessàriament. Com que tota l'afixació que el partidor pot detectar sorgeix dels models, amb totes les formes documentades,{2} evidentment, cap afix de la llista del diccionari que procedeixi d'una segmentació automàtica pot ser un segment estrany. A més, però, tampoc no ho serà cap co-radical, també tractats com a model. I de fet, més del 85 % dels mots tractats automàticament han aconseguit documentar una arrel formalment idèntica a alguna de les detectades en la mostra manual: en definitiva només uns 5000 mots, dels 68000 del corpus, poden aportar al diccionari radicals desconeguts, tampoc necessàriament estranys.{3}

(...)


NOTES

{1} Vegi's De Yzaguirre (1990), pàg 37. (retorn)

{2} Vegi-se'n tot seguit la confecció a l'apartat següent sobre els models de formants. (retorn)

{3} El diccionari palesa clarament que la documentació d'un radical en un lexema no és prova automàtica de veracitat ja que el radical en qüestió pot no ser pertinent en aquell mot, és a dir, pot tractar-se d'un error, d'una confusió en el reconeixement. (retorn)


Per comentaris i observacions, poseu-vos en contacte amb Antoni Jaume Farriols (o amb Lluís de Yzaguirre)
Institut Universitari de Lingüística Aplicada (IULA)