La Rambla 30-32. 08071 Barcelona . Telèfon 542 23 22 . FAX 542 23 21. e-mail: iula@grup.upf.es
Aquest treball és, bàsicament, dues coses: un material i una eina. Això és, un diccionari i el programa informàtic que ha estat capaç de generar una part d'aquest diccionari. El primer consisteix en una llista força completa del lèxic de la llengua catalana, en la qual els mots apareixen segmentats morfològicament en unitats que anomeno formants, les quals unitats esdevenen la clau de cada entrada del diccionari. El segon és l'algorisme informàtic, que anomeno partidor, que ha segmentat automàticament aquests mots.
El procés que ha conduït als resultats del treball ha consistit a segmentar morfològicament tots els mots d'un corpus que inclou la quasi totalitat dels lexemes normatius del català, és a dir, la llista bàsicament completa d'entrades d'un diccionari exhaustiu de la llengua, com ara el DLC. Les unitats en què es descomponen els mots són els "formants" i coincideixen, bàsicament, amb llurs morfemes. Per a aconseguir-ho, s'han compaginat dos sistemes complementaris. D'una banda s'ha fet un treball exhaustiu de caire manual revisant, i corregint sempre que cal, sobre una proposta del programa, la segmentació d'aproximadament la meitat del corpus de treball amb una doble finalitat: primer, la segmentació pròpiament dita etimològicament i morfològicament verificada d'aquests mots, i segon, l'obtenció de suficients materials de documentació unívoca que millorin els resultats de l'aplicació del sistema de segmentació automàtica a la resta de mots i a aquests mateixos. De l'altra, s'ha dut a terme la segmentació automàtica al·ludida dels mots utilitzant l'esmentat programa informàtic que, aplicat al corpus, segmenta els mots en funció de tot un seguit d'instruccions i models. Les instruccions són del tipus: "restringeix aquesta aplicació a la categoria gramatical X"; "aplica en primer lloc aquest model, i si no pots, aquest altre"; etc. Els models són una de les pedres angulars del funcionament de tot el projecte. Es tracta de llistes molt evolucionades d'afixos i radicals, perfectament classificades i ordenades estratègicament, que el programa compara en el si de cada mot per tal de reconèixer-hi les parts i demarcar-les-hi. El resultat és doble: d'una banda, s'obté un diccionari de formants amb tot el que això pot significar com a material en si mateix i d'estudi de rendibilitats, combinatòria, etc. D'una altra, es crea una eina capaç de reconèixer i obtenir, no mots, sinó formants (radicals i afixos).(...)
El diccionari que presento, i que encara considero experimental, es pot qüestionar i amb tota seguretat es pot millorar: prova n'és que després del tancament d'aquest escrit no han parat de néixer noves evolucions i llistats d'errors que caldrà corregir fora de l'àmbit d'aquesta tesi.(...) Però la filosofia oberta del projecte em situa, ens situa en aquest cas, sempre en la possibilitat de la revisió recursiva i la millora constant, tant del material lèxic com de l'eina de segmentació -més endavant precisaré la metodologia correctiva utilitzada, sobretot en la darrera versió del partidor, que permet la incorporació constant de noves dades documentades que actuïn com a verificadores de les segmentacions proposades-. Amb tot, posat que un investigador interessat en el sistema discrepi dels criteris de segmentació manual utilitzats, pot introduir al sistema les seves propostes concretes en forma de models, i reactivar el programa, que tractarà el material amb les modificacions introduïdes i avaluarà els resultats obtinguts en funció d'aquests nous criteris.{1}
Abans de seguir endavant sembla convenient de precisar els termes que s'utilitzen més freqüentment. Són els següents:
Segmentació automàtica: procediment informàtic de segmentació morfològica dels mots.
Revisió o verificació manual: procediment de revisió i correcció de segmentacions aplicat a mostres quantitativament importants, basat en consultes etimològiques, mot a mot. De vegades parlo per extensió de "segmentació manual".
Models formals: llistes tancades de formants (afixos) extretes de diverses fonts bibliogràfiques.
Models funcionals: llistes de formants (radicals i afixos), originades en els models formals, però adaptades a les necessitats de la segmentació automàtica, i augmentades respecte de les anteriors amb formes despreses de revisions i segmentacions manuals.
Model de sufixos, model de prefixos, model d'infixos: subdivisió dels diversos models d'afixos.
Model de co-radicals: llista de radicals cultes d'origen grec o llatí.
Partidor: programa informàtic que segmenta els mots.
Diccionari font: llista de lexemes a segmentar, corpus d'anàlisi.
Diccionari de formants: llista dels segments, formants, obtinguts i dels lexemes ja segmentats.
Radicals comprovats: llista de tots els radicals obtinguts de segmentacions manualment documentades.
A un treball d'aquesta mena li cal un projecte general en què emmarcar-se. L'aspiració és la d'inserir correctament una peça en una maquinària superior. Un treball com aquest no té massa sentit si es presenta de manera aïllada, sense aplicacions possibles ni un projecte més ampli d'explotació del que aquí s'ha fet i es pot fer. Així doncs, la tesi s'inclou en el marc general de tractament informatitzat de corpus lèxics i hi fa una tasca parcial: presenta un sistema d'obtenció de formants, parts de mots, i es tracta d'una part substancial i definitiva d'un projecte molt més gran, ambiciós i complex, que en un futur hauria de ser capaç d'analitzar la correcta formació de candidats a neologismes sobre llistes i textos, i tanmateix generar-los, etc.
Valgui com a referència concreta l'al·lusió que es fa del partidor a l'article de Ma. Teresa Cabré i Lluís de Yzaguirre Stratégie pour la détection semiautomatique des néologismes de presse,{2} com a element del procés del tractament global dels neologismes, especialment com sistema d'avaluació sobre la correcta formació d'aquests neologismes.
La present tesi ja ha tingut fases precedents. Faig esment del precedent públic més important. Amb el mateix títol, en qualitat de tesi de llicenciatura, vaig presentar el mes de març de 1993 un estudi de viabilitat d'aquest projecte que avui defenso, dubto que un projecte d'aquest estil es pugui considerar mai realment clos; la parcialitat hi és assumida en essència en tant que peça d'un aparat superior. Allí vaig treballar amb la mateixa hipòtesi i les mateixes eines que aquí, amb l'única diferència que el que allí és mostra i hipòtesi, aquí és corpus i tesi. El que allí és més experimentació parcial, aquí és més experimentació global, i en certa mesura, producte i confirmació. La mostra d'estudi d'aquell treball eren els mots de la lletra A, el d'aquest és la totalitat del diccionari, amb les limitacions que descriuré. La versió del partidor d'aquell estudi és el bressol d'una evolució fulminant que l'ha deixat com es presenta en aquest treball, amb moltes més possibilitats. És indubtable que malgrat totes les limitacions pròpies d'un estudi previ, aquell treball ha actuat com a fonament indispensable d'aquesta tesi, salvant les limitacions presents i la inqüestionable possibilitat i necessitat de seguir evolucionant i/o explotant el projecte.
Per tot plegat, a aquell treball inicial, m'hi hauré de referir en algunes ocasions, especialment en el segon capítol. Com a punt d'arrencada en la descripció de les noves evolucions; com a referència comparativa obligada quant a la millora del rendiment del programa; etc. I per això es troba ressenyat en la bibliografia (Farriols, 1993). En qualsevol cas, en aquell mateix paper, ja es preveia el seguiment que se n'havia de fer amb aquesta tesi doctoral i ja es posaven les bases dels aspectes que calia evolucionar i fins on.{3}
Hi ha encara un altre precedent propi de data més recent. Es tracta de l'article titulat Síntesi i mostres de la teoria bàsica per a un projecte de Diccionari de Formants Lèxics Informatitzat.{4} Aquest article, la redacció del qual fou suggerida per la Dra Lídia Pons després de la lectura de la tesi de llicenciatura esmentada, presenta, com diu explícitament el títol, una síntesi dels principis teòrics necessaris per al desenvolupament d'un projecte com aquest. Representa ja una evolució respecte del primer treball citat, i ha fet de pont amb el que presento aquí. En l'article es repassen alguns dels aspectes sobre els quals torno a incidir aquí: el model de diccionari, les unitats de treball, els processos de formació de mots i les arrels, sobretot, i dóna una petita mostra de la confecció del model de sufixos.
L'objectiu inicial d'aquest projecte era el muntatge, a partir de llistes de morfemes, dels mots de la llengua. El plantejament actual es fonamenta en la convicció que, donat que la llengua es presenta organitzada en mots, previ al muntatge cal el "desmuntatge".
Cloc aquesta introducció amb una cita de Mascaró (1986) que resumeix el principi lingüístic a partir del qual considero que es fonamenta la filosofia i la finalitat d'aquesta tesi:
Si ens restringim al mot, la creació de mots nous, és a dir, la introducció en el lexicó de peces lèxiques noves, es pot fer de dues maneres. Es poden utilitzar mecanismes morfològics, regularitats que ja existeixen en els mots de la llengua, per crear una peça nova a partir de morfemes ja existents. (...) Hi ha però un altre procediment que consisteix a utilitzar, no pas morfemes existents, sinó qualsevol sistema, i crear un mot que obeeixi les normes estructurals generals dels mots de la llengua.{5}
NOTES
{1} Ja des d'aquesta introducció cal fer una declaració d'autoria. Primer, els errors i els encerts de la llista de formants em són del tot imputables, en tant que autor de la segmentació manual de la meitat aproximada dels mots del diccionari. Segon, el grau d'optimització en el funcionament del programa, anomenat partidor, també, en tant que creador de les bases d'informació lingüística amb què treballa; per tant, la major o menor correcció de les segmentacions automàtiques, l'altra meitat del diccionari, també és un producte del meu treball. No així la creació i evolució estrictament informàtica del programa partidor que és obra del Dr. Lluís de Yzaguirre i Maura, director d'aquest treball i inspirador de la idea i del projecte global en el qual s'inscriu. (retorn)
{2} Cabré i De Yzaguirre, (1995), pàg. 98. Annex 4. El partidor s'anomena "analitzador morfològic" en l'esquema d'aquest article. (retorn)
{3} A la font, Farriols (1993), hi ha tota la precisió necessària sobre la relació dels dos treballs prevista en aquella fase de l'estudi. Apartat 1.1. i seq., pàgs. 14 a 19; apartat 4.1., pàg. 177. (retorn)
{4} En premsa. Anuari de la Universitat de Barcelona, 1995. (retorn)
{5} Mascaró (1986), pàg. 13. (retorn)
Per comentaris i observacions, poseu-vos en contacte amb
Antoni Jaume Farriols (o amb
Lluís de Yzaguirre)
Institut
Universitari de Lingüística Aplicada (IULA)