Diccionari de formants

           La Rambla 30-32. 08071 Barcelona . 
           Telèfon 542 23 22 . FAX 542 23 21. e-mail: iula@grup.upf.es

2.4.2.2.1. El model sufixos{1}

a) descripció del model de sufixos: model de sufixos categoritzats gramaticalment; ordenades les formes alfabèticament per l'última lletra; dins de cada lletra per longitud, de més llargues a menys; dins de cada longitud alfabèticament per l'inici; actualitzat respecte de la llista formal; eliminades les terminacions que inclouen radicals cultes (metre, àlgia, etc.); incloses les combinacions complexes de sufixos descobertes en la lletra A i a les altres mostres de tractament manual, sempre que no es puguin obtenir de la combinació amb un o diversos infixos del model d'infixos.

Origen: aquest model té com a fonts fonamentals les següents: el model de sufixos 10. Totes les seqüències complexes no detectades pels models 10 respecte de la revisió de mostres manuals, moltes procedents de la lletra A i que generaven rebutjos pel partidor amb els models 10. El model 10, inclòs al complet en l'11 i el definitiu 12, es forma a partir de: la llista formal establerta al 1r capítol. La revisió de la segmentació interna de les seqüències ja presents al sufixos 06 amb coherència amb els darrers criteris teòrics. Com s'ha dit, el darrer model 12 renuncia a una part molt important de les seqüències complexes documentades passant els infixos inicials d'aquestes seqüències al model d'infixos.{2}

Tipologia dels formants: sufixos i seqüències constants de sufixos, estrictament gramaticals. També inclou un residu de formants no documentats com a sufixos, obtinguts per eliminació d'altres (arrels i afixos documentats) en la segmentació manual dels mots, que no es poden catalogar d'arrels ni incloure'ls amb arrels adjacents. Les vocals temàtiques. Les marques flexives, sempre que siguin identificables per oposició a d'altres en la forma base del paradigma de cada lexema (-o masculí, -a femení, -s plural, -t participi, etc.); o bé, sempre que es demostri que tenen rendibilitat en mots lexicalitzats en formes del paradigma que no en són la base.

Criteris de restricció d'entrada: com que en aquesta fase s'ha incorporat el sistema de filtratge d'arrels documentades i de patrons documentats, no cal accentuar la restricció de l'entrada als formants o seqüències de formants perquè resultin confusionaris, és a dir, que espatllin més mots per confusió de formants que els que resolen per autèntica identificació; tot i això la inclusió de formes no pot ser del tot automàtica ja que s'han de verificar les interferències amb el model d'infixos. Normalment caldria eliminar del model els formants gramaticals que no solen afectar els lexemes (flexió d'adjectius, diminutius, despectius, etc.). La majoria acaben però entrant-hi donada la proliferació de mots lexicalitzats que obliguen a introduir-los. No s'admet cap formant identificable etimològicament i semàntica com a radical (substantiu, adjectiu, o verb). Llevat dels de la llista formal, cap formant o seqüència no documentats en les mostres manuals no s'entra als models, fora que sigui per anivellament d'un conjunt de formes, com ja s'ha fet a la confecció de la llista formal. P.ex. es descobreix un formant combinat amb una de les possibles vocals temàtiques, però no amb la resta; s'investiga fora de les mostres les possibilitats d'aquest formant d'aparèixer amb totes les vocals temàtiques, i si fa al cas, s'introdueixen aquestes noves seqüències de formants als models. De vegades es fa aquesta operació només per analogia, sense documentació, per beneficiar la potencialitat del sistema de segmentació.

Nivell d'optimització: conjuntament amb el model d'infixos, el nivell d'optimització és prou alt. És el model més ben documentat teòricament i pràctica. Teòricament perquè les fonts mateixes són molt més completes i explícites. Pràcticament perquè, com ja s'ha dit diverses vegades, les terminacions dels mots són molt més constants i fàcils de sistematitzar, a més del fet que la immensa majoria de mots acaben més o menys derivats. D'altra banda, les mostres escollides han afavorit la variabilitat dels finals per davant dels inicis, en ser una de les més explotades a efectes de models un fragment lineal del diccionari de la llengua, la lletra A: els inicis són molt més homogenis (tots s'inicien amb A), els finals més heterogenis. L'elecció, per exemple, d'una mostra semblant (la lletra A), però d'un diccionari invers, hauria donat el resultat també invers. Es pot considerar una limitació el fet que s'han tractat sense discriminació les categories gramaticals següents: a) terminacions de substantius masculins sense corresponent femení i els que flexionen un femení, donat que aquests darrers apareixen sempre en la forma masculina al diccionari, b) igualment per als femenins, c) anàlogament amb els substantius invariables masculins i femenins alhora respecte dels adjectius invariables; tot plegat comptant amb l'experiència pràctica que ho demostra com el comportament més habitual. Ho exposo més avall en parlar de la categorització dels models.

b) operacions de recerca i anàlisi del model de sufixos: han estat moltes i molt diverses, ressenyo i exemplifico, lligant amb la descripció anterior, les més importants:

1a Aplicació de nous criteris de segmentació i tipologia de formants al model 06: (...)

2a Extracció de seqüències de la revisió manual de la lletra A no detectades pel sufixos 10: (...)

3a Verificació de les possibilitats d'error malgrat el filtre d'arrels: (...)

4a Categorització gramatical de les terminacions del model de sufixos: (...)

5a Darreres revisions de rebutjos: (...)

(...)

NOTES

{1} A partir d'aquí, per a aquest apartat (2.4.2.2...), i a fi de no usar una numeració excessiva en els títols dels diversos subapartats, utilitzo diferents tipografies per a jerarquitzar-los: els títols en cursiva precedits d'una lletra i un parèntesi de tancar (a), b), etc.), són els més generals després del darrer numèric. A continuació prevalen els subratllats i lletra rodona sense trencar línia.(retorn)

{2} Malgrat que no es troben enlloc del treball per raons d'espai, conservo el llistat d'aquestes seqüències, ara desmuntades entre els dos models al•ludits, com a informació idiosincràtica sobre la derivació dels mots en català i les poso a disposició de qui vulgui consultar-les o revisar-les. (retorn)

Per comentaris i observacions, poseu-vos en contacte amb Antoni Jaume Farriols (o amb Lluís de Yzaguirre)
Institut Universitari de Lingüística Aplicada (IULA)