La Rambla 30-32. 08071 Barcelona .
           Telèfon 542 23 22 . FAX 542 23 21. e-mail: iula@grup.upf.es

2.4.1.1. Funcionament bàsic

Presento la descripció del plantejament i funcionament final del partidor en l'àmbit d'aquesta tesi, prescindint de noves evolucions que caldran d'ara endavant, fora de l'abast d'aquest treball concret.

El programa proposa la segmentació en formants de qualsevol seqüència de lletres. Analitza sobre formes, no significats. Es limita a localitzar segments que se li han estipulat com a models i els insereix les marques de les fronteres. Aquestes marques són de diverses menes en funció del tipus de formants localitzats i segmentats. Són marques molt evidents.

Concretament:{1}

- després de » sempre hi ha un sufix o infix: CAM»IN»AR (cam}in}ar)

- abans de » hi pot haver un infix o un radical: CAM»IN»AR (cam}in}ar)

- després de « pot haver un prefix no inicial o un radical: DES«IN«TOX»IC»AR (des{in{tox}ic}ar)

- abans de « només hi pot haver un prefix: DES«PLEG»AR (des{pleg}ar)

- abans i després de # hi ha els components lèxics d'un mot compost, sense perjudici que el primer element sigui derivat (per tant, que abans del # hi hagi un o diversos sufixos), o que el segon sigui prefixat (per tant, que després del # hi hagi un o diversos prefixos): BLAU#GRANA, (blau+grana, ort}o+graf}i}a, acr}o+an{ox}i}a)

- els guionets ortogràfics fan la mateixa funció que # en els compostos: GUARD»A-ROB»A (guard}a-rob}a)

- els guionets ortogràfics que separen (o uneixen) un prefix i un radical no obvien la corresponent marca de prefix («): SOTS«- BATLL»E, PRE«-T\ON»IC (sots{-batll}e, pre{-tòn}ic)

Segons això un radical sempre queda demarcat, almenys potencialment, en els contextos següents (els claudàtors actuen ara com a demarcadors d'inici i final de mot absolut; + representa el radical. Anteposo un asterisc a les possibilitats molt improbables):

  • [ + ] « + ] # + ] - + ]
  • [ + » « + » # + » - + »
  • [ + - « + - *# + - *- + -
  • [ + # « + # # + # *- + #{2}
  • La combinació de tots aquests símbols dóna com a resultat totes les possibilitats de contextos dels formants en català.

    Per a la introducció de les fronteres, el partidor llegeix el lexema a segmentar tot comparant totes les seqüències medials possibles amb cadascun dels models d'afixos i co-radicals. Fa lectura del final endarrera i del principi endavant. Quan localitza més d'un formant sobre una mateixa seqüència de lletres, en principi dóna prevalència al més llarg, més idiosincràtic, amb algunes restriccions que exposo més avall. En general l'ordre amb què el programa compara el lexema amb els diversos models, quin preval sobre quin, quins procediments utilitza com a sistemes de control de les segmentacions clarament anòmales, de quins recursos disposa per a l'autoavaluació dels resultats, etc., són fruit de les propostes nascudes de l'anàlisi manual de milers de mots, normalment a partir dels resultats proposats pel mateix partidor en aplicacions prèvies a cada nova revisió manual. L'objectiu principal d'aquest treball, ja s'ha dit, és el diccionari; l'evolució del programa n'és més la conseqüència. Més que el funcionament estrictament informàtic, aquí interessa la constatació dels resultats obtinguts respecte a dues qüestions: a) les eines de treball, els models elaborats, sobretot, i b) la filosofia sobre els diversos tipus de formants, jerarquització i tipificació teòrica i formal. En tot cas, la síntesi de la filosofia del funcionament del partidor dóna prevalència en general als elements més idiosincràtics i llargs (co-radicals, per exemple) sobre els més genèrics i curts (sufixos), i a la identificació dels elements de la terminació (co-radicals finals i sufixos) sobre els de l'inici (co-radicals inicials i prefixos). Tot allò que quedi en el centre del mot després de les marques inicials i abans de les finals, són radicals. Malgrat tot, la recerca recursiva de totes les segmentacions possibles de cada mot en funció de les possibilitats que ofereixen els models, fa que totes les prioritats esmentades quedin sense efecte conforme es van exhaurint les possibilitats estrictament formals de reconeixement de formants.

    Els models de co-radicals incorporen les formes amb tota la derivació documentada per a cadascuna, és per això que l'aplicació, respectivament, dels models de co-radicals inicials i finals, anul·la l'aplicació dels del prefixos i sufixos. Tanmateix els models de sufixos inclouen seqüències complexes, amb infixos per tant. El model d'infixos només localitza formes medials. Vegi's la precisió de tot això a l'apartat següent, dels models de formants.

    Aquest procediment analític dóna com a resultat la segmentació potencialment correcta d'un lexema. Com que la lectura del partidor és formal, la possibilitat que confongui segments parcialment idèntics és real. Tenint en compte que prevalen les formes més llargues, dins d'un mateix model, en mots com els següents l'error és segur. P.ex.

    - co-radical inicial amb co-radical inicial més breu, p.ex. URAN»O#, i UR#: En un hipotètic *uranoxia (absència d'oxigen a l'orina), el més llarg URAN»O imposaria la segmentació *URAN»O#X»I»A; quan en realitat caldria aplicar la segmentació amb UR#, és a dir UR#AN«OX»I»A.

    - prefix amb prefix més breu, p.ex. abs-, i ab-: AB«SOLD»RE, i no *ABS«OLD»RE.

    - co-radical final amb co-radical final més breu: (no es dóna en cap cas documentat)

    - sufix amb sufix més breu, p.ex. -etat, i -at: ABIET»AT, i no *ABI»ETAT.

    Fins i tot, donat l'ordre d'aplicació dels diversos models, es poden donar casos com el següent: un co-radical inicial, model que s'aplica abans que els prefixos, es confon amb un prefix (RE»O#, i RE«), RE«OBR»IR i no *RE»O#BR»IR.

    Amb la finalitat de solucionar aquest problema, el partidor no s'atura en aquesta primera proposta i combina totes les formes de tots els models prescindint de l'ordre establert (llargs, breus, inicis, finals), i aconsegueix totes les possibilitats de segmentació de cada lexema. P.ex. del mot floridura,f, la primera proposta és FLOR»I»DUR»A, però es pot proposar també *FLORID»UR»A. En aquest punt és on prenen valor les passades manuals i el diccionari d'arrels comprovades que actuen com a filtre d'acceptabilitat i algunes convencions adoptades a partir de l'observació manual del comportament més generalitzat dels lexemes, com per exemple triar sempre l'opció amb més fronteres, amb més formants identificats.


    NOTES

    {1} Coherentment amb el tema tractat, el funcionament del programa, en aquest apartat mantinc la notació de treball. (retorn)

    {2} Totes aquestes marques també s'han usat amb les mateixes restriccions i significats en la verificació manual de la segmentació dels mots. (retorn)


    Per comentaris i observacions, poseu-vos en contacte amb Antoni Jaume Farriols (o amb Lluís de Yzaguirre)
    Institut Universitari de Lingüística Aplicada (IULA)