La Rambla 30-32. 08071 Barcelona . Telèfon 542 23 22 . FAX 542 23 21. e-mail: iula@grup.upf.es
El partidor és l'eina de segmentació que s'ha anat millorant amb l'avanç de la investigació. Es tracta d'un programa capaç de llegir els lexemes del diccionari font i de segmentar-los en els seus formants constitutius. El "modus operandi" més important, però, és comparatiu; és a dir, el programa llegeix el lexema a segmentar i compara la seqüència gràfica amb els diversos models de seqüències inicials, medials i finals de mot, models que porta incorporats com a informació de suport. Quan detecta coincidència, aplica automàticament la segmentació proposada pel model al lexema en qüestió, tot introduint-li un seguit de marques.
Informàticament el funcionament és prou senzill. La complicació sorgeix de la quantitat d'operacions que ha de realitzar, la quantitat de "passades" sobre un mateix mot, amb la finalitat d'obtenir, no solament "la" segmentació, sinó totes les possibles en funció dels formants que s'hi puguin reconèixer. Juntament amb això, el volum d'informació que s'ha de gestionar és prou gran com per complicar moltíssim el procés en concepte de temps d'execució. En les primeres fases d'evolució, i comptant amb les mateixes eines informàtiques, el procés complet d'aplicació del programa a tot el corpus s'aproximava a les 138 hores, prop de sis dies de funcionament ininterromput. Com es veu uns temps inviables. L'esforç de millora dels resultats des del punt de vista lingüístic s'han acompanyat d'altres de tant o més grans per a l'optimització del funcionament. Actualment el procés complet de segmentació de tots els lexemes del corpus no depassa les 4 hores, que s'allarguen fins a 24 si es compten les operacions d'extracció de formants per al diccionari, extracció de radicals i generació dels patrons, etc. Tot anirà quedant aclarit d'ara endavant en els propers apartats d'aquest segon capítol.
Per comentaris i observacions, poseu-vos en contacte amb
Antoni Jaume Farriols (o amb
Lluís de Yzaguirre)
Institut
Universitari de Lingüística Aplicada (IULA)