Institut de Lingüística Aplicada

Universitat "Pompeu Fabra"


Pautes d'orientació en la lectura dels resultats del lematitzador

El que veieu és la primera aproximació a una proposta d'etiquetatge. Els codis que es proposen són només una de les moltes possibilitats i han de servir per discutir: A) l'inventari d'informacions gramaticals (bàsicament morfològiques, però també sintàctiques) que integraran la versió etiquetada d'un corpus i B) la forma amb què han de codificar-se aquestes informacions. Per interpretar les marques, cal consultar el llistat de codis d'etiquetatge adjunt, però a més cal considerar els signes especials següents:

La combinació de totes les marques anteriors dóna casos realment complexos com el de "seu_CJ_NS_GM_SP/CR_P3_NS_GM_S4/CN_NS_GF/CV_A5_MD+MR_P2+P3_NS", en què donem raó de l'adjectiu possessiu, del pronom ídem, del substantiu femení "la seu" i finalment de les dues formes (indicatiu i imperatiu) amalgamades del verb "seure". En algun cas, hem de millorar el procés d'amalgamació, que ha fallat, com a "afecta_CV_VE_ MD_TR_P3_NS/CV_VE_MR_TR_P2_NS/CJ_GF_NS", que no té tres lemes, sinó dos (afectar, afecte) i que hauria de ser "afecta_CV_VE_MD+MR_TR_P3+P2_NS/CJ_GF_NS".