Institut de Lingüística Aplicada
Universitat "Pompeu Fabra"
Pautes d'orientació en la lectura dels resultats del
lematitzador
El que veieu és la primera aproximació a una proposta d'etiquetatge. Els codis que es proposen
són només una de les moltes possibilitats i han de servir per discutir: A) l'inventari
d'informacions gramaticals (bàsicament morfològiques, però també sintàctiques) que integraran
la versió etiquetada d'un corpus i B) la forma amb què han de codificar-se aquestes
informacions. Per interpretar les marques, cal consultar el llistat de codis d'etiquetatge adjunt,
però a més cal considerar els signes especials següents:
- cada marca va separada de les precedents per un signe de subratllat (v.g., no_CD);
- si va precedida de barra indica un cas d'ambigüitat (v.g.: "a_CP/CN_GF_NS", que
significa que el mot "a" pot ser una preposició "CP" o un substantiu femení singular
"CN_GF_NS", en el cas del nom de la lletra "a");
- si va precedida d'ampersand significa que el mot és una contracció (v.g.:
"del_CP&CA_GM_NS" és la contracció d'una preposició "CP" i un article masculí
singular "CA_GM_NS");
- si va precedida del signe "+", indica simplificació de codis quan una paraula pot
correspondre a més d'una forma d'un únic lema;
- si hi ha un sol signe "+", s'interpreta simplement com el desdoblament de codis:
"preveia_CV_VE_MD_TA_P1+P3_NS" indica que és tant la primera com la
tercera persona de l'imperfet, etc., i equivaldria a
"preveia_CV_VE_MD_TA_P1_NS" +
"preveia_CV_VE_MD_TA_P1_NS";
- si hi ha més d'un signe "+", no és el mateix si afecta una única categoria (tots
els "+" apareixen agrupats) o més d'una (apareixen distribuïts); en el primer
d'aquests dos casos, s'interpreta com l'anterior: "servim_CV_VE_MD+MJ+
MR_TR_P1_NP" indica que és la primera persona del plural del present tant
d'indicatiu com de subjuntiu com d'imperatiu i equivaldria a "servim_CV_VE_
MD_TR_P1_NP" + "servim_CV_VE_MJ_ TR_P1_NP" + "servim_CV_VE_
MR_TR_P1_NP";
- finalment, quan hi ha més d'un signe "+" i no estan agrupats, cal interpretar-los
per parells: "controla_CV_VE_MD+MR_TR_P3+P2_NS" indica que o bé és
indicatiu+tercera persona o bé és imperatiu+segona persona, que equivaldria a
"controla_CV_VE_MD_TR_P3_NS" +
"controla_CV_VE_MR_TR_P2_NS"
La combinació de totes les marques anteriors dóna casos realment complexos com el de
"seu_CJ_NS_GM_SP/CR_P3_NS_GM_S4/CN_NS_GF/CV_A5_MD+MR_P2+P3_NS", en
què donem raó de l'adjectiu possessiu, del pronom ídem, del substantiu femení "la seu" i
finalment de les dues formes (indicatiu i imperatiu) amalgamades del verb "seure". En algun
cas, hem de millorar el procés d'amalgamació, que ha fallat, com a "afecta_CV_VE_
MD_TR_P3_NS/CV_VE_MR_TR_P2_NS/CJ_GF_NS", que no té tres lemes, sinó dos
(afectar, afecte) i que hauria de ser
"afecta_CV_VE_MD+MR_TR_P3+P2_NS/CJ_GF_NS".