Monogràfic: Els crits de l'ase no arriben al cel

Avui volem analitzar un aspecte crucial en un projecte com el reSOLC-mitjansCAT; es tracta de la transcendència que tenen els errors en les transcripcions no validades. Com s'explica a les presentacions detallades del reSOLC, els usuaris d'aquesta plataforma només veuen les transcripcions validades i si volen veure les automàtiques, ho han de requerir explícitament des del botó Visualitza totes les transcripcions.

Per veure les transcripcions no validades cal clicar el botó Visualitza les transcripcions pendents.

Sempre hem estat conscients que ni una llengua com l'anglès es podria permetre el cost de revisar manualment milions de transcripcions. En el cas del català ni ens ho plantegem ni ens privem d'emprar unes transcripcions que tenen una qualitat mínima garantida per un control de qualitat que hem anomenat "validació de dades guiada per l'error" (Error driven data validation).

Però la feina no s'acaba mai:

a) el volum de dades del reSOLC seguirà creixent;
b) la norma ortològica anirà evolucionant;
c) la pronúncia de certs mots tendirà a modificar-se, i
d) qualitat mínima garantida no vol dir que no hi hagi errors.

Fa unes setmanes, un usuari ens va fer veure un error en una transcripció no validada: el mot làser apareixia transcrit [lázə], talment com si fos homòfon de "l'ase". En la transcripció d'aquest mot s'interfereixen dos fenòmens vacil·lants: erra final mantinguda o no (en mots com popular, ascensor o familiar) i el manteniment o la neutralització de e postònica preconsonàntica (en mots com bàsquet, càncer o wàter).

La importància que té que algú descobreixi l'error d'una transcripció és que, gràcies a la traçabilitat , podem detectar quines regles hi han intervingut i, després, analitzar totes les transcripcions obtingudes amb la participació d'alguna d'aquestes regles.

El fet que la plataforma reSOLC estigui concebuda sota la filosofia web 2.0 converteix qualsevol interacció amb els usuaris en un valor afegit. Els administradors de la plataforma poden fer un seguiment estadístic dels mots consultats, també la distribució temporal d'aquestes consultes, i als usuaris professionals se'ls ofereix la possibilitat de qüestionar les solucions proposades i fins i tot de mantenir un debat a través dels comentaris que poden afegir a qualsevol paraula. Aquest valor afegit té incidència quan es descobreix un error com el que avui ens serveix de motivació, perquè, en haver-hi vacil·lació de certes pronúncies entre els parlants, poder analitzar el protocol de consultes i veure quins usuaris han consultat quins mots i si han reaccionat davant de certes transcripcions o no ens dóna un plus de confiança.

Quan descobrim un mot mal transcrit, la causa pot ser una de les següents:

- la forma ortogràfica del mot està mal escrita (vg. si tinguéssim xófer en comptes de xòfer),

- s'ha generat una representació fonemàtica incorrecta (vg. s'ha representat fonemàticament autoria com si fos un compost auto+ria, cosa que tindria conseqüències en el tipus de erra),

- alguna regla ha deixat d'actuar,

- alguna regla ha sobreactuat (quan no tocava),

- alguna regla ha actuat amb un resultat diferent del previst per causes intrínseques a la regla o per interactuació nociva amb una altra regla (ordre de les regles...),

- en el mot concorre alguna excepcionalitat que no es pot resoldre amb regles sinó amb marques idiosincràtiques.

En principi, els diccionaris-paper amb transcripció fonètica recullen que mantenen la erra dels mots plans acabats amb erra amb l'excepció de càntir. Un cop d'ull a tots aquests mots ens mostra que hi predominen els que contenen els sufixos ífer, òmer, pter, íger, àcter, làter..., o sigui majoritàriament mots tècnics. Però també mots de la llengua comuna o que s'hi van incorporant (com càncer o helicòpter).

D'excepcions quant a la erra n'hi podria haver, per exemple el mot seminaturalitzat kàiser, en Hochdeutsch realitza el grup -er amb una mena de vocal neutra, però cap diccionari en paper no ho recull així.

La vocal àtona de la síl·laba final només presenta dubtes en els dialectes orientals; generalment es neutralitza, però també hi ha mots excepcionals, com la llatinada paternòster [pàternóster] (DOP) vs duramàter [dùɾəmátər] (DOP) o bé la solució exòtica que el DOP proposa per a mànager: [mɛ́́nədʒə*].

El que ens crea més problemes, doncs, és quan l'ús majoritari vacil·la (com dieu vàter?), sovint per pressions externes comprensibles en un món globalitzat, com les que podrien explicar el manteniment de la e que solem fer al mot màster (malgrat el DOP: [mástər]).

En resum, és gràcies a la detecció de casos com el que hem presentat de làser que el conjunt de paraules amb una mateixa característica és objecte de revisió per detectar qualsevol de les possibles fonts d'error apuntades més amunt (erràtiques, com una ortografia infidel; sistemàtiques, com una regla mal formulada; o el nostre pitjor malson, la casuística excepcional no detectada d'una regla ben formulada).

Lluís de Yzaguirre i Maura
Director del Laboratori de Tecnologies Lingüístiques
Institut Universitari de Lingüística Aplicada
Universitat Pompeu Fabra

Enrere

Feu-nos arribar els vostres comentaris