Apunts anònims 2

De qui són aquests apunts de terminòtica?

Apunts Terminòtica

Els corpus són conjunts de textos (o frases) que es poden tractar de manera informatitzada i a partir dels quals es pot extreure informació sobre una llengua determinada. Els corpus que ens interessen tracten temes especialitzats i ens han de servir per extreure'n els termes propis de la matèria, és a dir, a l'hora de fer un treball terminològic sistemàtic, ja sigui monolingïue o plurilingüe, el procés de buidatge de termes es realitza de manera informatitzada.

Adquisició de textos

Els textos es poden recollir de diverses maneres i poden introduir-se a la màquina per mitjà de la tècnica del picatge o per mitjà de la tècnica del reconeixement òptic de caràcters (ROC), que es realitza amb un escànner, que és un aparell que aplica una tècnica d'exploració sistemàtica basada en l'escombratge del text amb un feix de llum, de raigs X, d'electrons, etc., el rebot del qual és captat per un detector, és transformat en senyal elèctrica (digitalitzat) i, després d'ésser tractat per un ordinador, és convertit en una imatge transformada del text original. Aquesta tècnica és molt més barata que la del picatge, però presenta inconvenients. En primer lloc, existeix un problema relacionat amb la qualitat dels textos (i del paper en què es troben) que es reconeixen. Normalment, mai no es tracta d'originals, sinó de fotocòpies, i la seva visualització és més complicada. A més, el sistema es basa en dividir en quadrats o rectangles la imatge que té a la pantalla i va fent subdivisions. Per a ell, el text és un conjunt de taques i el que fa és delimitar la separació entre una taca i una altra i comprovar que allò que considera una taca única coincideix amb el que coneix. Però de vegades, els textos tenen altres taques que per al sistema són ireconeixibles, i el resultat és que potser substitueix una lletra per una altra, o n'afegeix alguna, etc. Finalment, un gran inconvenient és el de la llengua dels textos. El sistema ofereix molt bons resultats quan es tracta de textos en anglès, però quan es tracta d'altres llengües, no li és tan fàcil i pot no reconèixer molts caràcters. No obstant això, en certs casos, aquest sistema és molt útil, perquè permet la interacció entre l'humà i la màquina a l'hora de revisar el resultat i això és més còmode que tornar a copiar tot un text sencer.

Preparació de textos

Una vegada tenim el corpus hem de saber quina informació n'hem d'extreure. En principi, per a un treball terminològic, el que necessitem és saber quins són els termes d'aquella especialitat, però abans necessitem reconèixer totes le sparaules dels textos i després, aplicant- hi un mètode lexicomètric podrem establir conclusions. Per reconèixer les paraules hem de tenir en compte què entenem per paraula i per a això hem de distingir tres aspectes: l'ocurrència, la forma i el lema. Una ocurrència és cada vegada que apareix una determinada paraula en un text (cada vegada que ocorre). La forma d'una paraula és l'aparença externa quer té aquella paraula. El lema d'una paraula és la representació única de les diverses formes que pot tenir aquesta paraula. Un problema addicional és el de l'ammbigüitat, és a dir, que dues formes idèntiques pertanyin a dos lemes diferents (casa, porta, forma ...). Per resoldre aquest problema comptem amb els lematitzadors, que indiquen a quin lema o lemes pertany o pot pertànyer cada forma i segons les paraules que envolten aquests lemes poden deduir de quin es tracta. Per exemple, si trobem la forma "la", pot tractar-se d'un article, d'un pronom o fins i tot d'un substantiu (nota musical). Si veiem que darrere hi ha uh substantiu femení singular, ben segur que es tracta d'un article.

Explotació lexicogràfica ( i reconeixement de termes complexos)

Un cop feta la distinció, podem demanar informació a un programa lexicomètric qu eens podrà extreure llistes de lemes, ordenats per ordre alfabètic, que pot ser ascendent o descendent, directe o invers i també longitudinal o freqüencial. Amb aquest últim tipus de llista podrem deduir quines paraules són significatives dintre del text, ja que tan sols haurem de fixar-nos en aquells lemes que tinguin una freqüència més alta, filtrant (prescindint de) les paraules gramaticals, com ara les preposicions, els advervbis, les conjuncions, etc. A més, aquest sistema ens ajudarà a reconèixer els termes polilexemàtics que de manera manual són difícils de resoldre. El programa d'explotació lexicomètrica pot calcular la probabilitat estadística que hi ha que un determinat conjunt de paraules aparegui sempre en el mateix ordre per exemple i nosaltres en podem extreure conclusions. El programa d'explotació lexicomètrica que utilitzarem és el TACT (text analysis computer tools - tècniques computacionals d'anàlisi de textos), que és un programa de segona generació, que es diferencien dels de primera generació perquè no fan totes les operacions d'explotació lexicogràfica d'una sola passada, sinó que separen les informacions de manera que el fitxer que s'introdueix és en format ASCII i el de sortida és en format propietari (el del fabricant del programa lexicomètric). Aquest programa l'utilitzarem perquè ens doni índexs (llistes) de freqüències de paraules, concordances, concurrències, etc., cosa que ens ajudarà a trobar els termes polilexemàtics.

Perspectiva - recursos en CD-ROM

El CD-ROM és un disc compacte que pot emmagatzemar grans quantitats d'informació no modificable per l'usuari i consultable mitjançant un lector adequat. Per això, cada vegada més, esdevé el substitut del llibre en suport paper, i també pel seu baix cost en comparació. A més, cada vegada és més fàcil que l'utilitzi l'usuari perquè es pot consultar sota un ainterfície gràfica (com Windows, p.e.), que permet que l'usuari aprengui per ell mateix el funcionament.

Paraules clau Terminòtica


ocurrència: cada vegada que una paraula apareix en un text
forma: aparença externa d'una paraula
lema: representació única de diverses formes flexionades
ordenació directa: (per la part del davant) per ordre alfabètic
ordenació inversa: per la part del darrere
ordenació ascendent: de la A a la Z; de zero a infinit
ordenació descendent: de la Z a la A; d'infinit a zero
ordenació longitudinal: pel nombre de lletres
ordenació freqüencial: pel núm. de vegades que apareix
explotació lexicomètrica: extreure freqüències d'aparició d'unes paraules determinades en un text determinat per arribar a una conclusió
termes complexos: en lexicometria, aquell conjunt de paraules que apareix moltes vegades en un determinat text amb el mateix ordre sempre.(sin. terme polilexemàtic)
ROC: reconeixement òptic de caràcters, procés pel qual l'ordinador explora una imatge buscant-hi caràcters per comparar-los amb els que coneix.
concordança: índex alfabètic que mostra els llocs d'un text on cada mot principal pot ser trobat
desambiguació: procediment per saber a quins lemes diferents pot pertànyer una mateixa forma
concurrència: paraules que, sense constituir-se en expressions fixades, apareixen molt freqüentment al costat d'unes altres, sempre les mateixes
hipertext: sistema d'organització i presentació de dades que permet a l'usuari de moure's amb gran facilitat entre ítems relacionats.
modularitat: qualitat d'un programa que està format per diverses parts cada una de les quals té certa unitat funcional, coherència interna i independència de la resta.
CD-ROM: suport d'informació de gran capacitat, constituït per un disc de vidre recobert d'un aliatge de tel.luri damunt del qual són enregistrades dades per mitjà de l'acció d'un raig làser.
interfície: interacció entre l'ésser humà i la màquina.
macro: macroinstrucció: instrucció d'un llenguatge d'assemblador que designa un grup fix d'instruccions que s'han d'executar per dur a terme una tasca concreta.

Vegeu també els apunts de Laura Paredes