De qui són aquests apunts de terminòtica?
Apunts Terminòtica
Els corpus són conjunts de textos (o frases) que es poden tractar de manera
informatitzada i a partir dels quals es pot extreure informació sobre una llengua determinada.
Els corpus que ens interessen tracten temes especialitzats i ens han de servir per extreure'n els
termes propis de la matèria, és a dir, a l'hora de fer un treball terminològic sistemàtic, ja sigui
monolingïue o plurilingüe, el procés de buidatge de termes es realitza de manera
informatitzada.
Els textos es poden recollir de diverses maneres i poden introduir-se a la màquina per
mitjà de la tècnica del picatge o per mitjà de la tècnica del reconeixement òptic de caràcters
(ROC), que es realitza amb un escànner, que és un aparell que aplica una tècnica d'exploració
sistemàtica basada en l'escombratge del text amb un feix de llum, de raigs X, d'electrons, etc.,
el rebot del qual és captat per un detector, és transformat en senyal elèctrica (digitalitzat) i,
després d'ésser tractat per un ordinador, és convertit en una imatge transformada del text
original.
Aquesta tècnica és molt més barata que la del picatge, però presenta inconvenients. En
primer lloc, existeix un problema relacionat amb la qualitat dels textos (i del paper en què es
troben) que es reconeixen. Normalment, mai no es tracta d'originals, sinó de fotocòpies, i la
seva visualització és més complicada. A més, el sistema es basa en dividir en quadrats o
rectangles la imatge que té a la pantalla i va fent subdivisions. Per a ell, el text és un conjunt de
taques i el que fa és delimitar la separació entre una taca i una altra i comprovar que allò que
considera una taca única coincideix amb el que coneix. Però de vegades, els textos tenen altres
taques que per al sistema són ireconeixibles, i el resultat és que potser substitueix una lletra per
una altra, o n'afegeix alguna, etc. Finalment, un gran inconvenient és el de la llengua dels
textos. El sistema ofereix molt bons resultats quan es tracta de textos en anglès, però quan es
tracta d'altres llengües, no li és tan fàcil i pot no reconèixer molts caràcters. No obstant això, en
certs casos, aquest sistema és molt útil, perquè permet la interacció entre l'humà i la màquina a
l'hora de revisar el resultat i això és més còmode que tornar a copiar tot un text sencer.
Una vegada tenim el corpus hem de saber quina informació n'hem d'extreure. En
principi, per a un treball terminològic, el que necessitem és saber quins són els termes d'aquella
especialitat, però abans necessitem reconèixer totes le sparaules dels textos i després, aplicant-
hi un mètode lexicomètric podrem establir conclusions.
Per reconèixer les paraules hem de tenir en compte què entenem per paraula i per a això
hem de distingir tres aspectes: l'ocurrència, la forma i el lema. Una ocurrència és cada vegada
que apareix una determinada paraula en un text (cada vegada que ocorre). La forma
d'una paraula és l'aparença externa quer té aquella paraula. El lema d'una paraula és la
representació única de les diverses formes que pot tenir aquesta paraula.
Un problema addicional és el de l'ammbigüitat, és a dir, que dues formes idèntiques
pertanyin a dos lemes diferents (casa, porta, forma ...). Per resoldre aquest problema comptem
amb els lematitzadors, que indiquen a quin lema o lemes pertany o pot pertànyer cada forma i
segons les paraules que envolten aquests lemes poden deduir de quin es tracta. Per exemple, si
trobem la forma "la", pot tractar-se d'un article, d'un pronom o fins i tot d'un substantiu (nota
musical). Si veiem que darrere hi ha uh substantiu femení singular, ben segur que es tracta
d'un article.
Un cop feta la distinció, podem demanar informació a un programa lexicomètric qu
eens podrà extreure llistes de lemes, ordenats per ordre alfabètic, que pot ser ascendent o
descendent, directe o invers i també longitudinal o freqüencial. Amb aquest últim tipus de llista
podrem deduir quines paraules són significatives dintre del text, ja que tan sols haurem de
fixar-nos en aquells lemes que tinguin una freqüència més alta, filtrant (prescindint de) les
paraules gramaticals, com ara les preposicions, els advervbis, les conjuncions, etc. A més,
aquest sistema ens ajudarà a reconèixer els termes polilexemàtics que de manera manual són
difícils de resoldre. El programa d'explotació lexicomètrica pot calcular la probabilitat
estadística que hi ha que un determinat conjunt de paraules aparegui sempre en el mateix ordre
per exemple i nosaltres en podem extreure conclusions.
El programa d'explotació lexicomètrica que utilitzarem és el TACT (text analysis
computer tools - tècniques computacionals d'anàlisi de textos), que és un programa de
segona generació, que es diferencien dels de primera generació perquè no fan totes les
operacions d'explotació lexicogràfica d'una sola passada, sinó que separen les informacions de
manera que el fitxer que s'introdueix és en format ASCII i el de sortida és en format propietari
(el del fabricant del programa lexicomètric). Aquest programa l'utilitzarem perquè ens doni
índexs (llistes) de freqüències de paraules, concordances, concurrències, etc., cosa que ens
ajudarà a trobar els termes polilexemàtics.
El CD-ROM és un disc compacte que pot emmagatzemar grans quantitats d'informació
no modificable per l'usuari i consultable mitjançant un lector adequat. Per això, cada vegada
més, esdevé el substitut del llibre en suport paper, i també pel seu baix cost en comparació. A
més, cada vegada és més fàcil que l'utilitzi l'usuari perquè es pot consultar sota un ainterfície
gràfica (com Windows, p.e.), que permet que l'usuari aprengui per ell mateix el funcionament.
-
- ocurrència
- cada vegada que una paraula apareix en un text
- forma
- aparença externa d'una paraula
- lema
- representació única de diverses formes flexionades
- ordenació directa
- (per la part del davant) per ordre alfabètic
- ordenació inversa
- per la part del darrere
- ordenació ascendent
- de la A a la Z; de zero a infinit
- ordenació descendent
- de la Z a la A; d'infinit a zero
- ordenació longitudinal
- pel nombre de lletres
- ordenació freqüencial
- pel núm. de vegades que apareix
- explotació lexicomètrica
- extreure freqüències d'aparició d'unes paraules determinades
en un text determinat per arribar a una conclusió
- termes complexos
- en lexicometria, aquell conjunt de paraules que apareix moltes vegades en un determinat text amb el mateix ordre sempre.(sin. terme polilexemàtic)
- ROC
- reconeixement òptic de caràcters, procés pel qual l'ordinador explora una imatge
buscant-hi caràcters per comparar-los amb els que coneix.
- concordança
- índex alfabètic que mostra els llocs d'un text on cada mot principal pot ser
trobat
- desambiguació
- procediment per saber a quins lemes diferents pot pertànyer una mateixa forma
- concurrència
- paraules que, sense constituir-se en expressions fixades, apareixen molt freqüentment al costat d'unes altres, sempre les mateixes
- hipertext
- sistema d'organització i presentació de dades que permet a l'usuari de moure's
amb gran facilitat entre ítems relacionats.
- modularitat
- qualitat d'un programa que està format per diverses parts cada una de les quals té certa unitat funcional, coherència interna i independència de la resta.
- CD-ROM
- suport d'informació de gran capacitat, constituït per un disc de vidre recobert d'un aliatge de tel.luri damunt del qual són enregistrades dades per mitjà de l'acció d'un
raig làser.
- interfície
- interacció entre l'ésser humà i la màquina.
- macro
- macroinstrucció: instrucció d'un llenguatge d'assemblador que designa un grup fix d'instruccions que s'han d'executar per dur a terme una tasca concreta.
Vegeu també els apunts de Laura Paredes