modificat: 2000-10-20

 

PROCÉS D'ANÀLISI D'UN TEXT AMB EL TACT

 

A continuació explicarem els passos que hem seguit per analitzar un text (canclca.txt) de l'àrea de medi ambient. El nostre objectiu és veure si aquest text, que en un principi està emmarcat en una àrea temàtica específica, pot contenir altres àrees temàtiques. Per a veure la distribució d'àrees temàtiques al llarg de tot el text, seguirem els següents passos:

 

1.- Guardem el text que volem analitzar com a Texto MS-DOS con saltos de línea

 

2.- Obrim una finestra MS-DOS i ens situem en el directori on hem guardat el text que volem analitzar.

3.- Verifiquem a MS-DOS que el text s'ha guardat correctament:

type CANCLCA.TXT

i hem d'observar si els accents i altres caràcters com la "ç" estan ben escrits.

i observant que els accents i altres caràcters com la "ç" estan ben escrits.

 

4.- Obrim el TACT des del directori on es troba el text que analitzarem

j:\usuaris\gel\experim\text1>tact

 

i creem un fitxer .TDB

 

5.- A continuació crearem un llistat de freqüències de totes les paraules que apareixen al text, tant paraules simples com a concurrències. Per a crear un fitxer amb les paraules simples utilitzarem el programa TACTFreq:

 

El resultat serà un fitxer anomenat canclca.alp.

6.- Per a crear un fitxer amb totes les concurrències utilitzarem el programa CollGen:

 

El resultat serà uns fitxers anomenats canclca.frq, canclca.que, canclca.col i canclca.nod.

7.- Finalment sortim del TACT per analitzar i seleccionar els termes més indicatius d'una especialitat. Des de qualsevol processador de textos, obrirem dos dels fitxers creats en el directori des d'on hem obert el TACT.

 

  1. EDIT CANCLCA.FRQ (fitxer de concurrències ordenades per freqüències)
  2. EDIT CANCLCA.ALP (fitxer de paraules simples ordenades per freqüències)

En primer lloc, netejarem el fitxer de concurrències canclca.frq. De la llista de concurrències que estan ordenades per freqüència decreixent, n'eliminem les que no contenen almenys dues paraules lèxiques fins a tenir-ne 15 (xifra aleatòria). Després cerquem al fitxer canclca.que quin és el denominador TACT de cada concurrència que ens interessa (v.g. "canvi climàtic"=canvi#5).

Denominador

Freqüència i concurrència

#5

46 canvi climàtic

#15

34 efecte d hivernacle

#21

28 països en desenvolupament

#14

24 gasos amb efecte d hivernacle

#7

15 nacions unides

#5

13 període de sessions

#7

12 emissions antropogèniques

#18

12 països desenvolupats

#5

11 protocol de mont-real

#1

10 integració econòmica

#10

9 mesures adoptades

#5

8 òrgans subsidiaris

#5

8 estats membres

#4

8 sistema climàtic

#4

8 medi ambient

 

En segon lloc, editem el fitxer de paraules simples canclca.alp i n'eliminem els mots

gramaticals i tots els candidats que ja formin part d'una concurrència.

Freqüencia i Paraules simples

189

parts

94

conveni

72

article

70

conferència

45

acord

29

present

28

aplicació

26

paràgraf

25

informació

22

objectiu

21

secretaria

19

disposicions

19

sessions

19

virtut

18

annex

18

compte

18

dipositari

18

vigor

17

resta

17

zones

 

8.- Arribat aquest punt, el que ens interessa és veure quins són els termes més representatius de cada àrea temàtica i com es distribueixen a tot el text. En primer lloc, veurem quina és la distribució de cada terme per separat i si veiem que aquesta distribució és bastant representativa de l'àrea (per exemple, medi ambient), aleshores l'agafarem i la guardarem com a part d'un grup, que anomenarem, per exemple, h1.

Per realitzar els grups, procedirem de la següent manera:

Anem al TACT, obrim la base de dades des de File > Open database (Alt-F4) que volem utilitzar i creem la versió .GIX.

 

En primer lloc, veurem la distribució de les concurrències, anem a File > Import (Shift + F2) i anotem la paraula que volem buscar amb el seu denominador corresponent.

Per activar les pantalles de distribució, anem a Displays > Distribution (Shift + F6).

En cas que veiem que la distribució d'aquesta concurrència ens interessa per la seva representativitat d'una àrea temàtica determinada, la guardarem en un grup.

Anem a Group > Make i guardem la distribució en un fitxer com a h1p1.

Repetint aquesta operació amb totes les concurrències que ens interessin

En segon lloc, veurem la distribució de les paraules simples. Anem a Select > Query (F2) i busquem la distribució de les paraules més representatives d’una àrea temàtica, i les guardem com a grup, tal i com hem fet anteriorment amb les concurrències.

 

 

 

 

 

 

9.- Finalment, si volem veure per grups la distribució de totes les paraules escollides, anem a Select >Group i seleccionem tots els fitxers que volem agrupar; és a dir, tots els fitxers que contenen la distribució de les paraules que pertanyen, per exemple, a l'àrea de medi ambient.

 

 

10.- Anem a Displays > Distribution (Shift + F6) i podem veure la distribució de totes aquestes paraules en el text.

 

 

 

Exemple:

Grup àrea de medi ambient

Fem el mateix amb les concurrències i les paraules de l'àrea de dret

 

Exemple:

Grup àrea de dret