La Rambla 30-32. 08071 Barcelona .
Telèfon 542 23 22 . FAX 542 23 21. e-mail: iula@grup.upf.es
Pràctica final
Pàgina actualitzada el dia 4-12-96
La pràctica final consisteix a:
- Crear un corpus
- Heu d'extreure una sèrie de documents de fonts variades i salvar-los en format ASCII (de DOS).
- Els de Comunicació i afins, sobre un CD-ROM de premsa dels que tenim a la Biblioteca o a partir de textos obtinguts via Web heu d'acumular textos d'un mateix autor o d'una mateixa temàtica (liure).
- Els de Dret i afins heu d'explorar un d'aquests temes al DOGC o a l'Aranzadi: aigua, autopista, transport, atmosfera, salut, educació, vivneda, religió, llengua (cal que em comuniqueu el tema triat per evitar duplicacions).
- Els de Traducció i afins heu d'explorar un d'aquests temes en una enciclopèida (en anglès o en francès: aigua, autopista, transport, atmosfera, salut, educació, vivneda, religió, llengua (cal que em comuniqueu el tema triat per evitar duplicacions).
El conjunt de fitxers ASCII-DOS que exporteu ha de sumar un mínim de 50K. Si teniu problemes per arribar a aquesta xifra, feu-m'ho saber via consulta.
- Explotar-lo amb TACT
- Amb TACT heu de seguir els passos següents:
- crear la base de dades textual amb MAKEBASE;
- extreure amb TACTFREQ un llistat freqüencial (fitxer .ALP);
- obtenir amb COLLGEN les concurrències (fitxer .COL);
- Fer una cibercerca
-
- seleccioneu les concurrències més significatives (que no tinguin paraules gramaticals o, més exactament, que tinguin almenys dues paraules lèxiques i siguin freqüents en el vostre corpus);
- soliciteu una cibercerca amb les paraules lèxiques (v.g., si tenim "aprenentatge de la llengua " cercarem "language & learning" [podem cercar, si volem, en francès o en castellà, encara que els resultats seran inferiors <cosa que podria ser beneficiosa, si ens salva d'una allau de referències >]);
- guardeu-vos els resultats de les cerques "as source", és a dir en HTML, car així podreu tornar-lo a obrir amb NetScape i seguir cercant;
- si mai voleu tenir el fruit d'una cerca en format ASCII, l'obriu amb NetScape i el salveu com a text amb un altre nom.
- Lliurar-me els resultats
-
Si les transferències no piten, copieu-ho tot en un disquet amb el vostre nom a l'etiqueta (en aquest cas, em quedaré el disquet perpètuament); si m'ho podeu arribar via TRANSFER, penseu a comunicar dins del missatge de correu qui sou i què envieu (podeu copiar-ho d'un TRANSFER al següent amb "copy and paste"). Els fitxer que m'heu d'enviar són:
- fitxer NOM amb el nom, el telèfon de contacte durant els dies immediats i la relació dels noms que tenen tots els fitxers que em feu arribar i la de la font d'on heu extreu els textos (encicploèdia o Web o...)
- text ASCII
- resultats de TACT (ALP i COL)
- Document WP o Word amb la llista d'URL que heu trobat i els comentaris sobre els Webs visitats i sobre els resultats obtinguts
No dubteu a consultar-me sobr qualsevol incidència que tingueu; aquest treball és clarament experimental i provocarà situacions diferents segons el tema i el mètode d'obtenció dels materials; doncs, tinc previst que caldrà en algun cas redimensionar el treball per evitar greuges comparatius.
La data límit per fer-me arribar els resultats és el dia 27 de desembre de 1996 a les 17h.
Lluís de Yzaguirre .
Institut de Lingüística Aplicada -
Universitat "Pompeu Fabra"
consultes: de_yza@upf.es