Formació autodidàctica en mòduls d'Enginyeria lingüística aplicada a la Traducció


Creació d'un corpus a partir de l'Internet

Hi ha múltiples situacions en què ens interessa acumular textos d'una determinada temàtica. Per tal de fer-ho fàcil, us proposem la següent estratègia:
  1. Cercar a l'Internet textos que continguin els mots que us interessa documentar amb l'ajuda dels motors de cerca (mireu-vos, si cal, el mòdul sobre com cercar informació)
  2. Salvar les pàgines resultants (exemple) de les vostres peticions en format HTML. Alguns cercadors fan complicada aquesta operació. Potser en el futur donarem ajuda específica per a aquest pas. En el cas de Google, si entrem a opcions, podrem configurar que el nombre de resultats mostrats sigui 100.
  3. Fins fa poc, podíem documentar els vincles que hem acumulat amb l'aplicació URL2LIST, que genera llistats com aquest sobre tradúctica o aquest sobre terminòtica. Ara, podem netejar els vincles amb el ciberservei netejaURL
  4. Capturar totes les pàgines en mode diferit amb l'aplicació WGET, que trobareu explicada entre els materials de la 3a Escola d'Estiu de Terminologia. Altres vincles:
  5. Triar els documents que us interessen i convertir-los a text amb HTML2TXT.

Per comentaris i observacions, poseu-vos en contacte amb Lluís de Yzaguirre Projecte Apache