Formació autodidàctica en mòduls d'Enginyeria lingüística aplicada a la Traducció


URL2List

 

L’URL2List neteja el resultat d'una recerca per mitjà d'un buscador a internet, un cop seleccionades unes pàgines a internet sobre un tema determinat. Això ens permet fer-ne una llista i salvar-la per tenir-la a mà nosaltres mateixos com a consultors habituals d’un tema determinat, per posar-la a l’abast d’altres usuaris de la xarxa, o descarregar-lo si volem crear un corpus especialitzat.

 

URL2List és un programa creat pel Dr. Lluís de Yzaguirre per separar els vincles que ens interessen d’una recerca cibernètica i ajuntar-los en un únic document.

El problema és que Altavista, a part de la informació rellevant que hem sol·licitat quan fem una recerca i totes aquelles pàgines que no són rellevants però que també apareixen, inclou una altre tipus d’informació que no té res a veure amb la recerca: la informació de publicitat, els botons de translate, les primeres paraules de la pàgina, etc. A més, trenca la recerca en grups de pàgines, de 10 en 10. Tot això embruta el mecanisme de recerca i fa necessari algun programa de neteja de la informació. URL2List s’ha creat, doncs, amb aquesta finalitat.

 

Passos per a l’execució de URL2List.

Interacció URL2List - Html2txt

 

Alba Comas i Balada 


Per comentaris i observacions, poseu-vos en contacte amb Lluís de Yzaguirre ( de_yza@upf.es)

Pàgina servida per XITAMI