Formació autodidàctica en mòduls d'Enginyeria lingüística aplicada a la Traducció


Html2txt

L’Html2txt ens permet convertir el text de les pàgines web en format txt i, a més, unir els contingut textual de diferents pàgines, una darrera l’altra, de manera que les podem utilitzar com a corpus per a qualsevol activitat. Aquest programa es troba lliurement a internet.

Zip amb el programa Html2txt

Actualment ja no proposem uns passos per a l’execució de Html2txt, sinó que trobem més senzill capturar des de WGET a un sol fitxer (mireu-ne els paràmetres d'execució) o bé ajuntar tots els fitxers HTML en un de sol fent al promt>COPY *.HTM TOTJUNT.HTM; potser ho haureu de repetir per als html, però us estalviareu molta feina.

Interacció URL2List - Html2txt

Alba Comas i Balada


Versió empaquetada del programa

Per comentaris i observacions, poseu-vos en contacte amb Lluís de Yzaguirre ( de_yza@upf.es)

Pàgina servida per XITAMI