|
L’Html2txt ens permet convertir el text de les pàgines web en format txt i, a més, unir els contingut textual de diferents pàgines, una darrera l’altra, de manera que les podem utilitzar com a corpus per a qualsevol activitat. Aquest programa es troba lliurement a internet.
Zip amb el programa Html2txt
Actualment ja no proposem uns passos per a l’execució de Html2txt, sinó que trobem més senzill capturar des de WGET a un sol fitxer (mireu-ne els paràmetres d'execució) o bé ajuntar tots els fitxers HTML en un de sol fent al promt>COPY *.HTM TOTJUNT.HTM; potser ho haureu de repetir per als html, però us estalviareu molta feina.
Interacció URL2List - Html2txt
Alba Comas i Balada
Per comentaris i observacions, poseu-vos en contacte amb Lluís de Yzaguirre ( de_yza@upf.es) |