Aspirer un site avec wget

Je reprends, dans son intégralité, l’astuce de ce site qui est juste parfaite: http://www.apprendre-linux.fr/home/aspirerunsiteavecwget

Dans l’exemple ci-dessous, le site sera téléchargé dans le répertoire courant où vous vous trouvez. Si vous ne savez pas dans quel répertoire où vous êtes, taper la commande pwd.

Exemple :

wget -r -k -np -T 10 -t 1 http://www.apprendre-linux.fr/?p=154

-r : signifie que le téléchargement sera récursif (il télécharge aussi les liens de la page)

-k : permet de reconstituer le site localement afin d’être consultable hors connexion dans votre ordi (les liens sont modifiés pour pointer localement)

-np: empêche de remonter dans le répertoire parent.

-T 10 : Time connection. Le temps max en seconde pour aspirer un lien. Quand cette option est omise, un lien difficilement accessible peut ralentir considérablement l’aspiration du site.

-t 1 : Nombre de tentative de connexion s’ il y a erreur 404 (pas de lien). Ici, on veut qu’il n’y ait qu’une seule tentative de connexion afin d’accélérer le traitement d’aspiration.

Il va alors télécharger toutes les pages du site, et créer un dossier portant le nom du site dans votre répertoire courant, contenant toutes les pages web.

Archives

Méta