Aspirer un site web
Mode d'emploi pour Windows / Linux / MacOS X
Si vous avez le présentement qu'une société va bientôt changer son site web et que vous souhaitez garder une trace de son ancien site web dans vos archives (j'ai des sites web qui ont 6 ans sur mon disque dur, on a vraiment l'impression de se promener dans un musé), il y a un logiciel simple et gratuit qui le fait : HTTrack
Il permet aussi de rapartrier un site avec des photos (galeries) et les consulter avec votre logiciel favoris en diaporama plutôt que de cliquer sur chaque images puis revenir en arrière, et sélectionner l'image suivante
HTTrack est disponible pour Windows , MacOS et Linux.
Windows : télécharger le logiciel
ici ou
ici ou encore sur le site officiel
iciMacOS X 10.3 ou supérieur : Suiviez la procédure
ici qui est un peu + complexe que pour Windows ou linux.
Linux : Cherchez dans les paquages de votre distributions. Sous Ubuntu, menu
Applications =>
Ajouter/enlever... => tapez
HTTrack =>
Valider (2 incones seront instalée dans le menu
Applications =>
InternetCommun à tous : (copie d'écran avec Linux Ubuntu, il peut y avoir de petites modifications sous Windows)
1/ Cliquez sur l'icône
WebHTTrack Website CopierVotre navigateur web démarre (Sous Ubuntu, il démarre Galeon même si Firefox est votre navigateur par default).
Cliquez sur
Francais puis
Suivant :
2/ Donnez un nom au projet (c'est le nom qu'il va donner au dossier qui contient tous les fichiers)
Optionnel : vous pouvez spécifier une catégorie
3/ Indiquez la ou les URL du site à aspirer.
Cliquez sur
Définir les options...
4/ Dans contrôle du flux mettre
1 connexion.
Pourquoi 1 conneixon ? avec une connexion, vous allez faire chaque demande lui aprés l'autre au serveur web ce qui est déja asse fatiguant pour lui. Même avec une connexion, il y a des risques de se faire bannir du site, c'est pourquoi nous allons mettre d'autres limites
5/ Cliquez sur
limitesEn fonction du site web que vous aspirez, séléctionner le débit maximum (ici
25000 soit 25 Ko/s, convient pour tous les sites qui n'ont pas de vidéos, pour les sites qui ont des vidéos, mettez
500000 soit 500 Ko/s (4 Mb/s) mais rajouter la limite de
1 connexion par seconde )
Si le site utilise PHP + MySQL, il faut mettre une limite de plus :
1 connexions par secondes (au maximum 2). Pourquoi ? les requêtes PHP + MySQL sont lourdes (vous voyez que vous utilisez environ 0.6 seconde de CPU sur le serveur lafibre.info pour chaque page PHP demandé.)
Edit : depuis que le serveur est + puissant cela met moins de temps

Bref, jouez avec les limites en fonction du site de façon à imiter une connexion manuelle intensive. Si un site a des pages statiques, ne mettez pas de limite de connexion par seconde, il s'en moque un peu du nombres, cela lui prend peu de CPU. Pour des pages en PHP, cette limite me semble indispensable et nécessaire si c'est du PHP couplé à une base de donnée (MySQL par exemple)
Si vous téléchargez un site de manière brutale un gros site, vous risquez soit d'avoir des pages à problémes (certains hébergeurs limitent le nombre de requettes MySQL à 3 simultanément) ou votre ip risque d'être banni soit automatiquement par les système gérant le déni de service soit manuellement par un administrateur qui surveille bien son serveur.
6/ Cliquez sur
Suivant, cela commence, réduisez l fenêtre et continuez votre trauil, il en a pour plusieurs heures si il y a beaucoup de données à rapatrier...
7/ Vous obtenez un site lisible sans serveur web (les pages dynamique .php sont transformée en statique .html avec un peu de perte au passage

) vous pouvez récupérer les photos dans l'arborésence ou si le but est d'archiver, vous avez a la racine de tous vos sites aspirés un page web qui pointe vers chaque site aspirés :

PS : Si vous avez vraiment envie de télécharger le forum, le faire exclusivement sur la plage 1h -> 7h vu les lenteur que cela entraîne pour les autres.