You are on page 1of 3

manual de wget muy bueno, visitenlo

To: debian-user-spanish@lists.debian.org

Subject: manual de wget muy bueno, visitenlo

From: linux <liuberperez.mtz@infomed.sld.cu>

Date: Tue, 09 Aug 2011 19:59:58 -0400

Message-id: <[] 4E41C9FE.8060501@infomed.sld.cu>

Aprende Wget con ejemplos

Hay decenas de aplicaciones para descargar archivos, la mayora basadas en interfaces


Web y de escritorio, y para todos los sistemas operativos. Sin embargo en Linux (y
tambin hay versin para Windows) existe el poderoso gestor de descargas de archivos
Wget <http://gutl.jovenclub.cu/wiki/definiciones:wget>. Esta considerado como el gestor
de descargas (downloader) ms potente que existe, soporta http, https y ftp. En este
artculo, a travs de varios ejemplos aprenders sus usos y opciones ms comunes.

Ejemplos bsicos

wget http://ejemplo.com/programa.tar.gz

La manera ms simple de usarlo, descarga el archivo indicado.

wget http://ejemplo.com/programa.tar.gzftp://otrositio.com/descargas/video.mpg

Es posible indicar ms de una descarga a la vez, incluso con distintos protocolos.

wget http://ejemplo.com/*.pdf

Otra manera de descargar varios archivos, con extensin similar. Creamos una lista en
*archivos.txt* que sern descargados

http://ejemplo.com/programa.tar.gz

http://ejemplo.com/rpm/paquete.rpm

ftp://otrositio.com/descargas/distro.iso

Descargamos todos indicando el archivo

wget -i archivos.txt

Si vas a descargar varios archivos, indicalos a travs de una lista en un archivo.

wget -c http://ejemplo.com/distro.iso
wget -i -c archivos.txt

Si la descarga se interrumpi por algn motivo, continuamos la descarga desde donde se


haya quedado con la opcin c.

wget -o reporte.txt http://ejemplo.com/programa.tar.gz


proporciona un reporte (log) sobre la descarga.

wget -o /reporte.log limit-rate=50kftp://ftp.centos.org/download/centos5-dvd.iso

en descargas muy largas como el iso de alguna distro de Linux, puedes limitar el ancho
de banda de la descarga en especfico, ya que podra ser que la descarga se llevar
todo el ancho de banda durante varias horas.

wget http-user=admin http-password=secreto http://ejemplo.com/archivo.mp3

Si es un sitio donde se requiere de usuario/contrasea usa estas opciones.

wget -t 50 http://ejemplo.com/pelicula.mpg

Por defecto, Wget realiza 20 intentos de establecer la conexin e iniciar la descarga,


en sitios muy saturados es posible que ni con 20 intentos se logr, con la opcin t
(tries) aumenta a ms intentos.

wget -t inf http://ejemplo.com/pelicula.mpg

Quieres que intente hasta que logr la conexin?, usa la opcin inf de intentos
infinitos.

Ejemplos avanzados

wget www.linuxtotal.com.mx

Puedes descargar toda una pgina completa, wget no est limitado a solo descargas de
archivos. Sitios completos pueden descargarse tambin.

wget -p www.linuxtotal.com.mx

Lo mismo que lo anterior pero con esta opcin p descarga adems todos los elementos
extras necesarios de la pgina como hojas de estilos, imgenes en lnea, etc.

wget -r www.ejemplo.com-o reporte.log


wget -r -l10 www.ejemplo.com-o reporte.log

Con la opcin r se descarga recursivamente hasta 5 niveles del sitio.

Con la opcin l se aumenta el nivel de recursividad hasta el nmero indicado, tambin


es posible usar inf como valor de recursividad infinito.

wget convert-links-r http://www.sitio.com/

o tambin

wget -k -r http://www.sitio.com/

Por defecto, los enlaces dentro del sitio apuntan a la direccin del dominio completo.
Si deseas descargar el sitio recursivamente y despus estudiarlo fuera de lnea (off
line) usa la opcin convert-links que los convertir en enlaces locales, apuntando a
las pginas dentro del sitio descargado.

wget -r -l3 -P/tmp/sitioftp://www.unsitio.com/

Por defecto, el sitio a descargar se guarda en el mismo directorio donde ests


ejecutando wget, con la opcin P puedes indicar un directorio distinto.

wget mirror http://www.linuxtotal.com.mx/

o tambin

wget -m http://www.linuxtotal.com.mx/
De este modo obtienes una copia (un espejo) completa del sitio. La opcin mirror es
igual a usar las opciones -r -l inf -N que indica recursividad a nivel infinito y
obtienendo la marca de tiempo original de cada archivo descargado (opcin -N).

wget mirror convert-links html-extension http://www.linuxtotal.com.mx

o tambien

wget -m -k -E http://www.linuxtotal.com.mx

Si descargas el sitio completo para verlo fuera de lnea (off line) es posible que
varios archivos descargados no se abran, debido a extensiones como .cgi, .asp o .php,
es entonces posible indicarle a wget con la opcin E o html-extension que convierta
todos los archivos a extensin .html.

wget -H -r -l3 -k -E -p http://miblog.sitiodeblogs.com

la opcin H (span hosts) expande la recursividad a los sitios desde donde se enlace el
original. Este comando descargar el sitio con una recursividad de 3 niveles (-r -l3),
conviertiendo los enlaces a locales para examinarlo off line (-k), convierte todo a
extensiones .html (-E), descarga completamente imgenes y dems elementos de cada
pgina (-p) y adems descarga la pgina externa de los enlaces que apunten fuera
del sitio (-H).

Este tipo de descargas, dependiendo del sitio, puede llenar todo un disco duro!!!!, asi
que salo a discresin.

Un ejemplo extremo de la potencia de wget

El siguiente ejemplo viene muy bien detallado en este sitio, es una lnea que busca
archivos de msica mp3 desde una lista de sitios que previamente hayas definido,
recuerda, un rengln por cada sitio.

wget -r -l1 -H -t1 -nd -N -np -A.mp3-erobots=off-i sitiosmp3.txt

Vemoslo por partes:

[-r -l1] recursivo en solo un nivel, solo buscar un nivel en cada subdirectorio que
encuentre por sitio.
[-H] si dentro del sitio encuentra un enlace externo, que lo siga, ya que posiblemente
lleve a otro sitio de descarga de mscia.
[-t1] -t es igual tries, solo har un intento de conexin, si no lo logra continua al
siguiente sitio.
[-nd] indica no crear subdirectorios para cada archivo descargado, es decir, todo nos
lo deja en el mismo lugar.
[-N] conserva la fecha y hora (timestamp) del archivo original que se descargue, de
otro modo pondra la fecha y hora de nuestro sistema.
[-np] no parent, no seguir enlaces a directorios superiores, solo del actual y uno
haca abajo, por -r -l1
[-A.mp3] -A indica a wget el tipo de archivo a descargar solamente, en este caso solo
mp3.
[-erobots=off] esto evita que wget ignore los archivos robots.txt que pudiera haber,
ya que puede ser que dentro de estos archivos haya indicaciones de que subdirectorios
los buscadores no deben hurgar (incluyendo a wget). Con esto lo evitamos y buscamos en
todo el nivel.
[-i sitiosmp3.txt] el archivo con la lista (hecha a tu gusto, con unos cuantos o
decenas de sitios de msica) de los sitios desde donde buscar mp3 y descargarlos.

Si ejecutas este comando de manera diaria o a travs de un cron entonces se descargar


la msica, y gracias a la marca de tiempo solo descargar los que sean ms nuevos que
el original.

--

You might also like