Navegar por Internet forma parte del día a día de muchos usuarios. Podemos encontrar infinidad de páginas disponibles para informarnos, comunicarnos, descargar software, aprender… Podemos navegar además desde todo tipo de dispositivos y sistemas. Eso sí, en ocasiones por diferentes motivos puede que una web no esté disponible o que no tengamos conexión para acceder a ella. Por suerte podemos hacer uso de algunas opciones para descargarla y tenerla siempre disponible. En este artículo vamos a hablar de Wget, una función de Linux para descargar una página web en nuestro equipo.
Linux es uno de los sistemas operativos más personalizables del mundo. Y es por ello que se basa mucho en las descargas que realizamos de la red. Para ello, tenemos herramientas como Wget, que hacen que todo el proceso de descarga sea más sencillo.
Wget, la función para descargar archivos en Linux
Esta herramienta es totalmente gratuita y de software libre. Está disponible para Linux, por lo que podemos usarla en distribuciones como Ubuntu o Linux Mint sin problemas. Permite descargar archivos de una manera sencilla. Soporta diferentes opciones como HTTP, HTTPS o FTP.
Es por tanto una herramienta muy interesante si queremos descargar contenido de este tipo de una manera sencilla. Tiene funciones que garantiza la conexión, para que no haya cortes y no se descarguen todos los archivos correctamente. Podemos además descargar grandes archivos y modificar el límite de ancho de banda que queremos utilizar para no sobrecargar el ancho de banda.
Descargar una web con Wget
Aunque no es una herramienta exclusiva para descargar una página web, sí es una función muy interesante que podemos utilizar. En muchas ocasiones puede que necesitemos tener una web en nuestro equipo sin tener que acceder a Internet. Wget nos permite lograrlo de una manera sencilla desde Linux.
Para descargar una página web con Wget tenemos que ejecutar el siguiente comando desde la terminal de Linux:
wget -m -F -p -np -k -erobots=off -U mozilla --limit-rate=50K --wait=2 --html-extension sitioweb
En este caos podríamos cambiar diferentes parámetros. Uno de ellos, el principal, es sitio web. Podemos, por ejemplo, descargar la web de RedesZone. En este caso tendríamos que cambiar “sitioweb” por https://www.redeszone.net.
Algunos de los parámetros también los podemos modificar. Por ejemplo “limit-rate” es para limitar la velocidad al realizar la descarga. Esto es muy útil si tenemos una conexión de Internet que no cuente con un gran ancho de banda y vamos a descargar constantemente archivos. De esta forma no nos afectará en gran medida a nuestra conexión y podremos seguir navegando con normalidad.
Respecto al parámetro “U”, podemos cambiarlo por el navegador que más nos interese. Básicamente permite ver la página correctamente con el navegador que pongamos ahí. El parámetro “F” lo ponemos para que fuerce a descargar la web aunque encuentre algún problema. Por ejemplo si encontrara algún archivo corrupto, como una imagen o cualquier cosa que no se pueda descargar correctamente, seguiría la descarga igual.
Cuando tengamos todo esto relleno simplemente tenemos que darle a ejecutar. Automáticamente comenzará a descargar la web que hemos elegido a través de la terminal de Linux. Este proceso puede tardar mucho más o menos en función de cómo sea ese sitio, el límite de descarga que hemos puesto, etc. Mientras más compleja sea la web y más archivos tenga, más tardará.
Posteriormente, una vez se ha descargado la página web, aparecerán los archivos en el directorio guardado, con el nombre de ese sitio web. De esta forma ya la tendremos disponible para poder abrir sin necesidad de Internet.
Precauciones necesarias
A pesar de que estamos ante una funcionalidad muy utilizada en todo el mundo, siempre es bueno utilizarla con precaución. Esto nos evitará problemas de seguridad y otro tipo de inconvenientes. En todo caso, aquí tenemos algunas recomendaciones a la hora de dar uso de Wget.
- Verificación de URL: Antes de descargar contenido alguno, debemos asegurarnos de que la URL que vamos a utilizar para la descarga es de una fuente confiable. De este modo podremos evitar la descarga de software malicioso.
- Uso de opciones correctas: Siempre debemos asegurarnos de comprender las opciones que estamos utilizando con Wget. Esto nos evitará diferentes operaciones que no son deseadas. Como puede ser el «-r» o «–recursive». Esto puede hacer que Wget descargue todo en un sitio web, lo cual puede no ser lo más adecuado en muchos casos.
- Evitar descarga inadvertida: Como mencionamos previamente, hay opciones de descarga recursiva. Esto quiere decir que no hay filtros para realizar la propia descarga. Esto nos puede llevar a la descarga de enormes cantidades de datos. Y posiblemente ayude a llenar el espacio de almacenamiento, consumiendo así grandes cantidades de recursos de ancho de banda.
- Restricciones: De forma predefinida, Wget respeta el archivo «robots.txt» de los sitios web. Esto se encarga de definir qué partes de esas webs se pueden descargar o rastrear. En cambio, puede llegar a ser anulado con alguna opción. Por lo cual es muy importante ser éticos, y no descargar contenidos que los propietarios de los sitios no quieren que descarguemos.
- Limitar tasa de descarga: Tenemos una opción, que es «–limit-rate», la cual nos ayuda a restringir la velocidad de descarga. Esto lo haremos cuando no queramos que se consuman todo el ancho de banda disponible en una sola actividad.
- Consideraciones de seguridad: Si descargamos sobre HTTPS, Wget verificará los certificados SSL de los sitios web por defecto. Esta es una opción que no se debe deshabilitar, excepto que tengamos una razón válida y se comprendan todos los riesgos posibles.
Por qué es útil descargar una web
En ocasiones no tenemos Internet. Por ejemplo puede ocurrir que vayamos a coger un avión y vayamos a estar varias horas sin conexión. Podemos descargar páginas web que vayamos a necesitar para trabajar o leer información durante ese tiempo. Esto es algo que podemos preparar de antemano y poder abrirlas sin Internet.
También puede ser interesante cuando necesitemos cambiar o analizar algunos aspectos de un sitio web. Podemos descargarlo y abrirlo con algún sistema operativo diferente o equipo donde no tengamos conexión pero sí herramientas para llevar a cabo cambios específicos.
En definitiva, descargar un sitio web es algo que puede resultar muy útil para los usuarios en determinadas ocasiones. Tenemos diferentes herramientas a nuestra disposición, tanto para Linux como para otros sistemas como Windows. Sin embargo Wget es una herramienta muy sencilla para utilizar.