juanjonavarro.com

secciones

Guardar un archivo de páginas de interés

Hace unos días decía que prácticamente ningún enlace de más de 5 años sobrevive al link rot. Por lo tanto es básico que encontremos alguna forma de guardar los artículos, imágenes, etc, que nos resulten interesantes como referencia posterior.

Archivo

Para hacerlo tenemos varias soluciones:

Wayback Machine

Lo primero que debes saber, y esto es útil para contenidos pasados que ya has perdido, es que puede que otro ya haya archivado ese enlace por ti. Existe una organización que trata de archivar la web en su totalidad y cuya base de datos se puede consultar en Wayback Machine. Desde aquí podemos ver todas las “instantáneas” que a lo largo del tiempo se han tomado de una url y acceder a una copia de dicha url en ese momento.

Navegadores

Todos los navegadores permiten guardar la página web que estamos visitando. La clave aquí es seleccionar la opción “Página web completa” cuando vayamos a guardar la página, de tal modo que junto al texto se guarden las imágenes que acompañan a la web. Otro punto importante es que tengamos un buen sistema de archivado en nuestro disco duro, creando algún tipo de estructura por años, por dominios, o cualquier otra forma que nos permita luego recuperar la página cuando la necesitemos.

Programas específicos

El programa HTTrack permite descargar una web. De hecho su función es más bien descargar toda una web (es decir todo el conjunto de páginas, o un subconjunto, que forman parte de una web) aunque también se puede usar para descargar una sola página.

Del mismo modo, el clásico programa de línea de comandos wget permite descargar toda una web o una sola página. Para descargar una sola página utilizaríamos

wget -k -p -E http://www.example.com

Evernote como archivo de páginas

Evernote

Evernote tiene herramientas que lo convierten en una buena opción (esta es la que yo estoy utilizando en la actualidad).

En primer lugar el plugin de captura es muy flexible, por lo menos desde el navegador chrome. Permite capturar toda la página o el artículo simplificado (solo el texto, como hacen las herramientas de “leer después”). Además permite marcar un trozo del texto antes de guardarlo (el texto queda resaltado en fosforito amarillo).

Lo más importante es que Evernote, aparte de la herramienta de archivado, te proporciona la herramienta de recuperación de la información. Su buscador funciona muy bien, te permite también buscar dentro del texto de los PDF archivados e incluso permite buscar texto dentro de las imágenes (gracias a que las pasa por un proceso de OCR)

Finalmente, en el caso de que en un futuro lejano el servicio deje de estar disponible (o por cualquier razón dejemos de utilizarlo) se pueden exportar en formato html estándar todas las páginas capturadas.

Como digo, yo esta es la opción que vengo usando desde hace un tiempo. Antes guardaba los artículos (normalmente la versión simplificada de los mismos) en distintas libretas, pero desde hace poco estoy intentando llevar una estructura más organizada de archivado, con una librera para cada año.

Servicios de “leer después” y de “bookmarks”

Los servicios para “leer después” (Readability, Pocket, Instapaper) guardan una copia del artículo en su archivo. La búsqueda en este archivo está después disponible, en algunos de modo gratuito y en otros mediante una cuenta premium.

Del mismo modo, el servicio de “bookmarks” Pinboard permite archivar el texto de los enlaces que guardamos en él si contratamos la cuenta premium.

Lo que no os puedo decir, porque lo desconozco, es si estos servicios tienen alguna opción para exportar a html todo nuestro archivo, para el caso de que alguna vez queramos dejar de usar el servicio.

2 Comentarios
Juan Lupión
3 marzo 2015, 06:44 — #1

De Pinboard, te puedo poner lo que dice la referencia al respecto de la funcionalidad de archivar páginas web:

«We’ll remind you when it’s time to renew your account. If you choose not to renew, you’ll have an opportunity to download your full set of archived bookmarks for safekeeping.»

Así que parece que la funcionalidad de descargar los archivos está disponible al menos si expira tu cuenta.

En cuanto a otras alternativas, Inoreader (que es el lector de feeds RSS que vengo usando desde hace tiempo y me recuerda a los viejos tiempos de Bloglines) también ofrece desde hace poco esta misma capacidad, aunque no la uso: http://blog.inoreader.com/2015/02/save-web-pages-straight-to-inoreader.html

Juanjo Navarro
3 marzo 2015, 14:32 — #2

Juan, no tengo claro que lo de Inoreader sea exactamente esto… parece más bien la posibilidad de “guardarte” cualquier url en el lector (frente a tener que “guardarte” siempre algo que estés leyendo como un feed). No se si realmente luego tienes forma de exportar eso (el contenido, no la url)

En cualquier caso, gracias por la referencia de Inoreader, no lo conocía. Ya lo estoy probando :-) (así pruebo algo distinto de Feedly)

Comentarios cerrados para este artículo