Hace tiempo estuve organizando el modo de archivar las entradas de este blog. Tal como estaban antes, los archivos se iban amontonando de forma númerada en un mismo directorio, al igual que hacía la antigua versión de MovableType, y ese modo no me acababa de convencer. Después de pensarlo, llegué a la conclusión que lo mejor era archivar las entradas en directorios según año y mes —tal y como después empezó a hacer la versión 3 de movable—. Aún y así, seguí manteniendo los archivos por categorías a modo de un simple listado de entradas en un directorio aparte, y el archivo por meses, en cambio, contenía todas las entradas completas ordenadas cronológicamente de más a menos antiguas para hacer más fácil la lectura de un mes entero sin tener que ir cambiando de página.
Hasta aquí, creo que este no es un mal método: los archivos están agrupados por año y por mes, el nombre de las entradas es su título, los listados de las categorías se archivan en una carpeta a parte... se puede ver en el blog, están tal y como comento. Parecía que todo estaba bien ordenado, para mí lo estaba, pero aún y así sigue habiendo un problema que tiene que ver con las búsquedas que llegan desde Google. El hecho que Google cachee la parte más relevante del post —su título— en el listado de archivos por categoría, en la portada, en los archivos mensuales y en el enlace permanente hace que, cuando alguien busca algo y Google dirige a esa persona a nuestro blog, tiene distintos lugares a los que puede ir de rebote: puede que vaya a la portada —que con el retraso del caché quizá ya no disponga de esa notícia—, o bien a los archivos mensuales —donde dará pereza buscar lo que se venía buscando—, o al listado del archivo por categorías —donde pasará lo mismo— y, en el mejor de los casos, al enlace permanente que es el título del post con su extensión .php y que es donde realmente deberían ir todas las búsquedas.

Hoy en día todo el mundo parece usar el tag <meta name="ROBOTS" content="ALL" />, y eso hace que se indexe absolutamente todo. En su día opté por guardar las entradas así para hacer más fácil su acceso, pero si alguien viene buscando algo concreto, ¿no sería mucho mejor que fuera directamente a ese post? Pues bien, al final he decidido cambiar ese ALL por el NOINDEX,FOLLOW en las plantillas de archivos mensuales, archivos y archivos por categoría. A ver si así puedo ahorrar tiempo a alguien que busque algo sobre lo que escribí... Será cuestión que Google vuelva a indexar estos archivos y ver si hay diferencia. En teoría, de este modo, las páginas de entrada a través de los buscadores deberían ser únicamente los enlaces permanentes y la portada. A ver qué ocurre...
Por ahora google respeta la etiqueta <meta name="ROBOTS" content="XXX" />, pero también se podría hacer modificando el robots.txt. Si agrupáramos los archivos individuales, los mensuales y los archivos de categoría en carpetas distintas sería muy fácil impedir su acceso a los bots.
User-agent: *
Disallow: /mensuales/
Disallow: /categorías/
Este sería un buen modo ya que el robots.txt sí que se soporta por todos los bots de búscadores. Además, por contra, cambiar la ubicación de los archivos a estas alturas podría arrastrar bastantes errores 404, quizá este último modo de archivar se debería tener en cuenta en el caso de un próximo weblog. Por ahora Google sí que respeta el <meta name="ROBOTS" content="XXX" />, y como que la mayoría de búsquedas llegan a través de él... A ver si de ahora en adelante las búsquedas dan como resultado aquello que deberían dar. Sino será cuestión de seguir pensando.
PD: El que quiera mirar algo más sobre el tema puede leerse el artículo “Urls! Urls! Urls!” de A list a part. No está directamente relacionado con lo que he escrito yo, pero también trata el modo de organizar los archivos, esta vez, de un modo más complicado. Sobre como aprovechar bien el robots.txt, aquí hay esta web: www.robotstxt.org.