You are on page 1of 9

Para tener una página web correctamente configurada, además de los archivos básicos para su

funcionamiento, es necesario añadir algunos archivos adicionales que ayudarán a la puesta en marcha de la
web en el servidor e indicarle a Google que es lo que tiene que indexar de una página web.

1. El archivo .htaccess
El archivo htaccess.txt es un documento de texto especial que comenzó a usar Apache desde sus inicios y
se utiliza para configurar una página web en el servidor mediante instrucciones. Se puede modificar
mediante el editor de texto de Windows o cualquier otro programa para editar texto como Notepad++.
El uso de este archivo es muy extenso y va desde la restricción de seguridad en directorios hasta el control
de la caché del servidor. En este artículo te voy a hablar de los 3 usos más comunes que puedes darle a
este archivo para tener tu web configurada correctamente.
En un servidor remoto, para que el archivo htaccess.txt funcione correctamente es necesario renombrarlo
como .htaccess.

a. Código de WordPress
Una vez instalado WordPress en un servidor remoto, dirígete a Ajustes >> Enlaces permanentes. En
“Ajustes comunes” selecciona “Nombre de la entrada” y automáticamente WordPress asignará el texto
/%postname%/ en el campo “Estructura personalizada”. Adicionalmente, WordPress creará el archivo
.htaccess en el servidor con el siguiente código:

[code lang=”js”]<br />


# BEGIN WordPress<br />
&amp;amp;lt;IfModule mod_rewrite.c&amp;amp;gt;<br />
RewriteEngine On<br />
RewriteBase /<br />
RewriteRule ^index\.php$ – [L]<br />
RewriteCond %{REQUEST_FILENAME} !-f<br />
RewriteCond %{REQUEST_FILENAME} !-d<br />
RewriteRule . /index.php [L]<br />
&amp;amp;lt;/IfModule&amp;amp;gt;<br />
# END WordPress<br />
[/code]

Con estas líneas de código ya se ha configurado el uso de WordPress para URL’s amigables.

b. Redirección del dominio sin www o con www


Esta regla se utiliza para forzar el uso del dominio con o sin las www. Esto es muy recomendable y “casi
obligatorio” hacerlo ya que Google actualmente detecta las páginas con www y sin www como dos páginas
diferentes y para el posicionamiento SEO lo considera como contenido duplicado siendo muy penalizable.
Si quieres tú dominio sin www (http://tudominio.com/) añade el siguiente código en .htaccess:

[code lang=”js”]<br />


RewriteEngine on<br />
RewriteCond %{HTTP_HOST} .<br />
RewriteCond %{HTTP_HOST} !^www.tudominio.com\.com<br />
RewriteRule (.*) tudominio.com/$1 [R=301,L]<br />
[/code]

Si quieres tú dominio con www (http://www.tudominio.com/) añade el siguiente código en .htaccess:

[code lang=”js”]<br />


RewriteEngine on<br />
RewriteCond %{HTTP_HOST} ^tudominio.com [NC]<br />
RewriteRule ^(.*)$ http://www.tudominio.com/$1 [L,R=301]<br />
[/code]
Aunque algunos programadores suelen recomendar el uso del dominio sin www por ser la URL más corta, a
mi en lo personal me gusta con www. Desde mi punto de vista creo que es algo relativo y a gusto de cada
quien ya que por los momentos no he encontrado diferencias con el uso de esta regla en sus dos variantes.

c. Redirección de una página interna


Otro de los motivos de penalización por parte de Google es el típico error 404. Este error es generado por
algún fallo humano al momento de añadir un enlace en un texto y otras veces por alguna página interna que
ha dejado de existir.
Para solventar este fallo y evitar ser penalizados por Google existe el redireccionamiento 301 que se puede
configurar en .htaccess (solo para servidores que funcionen con Apache) añadiendo el siguiente código:

[code lang=”js”]<br />


# Redireccion 301<br />
redirect permanent /pagina-vieja/ http://www.tudominio.com/pagina-nueva/<br />
[/code]

(Si estás usando el redireccionamiento del dominio con www)

[code lang=”js”]<br />


# Redireccion 301<br />
redirect permanent /pagina-vieja.html http://tudominio.com/pagina-nueva/<br />
[/code]

(Si estás usando el redireccionamiento del dominio sin www)

En el formato .txt el símbolo “#” se utiliza para añadir comentarios. La primera línea, #Redireccion 301, es
solo un comentario que indica lo que la siguiente línea de código va a hacer. Puedes buscar en Google más
información sobre el archivo .htaccess para ver que otro tipo de funciones te puede brindar para configurar
tu página web.

2. El archivo robots.txt
Este es un fichero de texto que se utiliza para configurar una página web y se aloja en la raíz del servidor
para indicarle a los buscadores cuales son los “bots” que tienen acceso a rastrear la web y cuáles no. A
diferencia del archivo .htaccess el archivo robots se aloja sin ser renombrado, es decir, el archivo tendrá el
nombre robots.txt.
Los buscadores o “crawlers” son básicamente robots que acceden a los sitios webs para buscar información
en ellas, indexarlas y mostrarlas luego en sus resultados de búsqueda.
Los robots más utilizados son:
Googlebot: Es el nombre del crawler para el buscador de Google.
Mediapartners-Google: Es el crawler de Google encargado de comprobar un página de destino como una
Landing Page.
Adsbot-Google: Es el crawler de Google encargado de revisar los anuncios de AdWords.
Googlebot-Image: Es el robot que indexa las imágenes en Google.
Bingbot: Es el crawler encargado de indexar las páginas de Bing.
La regla más básica para permitir a todos los robots rastrear una página viene dada por:

[code lang=”js”]<br />


User-agent: *<br />
Disallow:<br />
[/code]

El * significa que se le permite la entrada a cualquier robot. Si solo deseas permitir el acceso a uno en
específico, sustituye el * por el nombre del robot:
[code lang=”js”]<br />
User-agent: Googlebot<br />
Disallow:<br />
[/code]

Si quieres restringir el rastreo de cualquier robot a tu web o a un directorio en concreto, escribe el nombre
de este directorio a continuación de Disallow:

[code lang=”js”]<br />


User-agent: *<br />
Disallow: / (Se restringe el rastreo a todo tu sitio)<br />
[/code]

[code lang=”js”]<br />


User-agent: *<br />
Disallow: /cgi-bin/ (Se restringe el rastreo al directorio /cgi-bin/)<br />
[/code]

Es posible combinar varias instrucciones Disallow para un mismo robot pero nunca se podría combinar la
instrucción que restringe a todo el sitio con un directorio a la vez:

[code lang=”js”]<br />


User-agent: Googlebot<br />
Disallow: /cgi-bin/<br />
Disallow: /css/<br />
Disallow: /js/<br />
Disallow: /template/<br />
[/code]
Una instrucción adicional que puedes añadir al archivo robots.txt es el sitemap:

[code lang=”js”]<br />


Sitemap: http://www.tudominio.com/sitemap.xml<br />
[/code]

Uniéndolo todo en un solo archivo robots.txt, típico en una instalación de WordPress, quedaría de la
siguiente manera:

[code lang=”js”]<br />


User-agent: Googlebot<br />
Disallow:</p>
<p>User-agent: Adsbot-Google<br />
Disallow:</p>
<p>User-agent: Mediapartners-Google<br />
Disallow:</p>
<p>User-agent: Googlebot-Image<br />
Disallow:</p>
<p>User-agent: Bingbot<br />
Disallow:</p>
<p>User-agent: *<br />
Disallow: /cgi-bin/ (Algunos servidores lo suelen incluir)<br />
Disallow: /wp-admin/<br />
Disallow: /wp-includes/<br />
Disallow: /wp-content/plugins/<br />
Disallow: /wp-content/cache/<br />
Disallow: /wp-content/themes/<br />
Disallow: /wp-login.php<br />
Disallow: /wp-register.php</p>
<p>Sitemap: http://www.tudominio.com/sitemap.xml<br />
[/code]

3. Sitemap de Google
El sitemap.xml es un archivo que se utiliza para configurar una página web en el que se indican, mediante
un formato específico, todas las páginas que componen tu sitio y que quieres que sean indexadas.
Este archivo, aunque no es obligatorio, es muy recomendable crearlo ya que, si no existe o no se indica lo
contrario en el archivo robots.txt, los buscadores indexarán todo lo que encuentren en tu sitio web y en un
futuro es posible que tengas problemas de indexación y errores 404.
El formato básico para la creación de un sitemap.xml viene dado por:

[code lang=”js”]<br />


&amp;amp;lt;urlset
xmlns=&amp;amp;quot;http://www.google.com/schemas/sitemap/0.9&amp;amp;quot;&amp;amp;gt;<br />
&amp;amp;lt;url&amp;amp;gt;<br />
&amp;amp;lt;loc&amp;amp;gt;http://www.tudominio.com/&amp;amp;lt;/loc&amp;amp;gt;<br />
&amp;amp;lt;priority&amp;amp;gt;1.0&amp;amp;lt;/priority&amp;amp;gt;<br />
&amp;amp;lt;lastmod&amp;amp;gt;2017-05-01&amp;amp;lt;/lastmod&amp;amp;gt;<br />
&amp;amp;lt;changefreq&amp;amp;gt;monthly&amp;amp;lt;/changefreq&amp;amp;gt;<br />
&amp;amp;lt;/url&amp;amp;gt;<br />
&amp;amp;lt;url&amp;amp;gt;<br />
&amp;amp;lt;loc&amp;amp;gt;http://www.tudominio.com/pagina01/&amp;amp;lt;/loc&amp;amp;gt;<br />
&amp;amp;lt;priority&amp;amp;gt;0.9&amp;amp;lt;/priority&amp;amp;gt;<br />
&amp;amp;lt;lastmod&amp;amp;gt;2017-05-01&amp;amp;lt;/lastmod&amp;amp;gt;<br />
&amp;amp;lt;changefreq&amp;amp;gt;monthly&amp;amp;lt;/changefreq&amp;amp;gt;<br />
&amp;amp;lt;/url&amp;amp;gt;<br />
&amp;amp;lt;url&amp;amp;gt;<br />
&amp;amp;lt;loc&amp;amp;gt;http://www.tudominio.com/pagina03/&amp;amp;lt;/loc&amp;amp;gt;<br />
&amp;amp;lt;priority&amp;amp;gt;0.9&amp;amp;lt;/priority&amp;amp;gt;<br />
&amp;amp;lt;lastmod&amp;amp;gt;2017-05-01&amp;amp;lt;/lastmod&amp;amp;gt;<br />
&amp;amp;lt;changefreq&amp;amp;gt;monthly&amp;amp;lt;/changefreq&amp;amp;gt;<br />
&amp;amp;lt;/url&amp;amp;gt;<br />
&amp;amp;lt;url&amp;amp;gt;<br />
&amp;amp;lt;loc&amp;amp;gt;http://www.tudominio.com/pagina03/&amp;amp;lt;/loc&amp;amp;gt;<br />
&amp;amp;lt;priority&amp;amp;gt;0.9&amp;amp;lt;/priority&amp;amp;gt;<br />
&amp;amp;lt;lastmod&amp;amp;gt;2017-05-01&amp;amp;lt;/lastmod&amp;amp;gt;<br />
&amp;amp;lt;changefreq&amp;amp;gt;monthly&amp;amp;lt;/changefreq&amp;amp;gt;<br />
&amp;amp;lt;/url&amp;amp;gt;<br />
.<br />
.<br />
.<br />
&amp;amp;lt;/urlset&amp;amp;gt;<br />
[/code]

Cuando tienes una página web, es muy recomendable darte de alta en Google Search Console ya que te
permitirá mantener tu web correctamente configurada y te avisará de posibles errores. Esta herramienta
cuenta con un apartado para dar de alta el sitemap.xml de tu página web. Incluso tienes la posibilidad de
crear varios sitemap si tu web es muy extensa y dividirlos en categorías, pdf, videos o como mejor lo
prefieras.

Conociendo estas 3 técnicas fundamentales, podrás configurar una página web correctamente sin
cometer errores. Estas técnicas son de gran utilidad y muy sencillas de implementar. Aunque ninguna es
obligatoria, es muy recomendable crearlas y configurarlas correctamente para el buen funcionamiento de tu
página web.

¿Te ha gustado?
Valora este artículo: (6 votos, promedio: 4,33 de 5)
Deja un comentario si tienes alguna duda o comparte como ha sido tu experiencia.

You might also like