martes, 15 de enero de 2013

Práctica12. Cálculo de PageRank

El cálculo de PageRank es uno de los factores que determinan el posicionamiento de una página web en Google. Atendiendo a este aspecto de gran importancia para el ordenamiento de los SERPs, se propone la resolución de una práctica de cálculo asistido por un simulador de PageRank, que permite realizar las 10 primeras iteraciones del cálculo, o bien utilizar la fórmula básica por defecto para efectuar un cálculo puntual  (a modo de prueba) de un sitio web determinado.


Práctica11. Configurar archivos robots.txt y sitemap.xml

La configuración de los archivos robots.txt y sitemap.xml constituyen uno de los principios por los que se determinan las rutas de indexación y acceso de los webcrawler de los motores de búsqueda. A partir de las instrucciones y documentación oficial analizada, resolver la práctica editando tales archivos. 

Descargar práctica11

lunes, 14 de enero de 2013

Tácticas de posicionamiento web - SEO search engine optimization

Qué es posicionamiento web o search engine optimization

El posicionamiento web, también conocido como SEO (search engine optimization) tiene su origen en el año 2001 en el contexto del marketing como aquellos métodos que permitían una mejor visibilidad de los productos anunciados a través de los buscadores en la web (SULLIVAN, D. 2004), aunque su aplicación en el contexto de la recuperación de la información y la Documentación, no llegará hasta el año 2005, momento aproximado en el que se comienza a explotar y estudiar de forma científica los métodos para obtener un mejor puesto entre las páginas de resultados del principal buscador en la web, Google. De hecho Lluis Codina lo define de la siguiente forma:
Posicionar es colocar alguna cosa en su lugar óptimo. En el ámbito de la world wide web, posicionar un sitio significa optimizarlo para que aparezca en las primeras posiciones de las páginas de resultados de los motores de búsqueda. Así mismo, podemos definir posicionamiento web como el conjunto de procedimientos y técnicas que tienen como finalidad dotar a un sitio o a una página web de la máxima visibilidad en Internet. (CODINA, L.; MARCOS, M.C. 2005)
Academic Search Engine Optimization (ASEO) es la creación, publicación y modificación de documentos académicos de una manera que hace que sea más fácil para los motores de búsqueda académicos a ambos lo rastreo y el índice. (BEEL, J.; GIPP, B.; WILDE, E. 2010)
Def1: Conjunto de procedimientos y técnicas que estudian las características que proporcionan a un sitio o una página web la máxima visibilidad en Internet. Def2: Conjunto de procedimiento que permiten colocar un sitio o una página web en un lugar óptimo entre los resultados proporcionados por un motor de búsqueda. Por extensión: Optimizar una página web de cara a los resultados proporcionados por los motores de búsqueda. (CODINA, L. 2004)
Posicionamiento Web puede definirse como el conjunto de métodos de programación, etiquetado, descripción, promoción y enlazamiento (legítimos o no), que permiten inferir en el cálculo de un algoritmo de ordenación, con el objetivo de ordenar un recurso o página web entre las primeras posiciones de las páginas de resultados de un buscador y ante un conjunto de consultas (conocidas o no) dadas por el usuario. BLÁZQUEZ OCHANDO, M. 2013.


Tipos de posicionamiento web
  • Posicionamiento natural
  • Posicionamiento planificado ético
  • Posicionamiento planificado fraudulento

Qué aspectos favorecen la promoción y mejor posicionamiento de un sitio web
  • Uso de etiquetas <title></title>. La presencia o ausencia de texto en las etiquetas <title> marca la diferencia entre recuperar o no una página web, ya que cualquier webcrawler los indexa, pondera y alfabetiza. De hecho, las páginas web en cuyo título se encuentra algún término de la consulta del usuario son posicionadas preferentemente sobre las que sólo los contienen en alguna parte del texto. 
  • Uso de meta-etiquetas <meta name='' content=''/>. Ayudan a describir de forma básica el contenido de la página web atendiendo a sus diversas opciones (name='title', name='author', name='description', name='keywords'). El texto del atributo (content='') es indexado convenientemente y ponderado para su recuperación efectiva.
  • Uso de metadatos Dublin Core, RDF. Los webcrawler son capaces de reconocer metadatos en formato Dublin Core e incluso detectar los archivos RDF vinculados, con la descripción de las páginas del sitio web. Esto permite no sólo procesar la página con más información que con las meta-etiquetas habituales, sino procesar un sitio web como parte de la red semántica de un buscador. Ello hace que la presencia y la visibilidad sea en un doble plano.
  • Realizar descripciones únicas para cada página. En muchos casos, las sitios web contienen una única descripción que coincide en todas sus páginas web. Esto es un error, ya que dificulta la distinción de los contenidos particulares, de la generalidad del sitio web. Por ello cada página deberá tener sus propias descripciones con metadatos y meta-etiquetas.
  • Estructura de direcciones URL más comprensiva, que incluya parte del título del contenido enlazado. Esto es el empleo de direcciones URL canónicas, optimizadas para su indexación con webcrawlers, que permitan la identifican del contenido y el título por sus palabras clave. Además las direcciones URL deberán estar escritas a ser posible en minúsculas, dado que son de más fácil lectura, evitando espacios o sustituyéndolos por guiones medios (-) o bajos (_)
  • Crear estructuras de directorios sencillas. No deberá anidarse más de 2 niveles de carpetas. Cuando se amplia el número de carpetas y contenidos anidados, la navegación se dificulta sobremanera y con ello el seguimiento y acceso de los webcrawlers a los contenidos. 
  • Facilitar la navegabilidad de un sitio web a través de breadcrumbs (migas de pan) que permitan observar la ruta de navegación del usuario. Esto es que en cada momento se pueda retroceder sobre los enlaces cargados por el usuario, conocer la sección o categoría temática que se está consultando y la dirección permalink del contenido que se muestra.
  • Crear mapas de sitio para el usuario y para los motores de búsqueda. El diseño de un mapa comprensivo de los contenidos y su organización en secciones a modo de directorio facilita la navegación del usuario a través de la red de páginas del sitio, mejorando el número de enlaces internos de la página y con ello cierta influencia en los cálculos de PageRank de terceras páginas enlazadas. Por otra parte de cara a los webcrawler el diseño de un mapa de todos los enlaces del sitio web, denominado sitemap.xml, que comprende el valor o peso de los contenidos de cada una de las páginas, según las estimaciones y especificaciones dadas por el administrador del sitio web.
  • Usar texto en vez de objetos hechos en flash o javascript. El abuso de objetos de vídeo hechos en flash, shockwave o javascript no facilitan la labor de indexación de los webcrawler. Siempre que sea posible se debe minimizar el uso de tales medios y emplear visores adaptados para su reproducción. Por ejemplo mediante código HTML5 o JQuery, que constituyen métodos de codificación mejor adaptados a la problemática que entraña el posicionamiento web. En otros casos el empleo de códigos en javascript es inevitable, desde el punto de vista de la redirección de páginas web, el envío de variables de datos, en formularios, etc. Tales casos están reconocidos y en principio no suponen penalización en los principales buscadores.
  • Crear página de error 404 con redireccionamiento. Resulta importante que todos los enlaces de un sitio web funcionen correctamente y no estén rotos. En caso contrario conviene crear una página de error 404, personalizada capaz de reconocer el contenido que pretendía cargar el usuario, reconocer sus palabras claves de consulta y redirigirle a un contenido aproximado. Esto evita que un webcrawler acceda a una página sin contenido, incrementando las posibilidades de indexación de contenidos y con ello un mejor posicionamiento.
  • Contenidos actualizados y servicios de calidad. Textos de fácil lectura. Temática bien tratada y centrada en el contexto. Contenidos únicos, actualizados y originales. Diseñar textos comprensibles para el usuario y no para el robot de búsqueda. Enriquecer textos mediante anclas o enlaces, consiguiendo un valor hipertextual. Publicar nuevos contenidos de forma reiterada, por ejemplo diariamente, favorecen el posicionamiento de las páginas involucradas y el sitio web en general.
  • Usar formatos CSS para mejorar la visibilidad y legibilidad de los textos y de los enlaces. La diferenciación de los enlaces de los distintos menús, de los enlaces propios del texto, marca la diferencia para el usuario y en la accesibilidad de los contenidos.
  • Crear índices en los documentos extensos para facilitar su navegación. Uso de anclas para los enlaces internos. ( <a href='#punto1' title='título enlace a punto1'>enlace a punto1</a> ... <a name='punto1' title='título completo del punto1'>Punto1</a> )
  • Uso del atributo "alt" en imágenes y del atributo "title" en los enlaces. La información complementaria que se puede aportar en cada contenido favorece su accesibilidad y su indexación por medio de webcrawlers. De esta forma, se pueden introducir variaciones y sinónimos en la descripción de los contenidos y enlaces para conseguir más puntos de acceso concordantes con la hipotética consulta del usuario. Todo ello favorece la visibilidad del contenido del sitio web y aumenta las posibilidades de posicionarse mejor que otra página web similar.
  • Agrupar contenidos en carpetas especializadas. Esto es almacenar todas las imágenes, documentos, archivos de subida, descarga, esquemas, formularios, etc. en carpeta "images" y "documents" para favorecer que el acceso a todos los contenidos sea unificado.
  • Uso de las etiquetas de cabecera <h1>, <h2>, <h3>, <h4>, <h5>, <h6> para intitular distintos párrafos y contenidos del texto según su importancia. Ello es reconocido por los webcrawler y establece una ponderación determinada para las palabras y textos comprendidos en las mismas.
  • Uso de etiquetas especializadas. <em> (énfasis), <strong> (negrita), <address> (dirección), <abbr> (abreviatura), <article> (artículo), <aside> (contenido adjunto al documento principal), <base> (dirección URL base a partir de la que se generan todas las direcciones URL relativas), <blockquote> (sección en la que se cita una fuente de información o texto), <cite> (cita del título de un trabajo o documento), <code> (sección definida como código fuente), <details> (define detalles adicionales), <dfn> (definición de un término), <footer> (define el pie de página), <figure> (especifica la sección que ocupan las imágenes, figuras o ilustraciones del contenido), <figcaption> (determina el título de la figura), <nav> (define la sección de enlaces que permiten la navegación en la página web)
  • Crear archivo robots.txt para especificar las restricciones de acceso para los webcrawler en el directorio de carpetas y contenidos del servidor correspondiente a un sitio web. Su correcta configuración debería facilitar el acceso a las carpetas de páginas, documentos e imágenes y prohibir la indexación de páginas de configuración, acceso de usuarios, login, backup, instalación, etc. En este sentido también se emplea el atributo ( rel='nofollow' )  en los enlaces de las páginas del sitio web que no deban ser rastreadas por el webcrawler. Por otra parte, se emplea la meta-etiqueta <meta name="robots" content="noindex" /> para especificar que la página portadora de la instrucción no deberá ser indexada.
  • Promocionar el sitio web creando canales de sindicación, servicios de distribución de correos y alertas, redes sociales. Ello permite transmitir y publicar enlaces al contenido que se pretende promocionar, favoreciendo su lectura y la creación de nuevos backlinks.
  • Aumentar el número de enlaces entrantes para aumentar el PageRank del sitio web. Intercambiar enlaces, crear comunidades de blogs, webs, son métodos que ayudan a mejorar la visibilidad y aumentan la popularidad y tráfico (visitas) de los contenidos de un sitio web. 
  • Uso de herramientas estadísticas de la web. Por ejemplo Google Analytics, ayudan a orientar la estrategia de publicación de contenidos, según las páginas más visitadas, la indagación de las palabras clave de consulta utilizadas por el usuario para localizar el sitio web, e incluso el análisis de sitios web, permiten mejorar la visibilidad y la ordenación planificada en las SERPs.
  • PageRank. Lograr un alto valor de PageRank favorece que la web se posicione mejor entre las páginas de resultados, ante una determinada consulta. Por lo tanto, planificar las hipotéticas consultas del usuario, cuidar el contenido y sobre todo incidir en una correcta proporción de enlaces entrantes (inbounds o backlinks) y salientes es la clave para obtener una posición dominante en cualquier buscador. 

Aspectos que penalizan el ranking de un sitio web
  • Relleno y repetición de palabras clave. Consiste en repetir frases, textos o palabras clave, para mejorar la relevancia de una página web y aumentar su visibilidad, incidiendo en la frecuencia de aparición de las palabras.
  • Texto oculto. Cuando el texto de relleno o la repetición de palabras clave, se oculta utilizando un tamaño de letra muy pequeño o se utiliza un color de fuente idéntico al color de fondo de la página. La ocultación se puede conseguir cuando se introduce dicho texto en los comentarios del código fuente, en atributos de etiquetas poco frecuentes, entre otros. Véase: http://support.google.com/webmasters/bin/answer.py?answer=66353
  • Contenidos generados automáticamente. Por ejemplo textos traducidos automáticamente sin revisión, textos generados a partir de búsquedas o tomando como base contenidos de canales de sindicación, ocultación de textos, combinación de contenidos de páginas sin valor o peso. Véase: http://support.google.com/webmasters/bin/answer.py?answer=2721306 
  • Esquemas de enlaces. Esto es usar enlaces entrantes para mejorar la valoración de una página objetivo, manipulando dichos enlaces, o haciéndolos provenir del mismo sitio web, mediante técnicas de auto-enlace. Véase: http://support.google.com/webmasters/bin/answer.py?hl=es&answer=66356
  • Encubrimiento. Consiste en la disposición de diferentes versiones de una página web para el webcrawler y para los usuarios. Ello se consigue al distinguir el tipo de visitante (agente o usuario), para los que se automatizan distintas variables de contenidos. De esta forma es posible construir una página con textos de relleno para los buscadores y conseguir así un mejor posicionamiento y construir una página normal y correcta para el usuario. Véase: http://support.google.com/webmasters/bin/answer.py?answer=66355
  • Redireccionamiento engañoso. Consiste en utilizar métodos de redireccionamiento javascript o meta, que en vez de cargar la página solicitada por el usuario, cargan la página objetivo, obteniendo un mayor número de visitas, tráfico y dinero en el caso de anuncios por visitas o clics. Véase: http://support.google.com/webmasters/bin/answer.py?answer=2721217 
  • Páginas puerta. Constituyen un compendio de páginas consideradas "spam" que tienen como objetivo promocionar una palabra, frase o texto con enlace a la página objetivo de posicionamiento. Éstas se activan en forma de popups, o páginas instantáneas con redireccionamiento automático. Véase: http://support.google.com/webmasters/bin/answer.py?answer=2721311
  • Duplicación de sitios. Técnica consistente en duplicar los contenidos de una página web con diversas copias y redireccionamientos entre sí, para mejorar su posicionamiento. Esto es emplear el mismo código fuente y efectuar leves variaciones en los textos, manteniendo los enlaces entrantes de las páginas clonadas sobre la página original objetivo.
  • Actualización automática permanente. Consiste en una actualización de los contenidos de una página web de forma rotativa, permanente y periódica. Ello permite introducir texto oculto, de relleno así como repetición de palabras claves, antes de que el webcrawler reconozca el engaño. Mientras, se mantiene la indexación del sitio web.
  • Consultas automáticas reiteradas. Consiste en repetir "n" veces una serie de consultas predefinidas con una serie de palabras clave y operadores de forma tal, que un buscador las registre y ayude a posicionar las páginas web que coincidan con tales cadenas de consulta. Esta operación puede ser automatizada por diversos métodos en javascript y php, para realizar una repetición masiva del orden de varias decenas de consultas por minuto. En muchos casos la petición de búsquedas abusivas en un buscador, puede llegar a confundirse con los ataques de denegación de servicio DoS (Denial of Service), por saturación en el número de conexiones simultáneas.

Archivo "robots.txt"
El archivo robots.txt es un archivo de texto que permite determinar la configuración de acceso de los webcrawler para la indexación de un sitio web y con ello sus contenidos y documentos. En teoría un robot de búsqueda es capaz de leer en primera instancia el archivo robots.txt para comprobar las rutas de acceso a los directorios y archivos de un determinado sitio web. Su uso no significa que se respeten todas las restricciones que se establezcan, especialmente cuando se traten de webcrawlers maliciosos, por otra parte su acceso es público, lo que supone que las restricciones establecidas en su configuración son públicas. A pesar de todo, la mayoría de los motores de búsqueda sí respetan las instrucciones que se establecen, protegiendo de la indexación aquellos contenidos y páginas que podrían desvirtuar la recuperación de información en el sitio web, véase tabla1 y siguiente referencia https://developers.google.com/.../control-crawl-index/.../robots_txt.

Restringir todo el sitio web

User-agent: * # comentario
Disallow: /


Se utiliza la instrucción User-agent: para identificar los motores de búsqueda afectados. En caso de utilizar el asterisco, se refiere que es de aplicación para todos. Si se desea especificar uno en concreto, éste se define con su nombre normalizado. Por ejemplo User-agent: Google

Permitir el acceso completo a todo el sitio web

User-agent: *
Disallow:


Para permitir el acceso al sitio web o restringirlo, se emplea la instrucción Disallow: o Disallow: /. El slash actúa como signo de restricción.

Restringir carpetas y sus contenidos en el sitio web

User-agent: *
Disallow: /interface/
Disallow: /java/
Disallow: /install.php
Disallow: /login.php


Cuando se desea restringir el acceso de directorios y subdirectorios se emplea la instrucción Disallow: /nombre-directorio/. Obsérvese que se utiliza un slash al final del nombre del directorio para indicar que la prohibición implica también a los subdirectorios y archivos anidados. Por otra parte también pueden especificarse archivos concretos para su restricción específica, siguiendo la instrucción Disallow: /ruta-completa/nombre-archivo.extension

Permitir el acceso de carpetas y páginas del sitio web

User-agent: *
Allow: /documents/
Allow: /images/
Allow: /output/
Allow: /index.php
Allow: /opac.php


Para permitir el acceso a determinados directorios o archivos, basta con no mencionarlos en la configuración Disallow, o bien precisarlos mediante la instrucción Allow:
Tabla1. Aspectos básicos de la configuración de un archivo robots.txt


Archivo "sitemap.xml"
Es un protocolo y convención internacional para motores de búsqueda que permite al administrador de un sitio web determinar cuál es el mapa de enlaces vigente y la importancia de los mismos, asignando un valor o peso que incide en el posicionamiento de los contenidos en dichos buscadores. Este mapa de enlaces del sitio web, se elabora en formato XML, y se edita conforme a las reglas establecidas en su página web oficial sitemap0.90


Link building (Construcción de enlaces)
Conjunto de técnicas que tienen como objetivo la adquisición de enlaces entrantes o backlinks. Existen diversos métodos que hacen posible el link building;
  • Alta de páginas en directorios y buscadores. Al dar de alta una página web en un directorio esepcializado o buscador, se consigue mejorar la visibilidad y con ello el objetivo de obtener backlinks.
  • Bookmarking. Las webs de marcación ya sean basadas en blogs, foros, sindicación de contenidos o web social, pueden contener referencias y breves notas que divulguen a más usuarios la página web objetivo.
  • Link bait. Véase Linkbaiting o cebo de enlaces.
  • Intercambio de enlaces - enlazamiento recíproco - coenlaces. Consiste en la vinculación recíproca entre dos sitios web de algunos de sus contenidos, por medio de comentarios con pingback, webring, o presencia en una lista de enlaces correspondiente a una comunidad. 
  • Compra de enlaces. Consiste en la transacción que contrata enlaces entrantes o backlinks para una determinada página web, con el objetivo de conseguir un aumento en el número de visitas y unos lectores más especializados. Por otra parte la compra de enlaces está penalizada, cuando la temática de los contenidos no coincide o la finalidad de la actividad es fraudulenta. 

Link bait - linkbaiting (cebo de enlaces)
Cualquier página de contenidos que dada su calidad, singularidad y método de difusión consigue ser una de las más citadas y enlazadas, con el doble objetivo de mejorar el posicionamiento del sitio web que la aloja y aumentar el número de visitas. No se debe confundir con el concepto "Granja de enlaces". Se pueden diferenciar distintas técnicas para conseguir el link bait;
  • Permitir la descarga completa o parcial de los contenidos, de tal manera que la página web sea enlazada por proporcionar un contenido libre y compartido, atrayendo en enlazamiento del recurso y por ende el aumento en el número de backlinks.
  • Posicionar el contenido en listas de recomendaciones, propias de la web 2.0 y la web social. Al lograr  visibilidad en este tipo de recursos, el número de usuarios potenciales aumenta y con ello la posibilidad de que se logre enlazar el contenido objetivo.
  • Envío de notas de prensa, ponencias, congresos. En tales casos se puede referir la página web de contenidos, consiguiendo una lectura casi obligada de los usuarios.
  • Publicación de reseñas, noticias y novedades en listas de distribución, de correos, foros, comunidades y canales de sindicación de contenidos. Hace posible que las personas que suscriben tales grupos y medios reciban el enlace a la página de contenidos, promocionando así su difusión.

Link farm - link farming (granja de enlaces)
Se denomina granja de enlaces al conjunto de páginas web construidas y gestionadas por un único administrador entre cuyos enlaces se vincula a una página web objetivo para mejorar su PageRank. Las granjas de enlaces pueden ser lícitas cuando el contenido de sus páginas es original y responde al mismo contexto de contenidos, siendo necesario su backlink. Las granjas de enlaces también pueden ser fraudulentas, cuando se generan miles de páginas web de forma automática con contenidos aleatorios que enlazan o redirigen a la página web objetivo. Otro tipo de granjas de enlaces son aquellas basadas en el spam o spammers que lejos de aumentar el PageRank de la página web objetivo a la que enlazan, logran disminuir su coeficiente utilizando el parámetro de Google que penaliza a las páginas con backlinks fraudulentos. 


Pagerank
El PageRank de una página web es un número ponderado que representa la importancia relativa de dicha página en función del número de enlaces entrantes. La formulación del algoritmo de PageRank fue descrita por primera vez por (BRIN, S.; PAGE, L. 2000), planteando un método ordenación de páginas web, basado en sus contenidos y en los enlaces que dichas páginas recibían, sus backlinks. No obstante, la formulación original, (PAGE, L. 2001) no representa el único método de ordenación de los SERPs definitivo. Esto es debido a que con el tiempo, los webmasters, comenzaron a desarrollar técnicas de posicionamiento para influir directamente en el algoritmo, desvirtuando el propósito original de PageRank. Este hecho hizo que a la fórmula original se le añadieran decenas de factores que aún hoy siguen ampliándose, pudiéndose comprobar en la tabla2. La fórmula del PageRank, véase figura1, tiene en cuenta la relevancia de una página web, partiendo del principio de que es más útil tanto en cuento es más visitada por los usuarios y recibe más enlaces entrantes o backlinks.

Figura1. Fórmula estándar para el cálculo del PageRank

De esta forma, el PageRank de una página web objetivo denominada "A" es igual a 1 menos el factor de atenuación (que originalmente tuvo el valor 0,85 por defecto, pero que en realidad es desconocido y secreto, aunque se especula con la posibilidad de que tenga que ver con el tráfico o visitas de la página), más dicho factor de atenuación, por la suma de todas las páginas que contengan al menos 1 enlace a la página objetivo "A" entre su número total de enlaces. Se puede deducir que los factores que operan en la fórmula del PageRank son externos, no pudiendo ser manipulados por el webmaster de la página objetivo "A", aunque sí de forma fraudulenta, a través de técnicas como el link farm.

Factores que determinan el posicionamiento web en Google
Dominio

–  Edad del dominio
–  Información del nombre de dominio
–  Tipo de dominio (nivel superior, subdominio, geográfico, genérico)
–  Número de veces que cambia la dirección IP
–  Palabras claves del dominio

Servidor

–  Localización geográfica del servidor que mantiene la página web
–  Número de caídas del servicio del servidor y de la página web

Programación

–  URL canónica, optimizada para SEO, comprensible en su lectura, con palabras claves identificativas
–  HTML validado y bien construido. Uso de etiquetado específico
–  Uso de atributos title=’’ y alt=’’
–  Empleo de web semántica
–  Uso de estilos CSS que faciliten la accesibilidad y usabilidad

Contenido

–  Idioma empleado para la difusión del contenido
–  Uso de metadatos
–  Especialización y originalidad de los contenidos
–  Extensión del texto
–  Densidad del texto enlazado. Por ejemplo <a href=’’ title=’título del enlace’>texto enlazado</a>
–  Densidad de texto puro, sin enlaces, imágenes y código fuente.
–  Nivel de actualización, renovación o publicación de nuevos contenidos. Tiempo medio de renovación.
–  Número de meta-etiquetas empleadas, su descripción, extensión y representatividad
–  Número de metadatos empleados, su descripción, extensión y representatividad
–  Titulación de enlaces, capas, secciones, párrafos, figuras e imágenes
–  Contenido inapropiado o plagiado
–  Contenido generado automáticamente, basado en consultas y otras formas de promoción fraudulentas
–  Corrección en la puntuación y gramática del contenido
–  Nuevas frases o cadenas de texto no registradas

Enlaces

–  Número de enlaces internos (enlazan otras páginas del mismo sitio web)
–  Número de enlaces internos que contengan el mismo texto de enlace
–  Número de enlaces que contienen el atributo “nofollow”
–  Número de enlaces Salientes por dominio y por página
–  Calidad de las páginas web vinculadas o enlazadas
–  Redireccionamiento en páginas de error 404
–  Número de enlaces a imágenes
–  Número de enlaces entrantes o “backlinks” (enlaces que recibe la página web objetivo desde otras páginas web)
–  Importancia y calidad de los backlinks que enlazan la página web
–  Conlinks o coenlaces entre la página web enlazada y sus backlinks
–  Backlinks de marcadores sociales
–  Backlinks de obras de referencia en línea, directorios y buscadores especializados.

Sitio web

–  Presencia de archivo robots.txt
–  Número de contenidos a los que tiene acceso el buscador desde robots.txt
–  Frecuencia de actualización media del sitio web
–  Número total de páginas del sitio web
–  Edad del sitio web. Desde que comenzó a ser indexado
–  Presencia de archivo sitemap.xml
–  Presencia de contenidos convenidos (sección “about us”, “location”, “contact”, etc.)
–  Tipología de sitio web (blog, portal, website, directorio, buscador, etc.)

Páginas web

–  Meta-etiquetas para control de indexación y robots
–  Edad de la página
–  Número de cambios realizados en la página
–  Duplicación de contenidos con otras páginas dentro del sitio web
–  Audiencia o público objetivo al que va destinado el contenido
–  Tiempo de carga de la página web
–  Número de errores de la página
–  Extensión del texto
–  Número de enlaces internos
–  Número de enlaces externos

Palabras clave

–  Cadena de texto del título de la página
–  Cadena de texto de los atributos title=’’ y alt=’’
–  Palabras de los textos enlazados (en enlaces internos y externos)
–  Palabras contenidas en etiquetas de tipo header como <h1>, <h2>… negrita, cursiva, énfasis, subrayado
–  Palabras del título de la página y de su dirección URL
–  Palabras empleadas en los comentarios del código HTML

Tráfico y visitas

–  Número de visitas
–  País de origen de las visitas. Demografía de los visitantes
–  Porcentaje de rebote.
–  Sitios o páginas web similares
–  Tendencias de las visitas (al alza o a la baja)
–  Posición de la página o sitio web en las páginas de resultados. SERPs (Search Engine Results Pages)

Sanciones

–  Relleno fraudulento de palabras clave
–  Compra de links entrantes
–  Spamming (posicionamiento basado en técnicas de spam)
–  Cloacking (modalidades de ocultación de texto)
–  Duplicación y plagio de contenidos
–  Historial de sanciones
–  Redirección y enlaces a páginas inexistentes
–  Redirección a páginas generadas automáticamente con la consulta del usuario
–  Links ficticios
–  Suplantación de páginas web mediante Phising
–  Enlaces a páginas con contenido malware (virus, troyanos, código malicioso)
–  Enlaces a páginas comprendidas en la lista negra de sitios y páginas de Google
–  Granjas de enlaces para mejorar el PageRank o posicionamiento

Otros factores

–  Cumplimiento de las directrices de Google para Webmasters
–  Presencia de contenidos en herramientas de Google. Por ejemplo Google News, Google Books, Google Scholar
–  Presencia entre las SERPs de blogs de Google
–  Uso de servicios de anuncios como Google AdWords
–  Uso de servicios de monitorización y estadísticas Google Analytics
–  Citación y referenciación de las fuentes de información

Tabla2. Factores para el posicionamiento web en Google

Referencias

BEEL, J.; GIPP, B.; WILDE, E. 2010. Academic Search Engine Optimization (ASEO): Optimizing Scholarly Literature for Google Scholar & Co. Disponible en: http://www.sciplore.org/publications/2010-ASEO--preprint.pdf

BRIN, S.; PAGE, L. 2000. The Anatomy of a Large-Scale Hypertextual Web Search Engine. Disponible en: http://infolab.stanford.edu/~backrub/google.html

CARROLL, N. 2010. Search engine optimization and user behaviour. Disponible en: http://www.hastingsresearch.com/net/09-SEO-ELIS-encyclopedia-article.html

CODINA, L. 2004. Posicionamiento Web: Conceptos y Ciclo de Vida. Disponible en: http://www.geocities.ws/.../Posicionamiento_Web_Conceptos_y_Ciclo_de_Vida.pdf

CODINA, L.; MARCOS, M.C. 2005. Posicionamiento web: conceptos y herramientas. Disponible en: http://www.elprofesionaldelainformacion.com/.../2005/.../1.pdf

FLEISS, W. 2007. SEO in the Web 2.0 Era: The Evolution of Search Engine Optimization. BKV. pp7. Disponible en: http://www.bkv.com/redpapers-media/SEO-in-the-Web-2.0-Era.pdf

GONZALO, C. 2006. Tipología y análisis de enlaces web: aplicación al estudio de los enlaces fraudulentos y de las granjas de enlaces. Disponible en: http://www2.ub.edu/bid/consulta_articulos.php?fichero=16gonza2.htm


GOOGLE. 2012. Directrices para webmasters. Disponible en: http://support.google.com/webmasters/bin/answer.py?hl=es&answer=35769

GOOGLE. 2012. Guía para principiantes sobre optimización para motores de búsqueda. Disponible en:
http://static.googleusercontent.com/external_content/untrusted_dlcp/www.google.es/es/es/webmasters/docs/guia_optimizacion_motores_busqueda.pdf

PAGE, L. 2001. Method for node ranking in a linked database. Disponible en: https://docs.google.com/a/google.com/viewer?url=www.google.com/patents/US6285999.pdf

WALSH, B. 2010. Building readership - Create Good Linkbait. En: Clear Bloggin. Springer. pp287. Disponible en: http://link.springer.com/content/pdf/10.1007%2F978-1-4302-0321-6_13

WU, B.; DAVISON, B.D. 2005. Identifying Link Farm Spam Pages. Disponible en: http://www.ra.ethz.ch/CDstore/www2005/docs/p820.pdf

martes, 8 de enero de 2013

Lecturas. SEO Search Engine Optimization

Para introducir el capítulo correspondiente a las técnicas de posicionamiento web, se aconseja la detenida lectura de los siguientes artículos y contenidos para responder inicialmente a las siguientes preguntas que se proponen a continuación.

  • Rovira, Cristòfol and Fernández-Cavia, José and Pedraza-Jimenez, Rafael and Huertas, Assumpció Posicionamiento en buscadores de las webs oficiales de capitales de provincia españolas. El profesional de la información, 2010, vol. 19, n. 3, pp. 277-283. [Journal Article (Print/Paginated)]. Disponible en: http://eprints.rclis.org/14658/1/Rovira-Fdez-Cavia-Pedraza-Huertas.pdf

______________________________

  1. ¿Qué es posicionamiento web SEO? Elabora una definición a partir de las lecturas realizadas
  2. ¿Qué tácticas de posicionamiento ilícitas existen? Enumera cuáles son y describe cada una, explicando en que consisten
  3. ¿Qué tácticas de posicionamiento básicas y comúnmente aceptadas suelen emplearse?
  4. Explica las hipótesis que existen en torno al funcionamiento del posicionamiento de páginas web en casos reales.
  5. ¿Cómo se diseñan los enlaces internos y externos para conseguir un buen posicionamiento web?

martes, 18 de diciembre de 2012

Práctica10. Recuperación de volcados de datos

Aplicando todas las técnicas de consulta estudiadas, se propone la recuperación de los volcados de datos de diversas temáticas en formatos CSV y SQL. Se reseñará la cadena de consulta utilizada en cada caso, la dirección URL del archivo de volcado de datos y una muestra textual del archivo en la que aparezca reflejada la temática adecuada al tema propuesto. 

Descargar práctica10

lunes, 17 de diciembre de 2012

Extensión de consultas avanzadas y recuperación de volcados de datos

Extensión de consultas avanzadas

Filtrar extensiones y archivos en un sitio web
En muchos casos, la exigencia en las búsquedas de datos y documentos plantean el empleo de diversos operadores que identifiquen cuáles son los formatos válidos y desde qué sitio deben ser recuperados. Por ejemplo la consulta -ext:html -ext:htm -ext:shtml -ext:asp -ext:php site:csic.es permite obtener todos los subdominios de la página web del Consejo Superior de Investigaciones Científicas CSIC. Ello es debido a que se indica claramente qué archivos no son deseados entre los resultados. En tal caso se emplea el signo menos ( - ) precedido del operador de extensiones ( ext: ) y la extensión correspondiente. De esta forma entre los resultados no estarán presentes ninguna página html, asp o php que configuran todas las páginas web del sitio del CSIC. Por el contrario, el resultado obtenido serán todos los subdominios que contenga "csic.es". Para obtener un determinado tipo de documento dentro del dominio y subdominios del CSIC, tan sólo sería necesario modificar la consulta dada por la siguiente ext:pdf -ext:html -ext:htm -ext:shtml -ext:asp -ext:php site:csic.es en la que se indica la presencia de los archivos de extensión ( pdf ), que a su vez es equivalente a la expresión +ext:pdf -ext:html -ext:htm -ext:shtml -ext:asp -ext:php site:csic.es ya que el signo más ( + ) se emplea para indicar el cumplimiento obligatorio de la condición, filtro u operador que se está utilizando. Como se podrá observar existen múltiples formas de aludir a un mismo objetivo, como por ejemplo el operador ( filetype: ) y ( ext: ) cuya finalidad es la misma.

Recuperar copias de seguridad y archivos temporales
En muchas ocasiones, puede ser necesario realizar consultas sobre archivos, documentos, bases de datos o páginas web publicadas en el pasado o cuya copia de seguridad alberga información de interés. En esos casos es posible realizar consultas para recuperar tales copias de seguridad y archivos temporales de forma sencilla mediante el operador ( inurl: ) utilizando las palabras claves y extensiones adecuadas, utilizadas por los principales archivos de seguridad y almacenamiento. Por ejemplo inurl:temp, inurl:tmp, inurl:backup, inurl:bak. Estos casos pueden reproducirse en combinación con las consultas de directorios de servidores, como por ejemplo intitle:index.of "parent directory" inurl:backup site:mit.edu que permitiría observar los directorios de backup de los dominios, subdominios y páginas del MIT. De esta forma y mejorando la combinación de los operadores se pueden obtener los archivos backup en formato sql de un sitio web completo. Por ejemplo al realizar la consulta ext:sql inurl:backup se obtiene el enlace http://www.dpm-cultura.org/static/files.bk/backup.sql que contiene la copia de seguridad del sitio web de la Delegación de Cultura de la Diputación de Málaga, que pudiera contener información de interés para el trabajo documental. 

Combinación de extensiones y operadores
En muchas ocasiones, las consultas requieren diversas alternativas entre múltiples extensiones o cadenas de texto. En estos casos, la combinación de extensiones y operadores se realiza a modo de expresión regular REGEXP, tal como se muestra en el siguiente ejemplo ext:(doc | pdf | xls | txt | ps | rtf | odt | sxw | psw | ppt | pps | xml) (intext:information retrieval | intext:"retrieval models") inurl:book. Es posible determinar distintas alternativas por medio de valores separados por barras verticales ( | ) contenidos entre paréntesis. De esta forma se recuperan todos los libros que versan sobre recuperación de información en todos los formatos posibles y con diversos textos entre sus contenidos.


Recuperación de volcados de datos

Los volcados de datos constituyen una fuente de información muy importante para obtener catálogos, registros, tablas, bancos de datos completos sobre un tema o área de conocimiento determinada. Las consultas más eficientes en este sentido son las de tipo SQL (Structured Query Language) y CSV (Comma Separated Values). La información en gran medida se exporta en tales formatos y conviene conocer algunas cadenas de texto claves para su recuperación automática.

Volcados de datos SQL
En el caso de los volcados de datos en formato SQL, existe un método de migración de datos denominado "dumping data". En tales casos, los programas gestores de bases de datos MySQL, generan archivos automáticos con los contenidos de las tablas, estructuras y registros de la base de datos objetivo. Estos archivos pueden utilizarse para generar backups, copias de seguridad o servir de plataforma para la importación de los registros en terceros sistemas de información. En tales casos, ese proceso de automatización permite en un alto porcentaje, poder recuperar el texto predeterminado "MySQL dump", "Dumping data" y "phpMyAdmin MySQL-Dump" con alto poder discriminatorio con respecto al resto de archivos. De esta forma, las consultas quedarían como ext:sql "MySQL dump"ext:sql "Dumping data"ext:sql "phpMyAdmin MySQL-Dump". No obstante pueden obtenerse resultados muy similares, utilizando la sentencia ext:sql "INSERT INTO", ya que la instrucción "Insert Into" se refiere al proceso de inserción de registros que habitualmente es utilizado en los volcados de datos, delatando la presencia de registros y datos que se pretenden recuperar. Conociendo las distintas instrucción del lenguaje de consulta SQL, es posible modificar las búsquedas dependiendo de la finalidad de uso de los resultados. Por ejemplo, el desarrollo de nuevos diseños de bases de datos, estructuras de campos y sus características en MySQL, dependen de archivos de instalación en formato PHP o SQL que contienen instrucciones como "Update Set", "Create Table" o "Alter Table". Esto hace que las consultas puedan ser del tipo inurl:install ext:sql intext:"update set".

Volcados de datos CSV
En el caso de los volcados de datos en formato CSV, resulta interesante comprobar cómo la búsqueda genérica ext:csv o filetype:csv, produce millones de resultados entre los que se puede obtener todo tipo de información, incluyendo catálogos bibliográficos y registros de bases de datos. Por ejemplo, la búsqueda de revistas científicas puede automatizarse con búsquedas similares a la siguiente  filetype:csv -github intext:"journal". Entre los resultados obtenidos, se encuentran listados completos de revistas científicas como por ejemplo la proporcionada por el Instituto de Investigación Scripps,   http://www.scripps.edu/library/open/vivo_data/vivo_journal_holdings.csv, especializado en la investigación médica.

martes, 11 de diciembre de 2012

Práctica9. Operadores avanzados y directorios de servidores

La detección de directorios de servidores abiertos con documentación científica, constituyen una fuente de recursos de información poco conocida y explotada en el mundo de la Documentación. El objetivo de la práctica será poner a prueba los conocimientos adquiridos sobre consulta y detección de directorios de servidores en algunas de las instituciones más prestigiosas a nivel académico. 

Descargar práctica9