lunes, 10 de diciembre de 2012

Operadores avanzados y directorios de servidores

Las variables observadas en el artículo anterior permiten elaborar consultas mediante la construcción de la URL y el envío de las cadenas de consulta mediante el método GET. A continuación se exponen en profundidad algunos de los operadores avanzados de Google que mayor interés tienen para el documentalista, así como su aplicación.

Operadores avanzados

Buscar dentro del título de una página web. Operador "intitle"
El título de las páginas web está contenido entre las etiquetas <title></title>. Mediante el operador intitle pueden recuperarse todas las páginas web que contengan en el título algunas de las palabras especificadas en la consulta. Por ejemplo intitle:"diario" que recuperaría todos los diarios de prensa, diarios personales, blogs o páginas que contengan la palabra diario. Esta consulta es de especial utilidad en la restricción de búsquedas y para la concreción de recursos especializados. Además pueden emplearse más de un término de consulta, siempre y cuando esté entrecomillado y separado por espacios. Por ejemplo intitle:"diario" "prensa", permite mejorar la precisión de las páginas web de diarios como medios de comunicación, discriminando mejor los resultados.

Buscar dentro del texto de una página web. Operador "allintext"
Permite buscar en el contenido textual de las páginas web entre las etiquetas <body></body>, lo que significa que la recuperación se realice exclusivamente en este apartado y no en el título, enlaces o url de la propia página web. Por ejemplo allintext:"noticias" "ministerio de economía" "españa" permitiría recuperar todas las noticias publicadas en páginas web sobre el ministerio de economía.

Buscar en URL. Operador "inurl" y "allinurl"
Existen diferencias en el uso de los operadores de búsqueda URL como inurl y allinurl. En principio la recuperación en ambos casos está focalizada en la URL del recurso o página web objetivo y no en sus enlaces. Por otra parte el operador "inurl" indica que la cadena de consulta debe estar presente en la dirección URL o en cualquier parte del nombre de archivo de dicha URL. Por ejemplo una búsqueda inurl:diario oficial permitirá obtener casi 15 millones de resultados. Ello se debe a que los resultados pueden contener las palabras diario oficial en cualquier punto de su URL incluyendo el nombre del archivo o página web. Sin embargo si se emplea el operador allinurl:diario oficial, el número de resultados se reduce por debajo de los 2 millones. Ello ocurre porque el operador allinurl restringe los resultados, mostrando únicamente aquellos que contengan las palabras diario oficial en la URL principal del sitio web, dominio o subdominio, pero no en los nombres de los archivos, documentos, páginas o recursos que enlazan.

Buscar dentro de un sitio web concreto. Operador "site"
Al igual que con la variable as_sitesearch, Google dispone del operador site cuyo propósito es exactamente el mismo. La recuperación mediante el operador site es compatible con el uso de otros operadores como por ejemplo inurl o allinurl. Esto hace posible recuperar páginas web muy concretas en un espacio de un dominio o sitio web previamente acotado. Por ejemplo site:boe.es inurl:2012/12/04 permite recuperar todas las páginas del Boletín Oficial del Estado publicadas en dicha fecha.

Buscar archivos o documentos según su extensión. Operador "filetype"
El operador filetype, realiza las mismas funciones que la variable as_filetype. Su aplicación permite una recuperación precisa de determinados tipos de documentos con cualquier tipo de extensión, más o menos frecuentes. En este sentido una página web de referencia para encontrar el tipo de extensión adecuada para la recuperación de una determinada información es el sitio web http://filext.com/ que contiene una de las mayores bases de datos de extensiones del mundo, con su correspondiente descripción, programas que utilizan o generan ese tipo de archivos, aplicación, datos que contienen, etc. Actualmente contiene más de 51.000 tipos de archivos registrados. En cuanto a la búsqueda y recuperación de información dentro de un tipo de documento, ésta puede ser realizada utilizando los términos de consulta correspondientes después de especificar la extensión del documento objetivo. Por ejemplo filetype:pdf tesis doctoral, permite recuperar todos los documentos con extensión PDF en cuyo texto aparezcan las palabras tesis doctoral.

Buscar enlaces a una página. Operador "link"
El operador link no es equivalente a la variable as_qdr=links pero sí causa el mismo efecto que la variable as_lq. Se utiliza para obtener aquellos recursos o páginas que enlazan la URL especificada. Por ejemplo link:http://www.ucm.eshttps://www.google.com/search?as_lq=http://www.ucm.es proporcionan los mismos resultados, permitiendo observar por cuántas páginas web es vinculada el sitio de la Universidad Complutense.

Buscar texto dentro de los enlaces de un sitio web. Operador "inanchor"
Permite recuperar aquellas páginas web que contengan el texto de la consulta en la representación textual de sus enlaces. Concretando este aspecto, dentro de las etiquetas anchor <a href='URL' title='título' target='Objetivo de carga'>representación textual</a>. Por ejemplo inanchor:recursos biblioteconomía, permitiría recuperar todos los portales y directorios de recursos que estuvieran enlazados mediante el texto especificado.

Obtener información de una página web. Operador "info"
Para obtener todas las posibilidades de acción con respecto a una página web, así como acceder a sus correspondientes resúmenes, se requiere el empleo del operador info. Por ejemplo info:http://ccdoc-sistemasrecuperacioninternet.blogspot.com.es/ muestra todas las opciones de interacción, como la vista en cache del sitio web, páginas similares, páginas enlazadas, páginas del sitio, y consulta por frase exacta de la URL.

Páginas similares o relacionadas. Operador "related"
Muestra sitios web relacionados o similares al especificado. Realiza las mismas funciones que la variable as_rq. El operador relatad es incompatible con el uso de otros operadores.


Directorios de servidores
La localización de listados de directorios es una técnica de gran interés para el Documentalista experimentado, debido a que le permite recuperar documentos que de otro modo sería imposible. Todos los documentos que se divulgan en la web a través de artículos y páginas web están almacenados en alojamientos de servidores, que en muchos casos pueden ser accesibles de forma sencilla utilizando las consultas adecuadas. Por ejemplo si se desean recuperar trabajos, investigaciones, artículos científicos relativos a "Information retrieval" existen dos alternativas. En primer lugar utilizar las conocidas bases de datos bibliográficas como la Web Of Science o por el contrario utilizar métodos menos ortodoxos como la técnica de consulta de listados de directorios de servidores. En tal caso, la consulta intitle:index.of "parent directory" acompañada de los términos o palabras clave adecuados permite listar cualquier directorio abierto. En muchos casos, esta técnica ha permitido encontrar brechas de seguridad en muchos sistemas y redes institucionales, por lo que se ruega un correcto uso de la misma. Por ejemplo, para resolver la consulta "Information retrieval", podría emplearse la sentencia intitle:index.of "parent directory" information retrieval que devolvería documentación producida por algunos de los principales grupos de investigación especializada en el área de conocimiento e incluso encontrar directorios de servidor abiertos de profesores e investigadores concretos como por ejemplo el del profesor Mike Thelwall http://www.scit.wlv.ac.uk/~cm1993/papers/. Esta demostración permite poner de relieve la importancia de este tipo de búsquedas, incluso cuando se trata de la localización de archivos concretos, en cuyo caso la consulta se vería modificada de la siguiente forma intitle:index.of "parent directory" ws_ftp.log information retrieval. El objetivo de la sentencia es introducir el nombre del archivo log tipo que permite visualizar todos los movimientos de carga de archivos en el alojamiento.

No obstante se debe tener en cuenta que no existe una única manera de buscar listados de directorios en servidores. Esto viene determinado por la variedad en la tipología y versiones de los distintos servidores, véase tabla1.

Listado de directorios de servidores web

"AnWeb/1.42h" intitle:index.of
"Apache Tomcat/" intitle:index.of
"Apache-AdvancedExtranetServer/" intitle:index.of
"Apache/df-exts" intitle:index.of
"Apache/" intitle:index.of
"Apache/AmEuro" intitle:index.of
"Apache/Blast" intitle:index.of
"Apache/WWW" intitle:index.of
"Apache/df-exts" intitle:index.of
"CERN httpd 3.0B (VAX VMS)" intitle:index.of
"CompySings/2.0.40" intitle:index.of
"Davepache/2.02.003 (Unix)" intitle:index.of
"DinaHTTPd Server/1.15" intitle:index.of
"HP Apache-based Web "Server/1.3.26" intitle:index.of
"HP Apache-based Web "Server/1.3.27 (Unix) mod_ssl/2.8.11 OpenSSL/0.9.6g" intitle:index.of
"HP-UX_Apache-based_Web_Server/2.0.43" intitle:index.of
"httpd+ssl/kttd" * server at intitle:index.of
"IBM_HTTP_Server" intitle:index.of
"IBM_HTTP_Server/2.0.42" intitle:index.of
"JRun Web Server" intitle:index.of
"LiteSpeed Web" intitle:index.of
"MCWeb" intitle:index.of
"MaXX/3.1" intitle:index.of
"Microsoft-IIS/* server at" intitle:index.of
"Microsoft-IIS/4.0" intitle:index.of
"Microsoft-IIS/5.0 server at" intitle:index.of
"Microsoft-IIS/6.0" intitle:index.of
"OmniHTTPd/2.10" intitle:index.of
"OpenSA/1.0.4" intitle:index.of
"OpenSSL/0.9.7d" intitle:index.of
"Oracle HTTP Server/1.3.22" intitle:index.of
"Oracle-HTTP-Server/1.3.28" intitle:index.of
"Oracle-HTTP-Server" intitle:index.of
"Oracle HTTP Server Powered by Apache" intitle:index.of
"Patchy/1.3.31" intitle:index.of
"Red Hat Secure/2.0" intitle:index.of
"Red Hat Secure/3.0 server at" intitle:index.of
"Savant/3.1" intitle:index.of
"SEDWebserver *" "server at" intitle:index.of
"SEDWebserver/1.3.26" intitle:index.of
"TcNet httpsrv 1.0.10" intitle:index.of
"WebServer/1.3.26" intitle:index.of
"WebTopia/2.1.1a " intitle:index.of
"Yaws 1.65" intitle:index.of
"Zeus/4.3" intitle:index.of
"Apache/1.0" intitle:index.of
"Apache/1.1" intitle:index.of
"Apache/1.2" intitle:index.of
"Apache/1.2.0 server at" intitle:index.of


"Apache/1.2.4 server at" intitle:index.of
"Apache/1.2.6 server at" intitle:index.of
"Apache/1.3.0 server at" intitle:index.of
"Apache/1.3.2 server at" intitle:index.of
"Apache/1.3.1 server at" intitle:index.of
"Apache/1.3.1.1 server at" intitle:index.of
"Apache/1.3.3 server at" intitle:index.of
"Apache/1.3.4 server at" intitle:index.of
"Apache/1.3.6 server at" intitle:index.of
"Apache/1.3.9 server at" intitle:index.of
"Apache/1.3.11 server at" intitle:index.of
"Apache/1.3.12 server at" intitle:index.of
"Apache/1.3.14 server at" intitle:index.of
"Apache/1.3.17 server at" intitle:index.of
"Apache/1.3.19 server at" intitle:index.of
"Apache/1.3.20 server at" intitle:index.of
"Apache/1.3.22 server at" intitle:index.of
"Apache/1.3.23 server at" intitle:index.of
"Apache/1.3.24 server at" intitle:index.of
"Apache/1.3.26 server at" intitle:index.of
"Apache/1.3.27 server at" intitle:index.of
"Apache/1.3.27-fil" intitle:index.of
"Apache/1.3.28 server at" intitle:index.of
"Apache/1.3.29 server at" intitle:index.of
"Apache/1.3.31 server at" intitle:index.of
"Apache/1.3.33 server at" intitle:index.of
"Apache/1.3.34 server at" intitle:index.of
"Apache/1.3.35 server at" intitle:index.of
"Apache/2.0 server at" intitle:index.of
"Apache/2.0.32 server at" intitle:index.of
"Apache/2.0.35 server at" intitle:index.of
"Apache/2.0.36 server at" intitle:index.of
"Apache/2.0.39 server at" intitle:index.of
"Apache/2.0.40 server at" intitle:index.of
"Apache/2.0.42 server at" intitle:index.of
"Apache/2.0.43 server at" intitle:index.of
"Apache/2.0.44 server at" intitle:index.of
"Apache/2.0.45 server at" intitle:index.of
"Apache/2.0.46 server at" intitle:index.of
"Apache/2.0.47 server at" intitle:index.of
"Apache/2.0.48 server at" intitle:index.of
"Apache/2.0.49 server at" intitle:index.of
"Apache/2.0.49a server at" intitle:index.of
"Apache/2.0.50 server at" intitle:index.of
"Apache/2.0.51 server at" intitle:index.of
"Apache/2.0.52 server at" intitle:index.of
"Apache/2.0.55 server at" intitle:index.of
"Apache/2.0.59 server at" intitle:index.of


Tabla1. Consultas para mostrar directorios de distintos tipos y versiones de servidores

Por otra parte, también pueden aplicarse otras técnicas de consulta de directorios, denominadas de "de recorrido de directorios". Consisten en el empleo del operador inurl combinado con las consultas anteriores. Ello permite especificar otros directorios que estén contenidos dentro del principal, efectuando un recorrido completo en todos sus apartados, por ejemplo intitle:index.of "parent directory" inurl:"/paper/" information retrieval permite recuperar todos los directorios que contengan artículos o papers especializados en recuperación de información. Para ello los resultados deberán cumplir la condición de contener una carpeta denominada "paper".

No hay comentarios:

Publicar un comentario

Nota: solo los miembros de este blog pueden publicar comentarios.