Sistemas de Recuperación e Internet: noviembre 2012

martes, 27 de noviembre de 2012

Práctica7. Análisis webcrawler

Se propone el empleo de una herramienta webcrawler básica, desarrollada originalmente para demostrar las posibilidades de recuperación de información y análisis webmétrico con métodos plenamente automatizados. El programa Mbot que se utilizará, corresponde a su fase beta1.0, que aún no estando perfeccionada, permite llevar a cabo pequeños análisis de páginas web, con los que obtener conclusiones y razonamientos valiosos para el aprendizaje. En la práctica se empleará para obtener los distintos componentes de páginas web, analizando varios niveles de enlazamiento desde un sitio web de una universidad escogida en el ranking web de universidades http://www.webometrics.info/ Una vez obtenidos los datos, el alumno deberá razonar y estudiar los resultados, para tratar de responder a las preguntas planteadas sobre el número de enlaces, metadescripción obtenida y variabilidad en el número de contenidos y componentes obtenidos.

Descargar práctica7

Webcrawler Mbot beta1.0

lunes, 26 de noviembre de 2012

Webmetría y análisis de páginas web

Qué es cibermetría y webmetría

Dada la importancia y extensión que ha adquirido la cibermetría en los últimos tiempos, se hace necesario conocer algunas definiciones de conceptos relacionados con la Bibliometría aplicada a la Web o Internet, es decir, la cibermetría. Este área de conocimiento, está en pleno estudio y desarrollo, por lo que existe una variación semántica bastante notable en muy corto espacio de tiempo, según se avanza en las investigaciones y pruebas.

Analizando el término "cibermetría", al descomponerlo en (ciber-) y (-metria), se indica la medición cuantitativa de la red virtual o la web. Es por ello, que se puede deducir también que la cibermetría es la aplicación de las técnicas bibliométrico estadísticas a la información recopilada en la web. Partiendo de la metodología como base para distinguir la ciencia que mide la web, cabe distinguir otro concepto emergente en muchos estudios especializados, se trata del término "webmetría". Si bien cibermetría corresponde al estudio cuantitativo de la web, ¿a qué corresponde el término webmetría? Según Björneborn, distingue el área de aplicación.

Cibermetría (BJÖRNEBORN. 2004): Es el estudio de los aspectos cuantitativos de la construcción y uso de los recursos de información, estructuras y tecnologías en Internet, desde perspectivas bibliométricas e informétricas.

Webmetría (BJÖRNEBORN. 2004): Es el estudio de los aspectos cuantitativos de la construcción y uso de los recursos de información, estructuras y tecnologías de una parte concreta de Internet, por regla general a una web o portal, desde perspectivas bibliométricas e informétricas.

Esto significa que la cibermetría acoge todo el espectro de análisis de la web y la webmetría selecciona una parte de ella, una sección o localización muy concreta. Por ejemplo el análisis de la web de española, corresponde a un estudio de tipo cibermétrico. Pero el estudio de la web de la universidad española es mucho más reducido y localizado lo que corresponde según Björneborn a un enfoque webmétrico. (ARROYO, N. 2005)

Factores que pueden influir en los estudios cibermétricos y webmétricos

Frecuencia de actualización de los sitios web citantes y citados

La modificación y actualización de los contenidos de una página o sitio web

La difusión y el nivel de enlazamiento de una web con el resto

La tipología documental de los recursos electrónicos en constante cambio

Qué es un webcrawler

El término webcrawler, también conocido con las denominaciones rastreador, araña, robot de búsqueda, crawler, spider, bot es un programa que cumple múltiples propósitos de análisis y extracción de información de la web. Constituye el instrumento de investigación principal con el que se realizan los estudios cibermétricos y webmétricos, lo que implica una estrecha relación entre la información que es capaz de recuperar y las técnicas de análisis, tabulación y medición de la metría. Pero ¿cómo funciona un webcrawler? ¿qué información puede recuperar? ¿qué utilidad tiene para el documentalista, de cara a la elaboración de estudios webmétricos?

Cómo funciona un webcrawler

A continuación se presenta un diagrama que explica el funcionamiento del webcrawler Mbot, véase figura1. Se trata de un programa especializado en el desarrollo de análisis webmétricos para un determinado área del conocimiento en la web, o grupo demarcado de sitios y páginas web. El mecanismo de funcionamiento se basa en diversos pasos. En primer lugar es necesario elaborar un archivo denominado "semilla.txt" que contiene la muestra inicial de direcciones URL que se pretenden analizar. Ello implica un proceso manual de selección de las páginas y sitios web que serán objeto de estudio. Definido el marco de estudio y con ello el listado de direcciones, se realiza un proceso de configuración del webcrawler en el que se determina la profundidad del análisis según los niveles de enlazamiento de los sitios y páginas definidas en la semilla. Esto es analizar los vínculos de los sitios y páginas de la semilla de forma sucesiva, hasta finalizar el proceso. Cada salto de una página a otra, se denomina nivel de profundidad, de tal manera que es posible navegar de una página a través de sus vínculos, determinando un recorrido que puede ser trazado y reflejado en un sistema de información, como un webcrawler. Pero también pueden y deben configurarse otros ajustes de importancia, como por ejemplo el buffer (que permite retener la información del proceso de extracción de datos), el tiempo en cache (para determinar el número de segundos que el sistema mantiene las entradas DNS en memoria), el tiempo de conexión (define el número de milisegundos que el sistema espera cuando está intentando conectar con la dirección URL especificada) y el tiempo de ejecución máximo por URL. Finalmente también es relevante determinar filtros y extensiones para que el análisis del webcrawler sea más especializado y rápido. Por ejemplo aplicar restricciones por sitio web, por extensión o por patrones o regexp, permite diferenciar más fácilmente el tipo de enlace que se pretende recuperar en el análisis webmétrico y obviar o no aceptar aquel que fue especificado.

Figura1. Funcionamiento del programa de webcrawling Mbot. (BLÁZQUEZ OCHANDO, M. 2011)

El proceso de webcrawling, consiste en la extracción de toda la información de la dirección URL de una página o sitio web objetivo que de forma secuencial presenta el programa Webcrawler. Mbot por ejemplo, descarga todo el código fuente de una página web objetivo y lo filtra para obtener todos sus elementos de forma ordenada de cara a un correcto almacenamiento. Dicho almacenamiento puede realizarse de múltiples formas, a través de archivos de texto plano, separados por comas CSV e incluso bases de datos como MySQL. En este sentido se crea un registro tipo que permite almacenar la información ordenada y filtrada por el webcrawler para su posterior tratamiento, tabulación y análisis. De hecho pueden existir registros completos de todo el contenido de una página web, o existir diversos archivos, bases de datos especializados en el almacenamiento de enlaces, imágenes, documentos que fueron recopilados durante la extracción de datos. Para realizar la extracción de la información de una página web y dividir sus correspondientes elementos, se emplean programas de tipo parser dentro del webcrawler, capaces de reconocer las etiquetas e instrucciones de HTML y con ello desarrollar el proceso de extracción de los datos contenidos en ellas. De la misma forma que existen parsers capaces de analizar archivos de metadatos en XML, existen parsers capaces de recopilar los enlaces de una página, los párrafos, metadatos en HTML, canales de sindicación, imágenes, documentos, archivos multimedia, entre otros. No obstante, la información extraída en este estadio no está definitivamente preparada, ya que en muchos casos los enlaces (unidad fundamental del análisis webmétrico) resultan ser de tipo relativo, lo que dificulta el acceso a subsiguientes niveles de análisis durante el proceso de webcrawling. Ello implica que se desarrolle un proceso de depuración y preparación de las direcciones URL relativas, convirtiéndolas en absolutas, de forma tal que aseguren el acceso a la información que en tal caso vinculan.

Qué información se puede recuperar

La información que en un webcrawler se pueda recuperar, marca en muchos casos los posibles estudios webmétricos que se puedan realizar. A priori es posible recuperar cualquier elemento o contenido de un sitio o página web. Suelen ser objetivo de extracción los títulos de las sitios y páginas, sus metadatos y meta-etiquetas, sus canales de sindicación, las imágenes, documentos, archivos multimedia, código fuente y texto completo párrafo a párrafo.

Qué utilidad tiene para el documentalista, de cara a la elaboración de estudios webmétricos

La utilidad de un webcrawler para la elaboración de estudios webmétricos es capital, dado que la información recopilada por este tipo de programas posibilita la elaboración de una muestra de datos lo suficientemente cualificada y completa como para obtener datos directos sobre los siguientes aspectos:

Banco de datos de imágenes, documentos, metadatos, canales de sindicación.
Colección de textos para la recuperación de información.
Nº total de enlaces analizados (incluyendo duplicaciones).
Nº total de enlaces únicos analizados (sin duplicaciones).
Nº total de enlaces analizados según niveles de profundidad.
Nº de dominios, sitios y páginas web analizadas en cada nivel de profundidad.
Distribución de dominios de tipo genérico y geográfico, según sitios y páginas web.
Distribución de tipos de documentos según su extensión o formato. Por ejemplo documentos ofimáticos, audiovisuales, imágenes, web dinámica y estática.
Análisis de macroestructura de la web. Determinación de los componentes de la web Main, Out, In, Island, Tunnel, Tentacle In, Tentacle Out, según el enlazamiento de los vínculos entre sitios y páginas web del análisis llevado a cabo.
Ranking de sitios y páginas con más metadatos.
Distribución de la tipología de metadatos más utilizada.
Ranking de sitios web con más enlaces únicos y páginas.
Ranking de sitios web con más documentos, imágenes, archivos audiovisuales, etc.
Ranking de sitios web con más canales de sindicación.
Análisis de coenlaces. Sitios y páginas más coenlazados.
Sitios web más enlazados.
Páginas web más enlazadas.
Trazado de hipervínculos entre sitios y páginas web que permite la elaboración de gráficas topográficas de la web analizada.

Análisis de enlaces

Como se puede comprobar, cualquier análisis cibermétrico y webmétrico requiere ineludiblemente de un análisis de los enlaces. Ello significa que la citación entendida en el ámbito de la bibliometría, puede encontrarse igualmente en los documentos de naturaleza electrónica, publicados en la web, añadiendo la variable del enlazamiento. Dicho de otra forma, se pueden aplicar las técnicas de análisis bibliométricas, pero requerirán de un aumento de los vínculos enlazados, concretamente de los "links" que el documento tenga. de esta forma la citación bibliográfica no es el único objeto de análisis y el enlace hipertextual juega un papel determinante para definir la correlación entre varias páginas web, incluso si se trata de una referenciación bibliográfica. De esta forma, pueden existir diversos tipos de análisis de enlaces:

Análisis de "sitas" o "links que vinculan sitios web" comprobando cuáles son los sitios web de mayor relevancia por el número de enlaces externos e internos que reciben.
Análisis de "co-citas" que mide el número de veces que aparecen dos documentos referenciados recíprocamente, lo que indica su aproximación temática.
Análisis de "co-enlaces" que identifica si dos sitios web están referenciados recíprocamente en sus páginas web, midiendo el número de enlaces que sí co-enlazan y el número de enlaces que no co-enlazan.
Análisis de "Co-ocurrencia por palabras" que determina cuantos documentos tienen en común una serie de descriptores, frases o palabras clave, contabilizando su frecuencia en el número de coincidencias ocurridas para cada término.
Análisis de macroestructura de la web, véase figura2.

Figura2. Representación de la macroestructura web, o análisis de grafo

Componente	Descripción	Esquema
MAIN	Sitios web fuertemente conectados en todas las páginas web.	url1ßà url main ßà url2 linkmap url ßà url main ßà linkmap url
IN	Sitios web que enlazan el componente MAIN, pero no lo son de manera recíproca.	url1 à url main url2 à url main linkmap url à url main
OUT	Sitios web que son enlazados desde MAIN pero no de forma recíproca.	url main à url1 url main à url2 url main à linkmap url
ISLAND	Sitios web desconectados de los demás o con un pobre nivel de enlazamiento. Pueden ser alcanzados por el resto de componentes, pero ellos no enlazan a ninguno de ellos.	à url1 ß à url2 ß à linkmap url ß
TENTACLE IN	Sitios web que sólo conectan el componente IN	(url1 à url main) à linkmap url (url2 à url main) à linkmap url
TENTACLE OUT	Sitios web que sólo conectan el componente OUT	(url main à url1) à linkmap url (url main à url2) à linkmap url
TUNNEL	Sitios web que vinculan el componente IN y OUT sin necesidad de enlace a través de MAIN	url1 à url2 url2 à url1 linkmap url à linkmap url

Tabla1. Descripción de componentes de la macroestructura web.
Véase (GRAELLS, E.; R. BAEZA YATES. 2007)

Referencias

ABRAHAM, R.H. 1996. Webometry: measuring the complexity of the World Wide Web. World Futures, 50, 785-791. Disponible en: http://www.ralph-abraham.org/articles/MS%2385.Web1/

ABRAHAM, R.H. 1998. Webometry: measuring the synergy of the World Wide Web. Biosystems. 46(1-2), 209-212.

ALONSO BERROCAL, J.L.; GARCÍA FIGUEROLA, L.C.; ZAZO RODRÍGUEZ, F. 2004. Cibermetría: Nuevas Técnicas de Estudio Aplicables al Web. Madrid: Trea.

ARROYO, N.; ORTEGA, J.L. PAREJA, V.; PRIETO, J.A.; AGUILLO, I. 2005. Cibermetría: Estado de la cuestión. En: 9as Jornadas Españolas de Documentación, FESABID (Madrid 14 y 15 de abril). Disponible en: http://digital.csic.es/bitstream/10261/4296/1/R-17.pdf

BJÖRNEBORN, L. 2004. Small-world link structures across an academic web space: a library and information science approach. Copenhage: Department of Information Studies, Royal School of Library and Information Science.

FABA PÉREZ, C.; GUERRERO BOTE, V.P.; F. MOYA ANEGÓN. 2004. Fundamentos y técnicas cibermétricas. Badajoz: Consejería de Educación, Ciencia y Tecnología. Junta de Extremadura.

GRAELLS, E.; R. BAEZA YATES. 2007. Características de la Web Chilena 2007. Santiago de Chile. Disponible en: http://alumnos.dcc.uchile.cl/~egraells/wp-content/uploads/2008/10/estudio-ecc.pdf

martes, 20 de noviembre de 2012

Práctica6. Análisis y recuperación parser de metadatos

Los metadatos Dublin Core, MADS, MODS, METS, MARC-XML, EAD, entre otros, pueden ser analizados y aprovechados para su recuperación, edición y gestión, por medio de programas de análisis "parser", ya citados en el apartado anterior. Sus empleos en los sistemas de gestión de contenidos, buscadores, catálogos bibliográficos, bases de datos especializadas y directorios, están muy extendidos. De hecho, sin este tipo de herramientas no se podrían leer las noticias publicadas por los medios de comunicación en tiempo real, compartir información mediante archivos basados en formato XML, no existiría la web semántica y todos sus contenidos no tendrían sentido, pues no podrían ser en tal caso recuperados. En la presente práctica, se propone comprender el funcionamiento de los programas parser especializados en metadatos, a través de una herramienta de lectura básica, capaz de interpretar las consultas mediante XPath realizadas por el usuario sobre un determinado código XML. Según los códigos varíen, también deberán variar las estrategias de consulta y filtrado del usuario.

Descargar práctica6

Ejercicio de análisis parser de metadatos

lunes, 19 de noviembre de 2012

Lectura de metadatos: programas parser

Los metadatos estudiados, Dublin Core, MADS, MODS y METS, así como cualesquiera que sean basados en XML, pueden ser explotados gracias a la existencia de programas de lectura cuyos patrones de funcionamiento permiten un análisis correcto de acuerdo a la norma de construcción de tales metadatos. Esto es lograr recuperar la información que contienen embebida entre etiquetas de apertura y cierre, así como en sus correspondientes atributos. Los programas parser no son herramientas fácilmente visibles para el documentalista, sólo se observan los resultados de los mismos. Su presencia en casi todas las herramientas de la web, los convierte en indispensables y su conocimiento habilita al documentalista para un mejor aprovechamiento de la información publicada en los catálogos bibliográficos, sistemas de información y documentación de las distintas UIDs. Pero para comprender su función es necesario definirlos, así como establecer cuál es su patrón de funcionamiento básico.

Qué es un parser

Un parser es un analizador sintáctico de patrones o estructuras predefinidas, que actúa sobre un archivo, cadena de caracteres, códigos, formatos o texto, de forma tal que es capaz de generar una pila ordenada de los elementos coincidentes con dicho patrón según su jerarquía y posición original, para su posterior acceso, selección y recuperación. Con independencia del patrón y de la fuente de datos que el parser analiza, también existen otras características que definen su funcionamiento, como el recorrido ascendente bottom-up-parsing o descendente top-down-parsing, por derivación LL left to right, leftmost derivation o por ampliación LR left to right, rightmost derivation.

Un parser es de recorrido ascendente, cuando parte de los elementos básicos de una estructura jerárquica de tal forma que desconoce por completo sus posibles relaciones ascendentes, con terceros elementos padres o ancestros, por lo que su orden de inferencia se basa en la ampliación de tales estructuras con las de los niveles superiores, hasta alcanzar el primer elemento de la jerarquía. Por este motivo un parser de tipo ascendente bottom-up-parsing, también será de tipo LR left to right, rightmost derivation (CHAPMAN, N.P, 1987). Un parser es de recorrido descendente, cuando parte del primer elemento de la estructura jerárquica de tal forma que establece relaciones con los elementos hijos y nietos mediante la derivación del análisis en cada uno de ellos de forma recursiva, hasta alcanzar los niveles inferiores de la jerarquía. Por este motivo un parser de tipo descendente top-down-parsing, también será de tipo LL left to right, leftmost derivation (GRUNE, D. and Jacobs, C., 1998). En el caso de los metadatos y del análisis de páginas web, los analizadores sintácticos parten de las estructuras propias de XML como patrones conocidos de comparación y análisis. Dado que XML es un lenguaje estructurado y anidado, resulta eminentemente jerárquico y de contexto gramatical conocido. Por estos motivos, los parser aplicados a XML son del tipo LL left to right, leftmost derivation.

Funcionamiento general de un parser XML

Un parser XML es un analizador sintáctico de estructuras anidadas de etiquetas. Ello significa que cualquier formato de sindicación es susceptible de ser analizado por este tipo de programas por el mero hecho de estar basados en XML. Por lo tanto el primer requisito para el funcionamiento de un parser XML es la disposición de un canal de sindicación que actúa como fuente de datos para el análisis. A continuación el sistema carga el archivo XML en búfer de memoria para empezar el análisis descendente de la estructura jerárquica. El primer paso es la detección de la cabecera XML, indicativa de que el archivo posee dicho dominio gramatical. Este paso resulta fundamental, puesto que determina la validación del lenguaje XML. A continuación se procede con un análisis descendente de la estructura jerárquica propia del formato de sindicación. Ello significa que tomará como punto de partida la primera etiqueta de apertura y cierre del formato.

Esta primera confrontación también resulta clave, dado que las etiquetas de apertura del canal de sindicación contienen atributos xmlns para definir su propio namespace y el de los módulos que utilicen en todo caso, lo que puede facilitar la identificación de los juegos e etiquetas necesarios para interpretar el contenido del formato. No obstante, el parser por sí solo no entiende estas disquisiciones y únicamente anotará en su pila de elementos la existencia de atributos adscritos a la primera etiqueta del canal de sindicación. Recuérdese que al tratarse de un parser de análisis por derivación, comprobará las etiquetas de primer nivel jerárquico propias de la descripción del canal de sindicación y de las entradas de contenidos que lo conforman de forma secuencial y ordenada hasta agotar todas las alternativas posibles de derivación con el primer elemento del primer nivel jerárquico y sus sucesivos.

Figura1. Esquema de funcionamiento de un programa parser aplicado a sindicación de contenidos

De esta forma, el parser configura una pila de elementos que es esencialmente un array de arrays o una matriz de matrices que a modo de mapa de la estructura del archivo de metadatos, permite acceder a sus contenidos, mediante expresiones de selección preferiblemente compuestas en lenguaje XPath o XQuery. Para almacenar sus contenidos, también se necesita un proceso denominado asignación de valores a variables, ello implica crear las variables propias de cada etiqueta para almacenar la información del formato. El método más ordenado y efectivo para lograrlo es la identificación de la variable a una función de selección expresada en XPath que actúa sobre el mapa estructural creado por el parser.

El resultado de su ejecución es la selección del contenido de dicha etiqueta y su asignación a la variable. Finalmente una vez asignados los valores a las variables, pueden emplearse para constituir un servicio de lectura del canal de sindicación, pueden importarse a una base de datos para su posterior edición o exportarse los contenidos a terceros formatos.

Figura2. Esquema de funcionamiento de un programa parser especializado en metadatos

Referencias

BLÁZQUEZ OCHANDO, M. 2010. Aplicaciones de la sindicación para la gestión de catálogos bibliográficos. pp.206-219. Disponible en: http://eprints.ucm.es/11233/1/T32065.pdf

CHAPMAN, N.P. 1987. LR parsing: theory and practice. Cambridge University Press.

GRUNE, D. y C. JACOBS. 1998. PARSING TECHNIQUES A Practical Guide. Chichester: Ellis Horwood.

martes, 13 de noviembre de 2012

Ejemplos de codificación METS

Ejemplos Oficiales

Registro bibliográfico.
Disponible en: http://lcweb2.loc.gov/diglib/ihas/loc.afc.afc9999005.1153/mets.xml

Documento PDF.
Disponible en: http://digitalassets.lib.berkeley.edu/techreports/ucb/mets/cuengi_10_1_00025320.xml

Referencias

PEARCE, J.; PEARSON, D.; WILLIAMS, M.; YEADON, S. 2008. The Australian METS Profile – A Journey about Metadata. En: D-Lib Magazine. Vol.14 (n3/4). Disponible en: http://www.dlib.org/dlib/march08/pearce/03pearce.html

AMARAL, M. 2010. METS for Transferable Metadata. Disponible en: http://easydigitalpreservation.wordpress.com/2010/06/30/mets-for-transferable-metadata/

NISO. 2004. Understanding Metadata. Disponible en: http://www.niso.org/publications/press/UnderstandingMetadata.pdf

lunes, 12 de noviembre de 2012

Transmisión de metadatos METS

METS es un esquema de metadatos para la descripción de objetos de una biblioteca digital. Para ello se emplea XML como lenguaje de marcado base. A diferencia de los metadatos MADS especializados en autoridades y MODS especializados en objetos de tipo bibliográficos y recursos de la web, los metadatos METS están enfocados a la descripción de objetos digitales para la 1) transmisión de información bibliográfica, 2) archivo de la información, 3) difusión de la información. Esto significa que actúan como método de meta-descripción de los objetos y autoridades que se describen mediante MADS y MODS, pero también para otros formatos como MARC, EAD, VRA, Dublin Core, NISOIMG, TEIHDR, DDI, FGDC.

Fundamentos de METS
Los metadatos METS constan de su propio espacio de nombres o namespace, véase tabla1, lo que permite su uso complementado en archivos codificados con MADS o MODS, véase tabla2.

Versión	Prefijo XML/RDF	URI del espacio de nombres (namespace)
1.0	mets	http://www.loc.gov/METS/
xsi:schemaLocation		http://www.loc.gov/METS/ http://www.loc.gov/standards/mets/mets.xsd
Tabla1. Espacio de nombres con sus prefijo aplicado en la codificación de METS

<mets:mets xmlns:mets="http://www.loc.gov/METS/" xmlns:rights="http://www.loc.gov/rights/" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:lc="http://www.loc.gov/mets/profiles" xmlns:bib="http://www.loc.gov/mets/profiles/bibRecord" xmlns:mods="http://www.loc.gov/mods/v3" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" OBJID="loc.afc.afc9999005.1153" xsi:schemaLocation="http://www.loc.gov/METS/ http://www.loc.gov/standards/mets/mets.xsd http://www.loc.gov/mods/v3 http://www.loc.gov/standards/mods/v3/mods-3-2.xsd" PROFILE="lc:bibRecord">

<mets:dmdSec ID="dmd1">

<mets:mdWrap MDTYPE="MODS">

<mets:xmlData>

<mods:mods ID="mods1">

<mods:titleInfo>

<mods:title>título del documento</mods:title>

</mods:titleInfo>

Tabla2. Inicio de la codificación del registro bibliográfico con METS y MODS

Por otro lado, METS consta de diversas secciones y estructuras para su construcción, véase tabla3.

Etiqueta raíz <mets></mets>
Sección 1. Cabecera METS <metsHdr></metsHdr>
Definición: Metadatos descriptivos mínimos para identificar la fecha de creación de los metadatos METS, el estado de la descripción del recurso, objeto o documento, el agente o especialista encargado de la verificación y transferencia (ciclo vital), así como su función exacta.
Contiene	<agent>, <altRecord>
<metsHdr CREATEDATE="2010-09-14T19:00:00" RECORDSTATUS="Complete"> <agent ROLE="CREATOR" TYPE="INDIVIDUAL"> <name>Juan Diego Álvarez</name> </agent> <agent ROLE="DISSEMINATOR" TYPE="INDIVIDUAL"> <name>Javier Alvarado Martínez</name> </agent> </metsHdr>
Sección 2. Metadatos descriptivos <dmdSec></dmdSec>
Definición: Permite introducir metadatos externos mediante referencia de puntero <mdRef> e internos mediante embebido de los mismos <mdWrap>. Tales metadatos permiten la descripción del documento, objeto o recurso. Todos los metadatos <dmdSec> deben tener un atributo ( ID ) que permita identificar esa sección en la estructura del archivo.
Contiene	<mdRef>, <mdWrap>
<!-- Ejemplo de mdRef y puntero de metadatos --> <dmdSec ID="dmd001"> <mdRef LOCTYPE="URI" MIMETYPE="text/html" MDTYPE="MARC" LABEL="La lógica de la investigación científica">http://cisne.sim.ucm.es/record=b2774781~S6*spi</mdRef> </dmdSec>
<!-- Ejemplo de mdWrap que permite embeber metadatos Dublin Core --> <dmdSec ID="dmd002"> <mdWrap MIMETYPE="text/xml" MDTYPE="DC" LABEL="Dublin Core Metadata"> <xmlData> <dc:title>La lógica de la investigación científica</dc:title> <dc:creator>Karl R. Popper (1902-1994)</dc:creator> <dc:date>2011</dc:date> <dc:publisher>Tecnos</dc:publisher> <dc:subject>Filosofía de la ciencia</dc:subject> </xmlData> </mdWrap> </dmdSec>
<!-- Ejemplo de mdWrap con metadatos MARC expresados o codificados en Bas64 --> <dmdSec ID="dmd003"> <mdWrap MIMETYPE="application/marc" MDTYPE="MARC" LABEL="OPAC Record"> <binData> TEVBREVSIDAwMDAwbmFtICAyMjAwMDAwIGEgNDUwMCANCjAwOCAgICAxMjA0MTJyMjAxMTIwMDhz cCAgICAgICAgICAgIDAwMCAgIHNwYSBjIA0KMDE3ICAgIEQuTC5NMjI0ODAtMjAxMSANCjAyMCAg ICA5NzgtODQtMzA5LTQ2MDctNSANCjA0MCAgICBTcE1hVUNGU3xic3BhIA0KMDgwICAgIDAwMS44 OTF8MjIwMDQgDQowODAgICAgMDAxOjEgDQoxMDAgMSAgUG9wcGVyLCBLYXJsIFJhaW11bmQsfGQx OTAyLTE5OTQgDQoyNDUgMTMgTGEgbPNnaWNhIGRlIGxhIGludmVzdGlnYWNp824gY2llbnTtZmlj YSAvfGNLYXJsIFIuIFBvcHBlcg0KMjUwICAgIDJhLiBlZC4sIHJlaW1wLiANCjI2MCAgICBNYWRy aWQgOnxiVGVjbm9zLHxjMjAxMSANCjMwMCAgICA1NzAgcC4gO3xjMjMgY20gDQo0OTAgMCAgRXN0 cnVjdHVyYSB5IGZ1bmNp824gDQo2NTAgMDQgSW52ZXN0aWdhY2nzbiBjaWVudO1maWNhIA0KNjUw IDA0IEZpbG9zb2btYSB5IGNpZW5jaWEgDQo2NTAgMDggUGhpbG9zb3BoeSBhbmQgc2NpZW5jZSAN CjY1MCAwOCBTY2llbnRpZiByZXNlYXJjaCANCjkwNyAwMCB6bHxiMCA= </binData> </mdWrap> </dmdSec>
Sección 3. Metadatos administrativos <amdSec></amdSec>
Definición: Permiten la organización de metadatos para la administración y gestión de los archivos digitales. En este sentido se pueden identificar 4 tipos (metadatos técnicos <techMD>, metadatos de derechos y propiedad intelectual <rightsMD>, metadatos sobre el origen del documento <sourceMD> y metadatos sobre la procedencia digital <digiprovMD>) Para cada uno de los subelementos se aplica se aplica el etiquetado <mdWrap> y <mdRef> para reseñar los metadatos administrativos. Al igual que en los metadatos descriptivos es necesario identificar cada apartado con el atributo ID, con objeto de crear una estructura del documento METS.
Contiene	<techMD>, <rightsMD>, <sourceMD>, <digiprovMD>
<techMD ID="amd001"> <mdWrap MIMETYPE="text/xml" MDTYPE="OTHER" LABEL="PRISM Tamaño de la información"> <xmlData> <prism:byteCount>36.864 bytes</prism:byteCount> <prism:wordCount>6822</prism:wordCount> </xmlData> </mdWrap> <mdWrap MIMETYPE="text/xml" MDTYPE="DC" LABEL="Dublin Core soporte y formato"> <xmlData> <dcterms:format>21cm</dcterms:format> <dcterms:medium>papel</dcterms:medium> </xmlData> </mdWrap> </techMD> <rightsMD ID="amd002"> <mdWrap MIMETYPE="text/xml" MDTYPE="DC" LABEL="Dublin Core derechos"> <xmlData> <dcterms:rights>Uso comercial, reproducción y difusión sometida a tasas de explotación</dcterms:rights> <dcterms:license>http://www.tecnos.es/legal_tecnos/condiciones.html</dcterms:license> </xmlData> </mdWrap> </rightsMD> <sourceMD ID="amd003"> <mdWrap MIMETYPE="text/xml" MDTYPE="DC" LABEL="Dublin Core fuente original"> <xmlData> <dcterms:source>Catálogo CISNE Biblioteca Universidad Complutense</dcterms:source> </xmlData> </mdWrap> </sourceMD>
Sección 4. Archivo <fileSec></fileSec>
Definición: Sección que permite agrupar los distintos archivos relacionados con el documento u objeto digital. Por ejemplo su ficha descriptiva, su documento digitalizado, imagen, audio, video.
Contiene	<fileGrp>
<fileSec> <fileGrp ID="v1"> <file ID="file001" MIMETYPE="application/xml" SIZE="257537" CREATED="2011-06-10"> <FLocat LOCTYPE="URL">http://dominio.es/biblioteca/bib1_9788430946075.xml</FLocat> </file> </fileGrp> </fileSec>
Sección 5. Mapa estructural <structMap></structMap>
Definición: La sección mapa estructural define la estructura jerárquica del documento de acuerdo a los IDS establecidos a lo largo de la descripción METS. La jerarquía de las partes del documento METS se define mediante elementos <div> que a su vez anidan diversos tipos de subelementos <mptr> (puntero de METS) y <fptr> (puntero de archivo) que permite identificar los contenidos correspondientes a cada archivo definido en la sección 4.
Contiene	<div>
<structMap TYPE="logical"> <div ID="div1" LABEL="Ficha catalográfica codificada en MARC-XML" ORDER="1"> <fptr FILEID="file001"> <area FILEID="file001"/> </fptr> </div> </structMap>
Sección 6. Enlace estructural <structLink></structLink>
Definición: Sección para el registro de enlaces a lo largo de la descripción del recurso o documento objetivo (Archivo de sitios web)
Contiene	<smLink>
<smLink from="img001" to="file001"/> <smLink from="img002" to="file002"/> <smLink from="img003" to="file004"/>
Sección 7. Comportamiento <behaviorSec></behaviorSec>
Definición: Permite definir el comportamiento del programa de lectura PARSER para la interpretación del contenido codificado. Ésta sección puede contener uno o varios elementos <behavior> que a su vez constan de subelementos <mechanism> que permiten ejecutar un módulo de lectura en el PARSER de lectura para que trate un determinado tipo de información. En el siguiente ejemplo se observa cómo se alude a una función de carga y lectura de imágenes.
Contiene	<behaviorSec>, <behavior>
<METS:behavior ID="DISS1.1" STRUCTID="S1.1" BTYPE="uva-bdef:stdImage" CREATED="2002-05-25T08:32:00" LABEL="UVA Std Image Disseminator" GROUPID="DISS1" ADMID="AUDREC1"> <METS:interfaceDef LABEL="UVA Standard Image Behavior Definition" LOCTYPE="URN" xlink:href="uva-bdef:stdImage"/> <METS:mechanism LABEL="A NEW AND IMPROVED Image Mechanism" LOCTYPE="URN" xlink:href="uva-bmech:BETTER-imageMech"/> </METS:behavior>

Referencias

LOC. 2012. PREMIS: Preservation Metadata Maintenance Activity. Disponible en: http://www.loc.gov/standards/premis/

LOC; DLF. 2010. METS: Metadata encoding and transmission standard: primer and reference manual. Disponible en: http://www.loc.gov/standards/mets/METSPrimerRevised.pdf

LOC; Eito Brun, R. (trad.). 2012. METS: Introducción y tutorial. Disponible en: http://www.loc.gov/standards/mets/METSOverview_spa.html

Sistemas de Recuperación e Internet