Metadades, concepte

octubre 24, 2007
  Metadatos: concepto y motivación
 
  Los metadatos en sí no suponen algo completamente nuevo dentro del mundo bibliotecario. Según Howe (1993), el término fue acuñado por Jack Myers en la década de los 60 para describir conjuntos de datos. La primera acepción que se le dio (y actualmente la más extendida) fue la de dato sobre el dato, ya que proporcionaban la información mínima necesaria para identificar un recurso. En este mismo trabajo se afirma que puede incluir información descriptiva sobre el contexto, calidad y condición o características del dato. El término no ha evolucionado en gran medida desde esta fecha hasta ahora (2004), pero sí lo han hecho los conceptos asociados a él, las aplicaciones y el nivel de uso de los metadatos.Atendiendo a la definición anterior, podríamos considerar la catalogación como un proceso de generación de metadatos. Teniendo en cuenta que la mayoría de los sistemas de metadatos han sido creados no sólo por profesionales de la información sino también por informáticos, diseñadores de programas, técnicos de sistemas, etc., la utilización de este término puede conllevar una carga documental a veces excesiva (con conceptos como por ejemplo, reglas de catalogación, clasificaciones de materias, etc.). “Metadato/s” se utiliza como un término neutral, que permite alejarnos de posibles prejuicios por parte de todas aquellas personas menos cercanas al mundo bibliotecario colocando, a todos los grupos profesionales implicados en su desarrollo, en una posición de igualdad, y a su propia evolución y aplicación, en una situación de multidisciplinariedad.

De todas las definiciones existentes podemos extraer varios puntos cruciales (dato sobre el dato, concepto de objeto, recuperación de información) que nos pueden ser útiles para la realización de una nueva definición que aglutine a todas las publicadas hasta la fecha, de tal forma que resulte posible concluir que metadato es toda aquella información descriptiva sobre el contexto, calidad, condición o características de un recurso, dato u objeto que tiene la finalidad de facilitar su recuperación, autentificación, evaluación, preservación y/o interoperabilidad.

  De esta forma, son ejemplos de metadatos:
  El encabezamiento de un fichero multimedia (imagen, vídeo o audio).  
  El resumen de un documento.  
  El catálogo de una base de datos.  
  Los términos asignados haciendo uso de un tesauro.  
  Las palabras extraídas de un texto.  
  Las fichas catalográficas en cualquier formato (ISBD, MARC, etc.).  
  Las páginas amarillas.  

  En Internet podemos encontrarlos también en multitud de formas:
  Índices de documentos contenidos en una Intranet.  
  Direcciones IP o DNS.  
  Directorios X-500.  
  Encabezamiento de mensajes de correo electrónico.  
  Descripción de los archivos accesibles vía FTP.  
  Términos extraídos por los motores de indización/búsqueda.Información obtenida del logo2sedic.jpg
  1. El concepto de metadato. Algo más que descripción de recursos electrónicos recursos electrónicos: http://www.scielo.br/pdf/ci/v32n2/17038.pdf
  2. Estructuración de la información mediante XML: un nuevo reto para la gestión documental: http://rayuela.uc3m.es/~bmartin/publicaciones/fesabid2000.pdf
  3. El documento como Objeto de Información Digital: Metadatos y esquemas de metainformación en la Web. http://www.ect.juntaex.es/dgsi/Documentacion/Eva.pdf
  4. Guía de uso del Dublin Core (HTML): http://es.dublincore.org/documents/usageguide/
  5. Modelos de metadatos para pasarelas temáticas [subject gateways] (es traducción, texto original en inglés): http://www.ifla.org/IV/ifla69/papers/053s_trans-Howarth.pdf
  6. Problemática y tendencias en la arquitectura de metadatos: http://www.um.es/fccd/anales/ad06/ad0603.pdf
  7. RDF: un modelo de metadatos flexible para las bibliotecas digitales del próximo milenio: http://www.bibliotecnic.org/archivos_biblioteca/doc15.pdf
Anuncios

Greenstone Digital Library, plataforma informatica per a la construcció de biblioteques digitals

octubre 24, 2007

logo_greenstone.jpg


Greenstone es un conjunto de programas de software diseñado para crear y distribuir colecciones digitales, proporcionando así una nueva forma de organizar y publicar la información a través de Internet o en forma de CD-ROM. Greenstone ha sido producido por el Proyecto Biblioteca Digital de Nueva Zelanda con sede en la Universidad de Waikato y ha sido desarrollado y distribuido en colaboración con la UNESCO y la ONG de Información para el Desarrollo Humano con sede en Amberes, Bélgica. Es un software abierto en varios idiomas distribuido conforme a los términos de la Licencia Pública General GNU. Also see the factsheet.

El objetivo del software Greenstone es dar el potencial de construir sus propias bibliotecas digitales a los usuarios, especialmente en universidades, bibliotecas y otras instituciones de servicio público. Las bibliotecas digitales están cambiando radicalmente la manera en que se adquiere y disemina la información en las comunidades e instituciones que participan en UNESCO, en los campos de educación ciencia y cultura en todo el mundo, y especialmente en los países en desarrollo. Esperamos que este software animará el desarrollo efectivo de bibliotecas digitales para compartir información y ponerla en el dominio público. Más información puede encontrarse en el libro How to build a digital library, escrito por dos de los miembros del grupo del proyecto.

La interfaz completa de Greenstone y toda la documentación están disponibles en inglés, francés, español, ruso y kazako. Greenstone también cuenta con interfaces en muchos otros idiomas, entre ellos el Catalan, traducido por la Universitat de les Illes Balears .

Sobre esta plataforma se ha llevado a cabo el proyecto de Biblioteca Digital Científica de les Illes Balears 

Dspace, plataforma informatica per a la construcció de biblioteques digitals

octubre 24, 2007

dspacelogo.jpg

DSpace, <http://www.dspace.org/>, va ser desenvolupat conjuntament per les biblioteques del MIT (Massachusetts Institute of Technology, (http://libraries.mit.edu/) i l’empresa Hewlett-Packard (http://www.hp.com/). El seu objectiu és satisfer les diferents necessitats de difusió, organització i preservació dels objectes digitals: tant de dipòsits institucionals com de dipòsits d’objectes d’aprenentatge, o bé per a la gestió de recursos digitals. Actualment, DSpace és la segona aplicació més estesa (després d’EPrints), amb una comunitat d’usuaris molt gran9 i amb institucions importants, entre elles unes quantes universitats de prestigi internacional, que la utilitzen, agrupades informalment en el que s’anomena la DSpace Federation (http://dspace.org/federation/).

Des de la decisió d’usar DSpace com a programari per gestionar els dipòsits dins del CBUC, s’han creat diferents grups de treball i ja hi ha actius i en fase de preparació diferents dipòsits. Com que un dels objectius del procés era crear una comunitat d’usuaris del producte de manera que tinguéssim un suport local i que els desenvolupaments propis es poguessin aprofitar en altres institucions, es va decidir crear tres grups estables:

  • Grup de sistema. Tracta els temes més informàtics del producte. Arran del treball d’aquest grup, es va poder resoldre la cerca amb diacrítics. Posteriorment, aquest problema ja ha estat resolt en el cercador intern de DSpace, Lucene.
  • Grup de metadades. Tracta, adapta i recomana els diferents conjunts de metadades (format Dublin Core en el cas de DSpace) que haurien d’usar les institucions en els seus dipòsits i en el del CBUC.
  • Grup de gestió. Tracta els temes d’administració i ús del programa.

El resultat pràctic de la tria d’aquest sistema és Recercat, <http://www.recercat.net>, un dipòsit i recol·lector de metadades cooperatiu del CBUC que inclou la literatura grisa de recerca de les universitats i dels centres d’investigació de Catalunya, com ara articles encara no publicats (preprints), comunicacions en congressos, informes de recerca, working papers, projectes de final de carrera, memòries tècniques, etc. En una primera etapa de definició del que havia de ser aquest dipòsit es va proposar d’incloure-hi només working papers. Posteriorment es va constar la necessitat d’ampliar l’abast del dipòsit a la literatura grisa de recerca més en general.

A més, diferents universitats i altres institucions estan utilitzant DSpace per als seus dipòsits locals i més específics. Destaquem, especialment, el cas de la Universitat de Girona, amb un dipòsit de material audiovisual, < http://diobma.udg.es:8080/dspace/index.jsp>, enllaçat amb un servidor de vídeo a demanda dels usuaris. La Universitat Politècnica de Catalunya (UPC) també ha posat en marxa diferents dipòsits institucionals basats en aquesta aplicació: DSpace.Revistes UPC, <http://e-revistes.upc.edu>, que permet l’accés obert als articles de les revistes publicades per les unitats i pels grups de recerca, i DSpace.E-prints UPC, <http://e-prints.upc.edu>, que facilita la publicació en accés obert dels treballs de recerca de la Universitat, a més del portal UPCommons, <http://upcommons.upc.edu>, que dóna un accés unificat als continguts dels diferents dipòsits que el Servei de Biblioteques i Documentació ha desenvolupat, mitjançant la implementació d’un recol·lector de metadades.

DSpace es un sistema de biblioteca digital que captura, guarda, indexa, preserva y redistribuye en formatos digitales, la producción intelectual de los grupos y centros de investigación, de las facultades y de las universidades. Es un proyecto conjunto que nació de la colaboración entre MIT Libraries y Hewlett-Packard, y es en la actualidad, un producto libremente disponible para instituciones de investigación a nivel mundial como un sistema de fuente abierta que puede ser personalizado y extendido (DSpace,
2005).

DSpace is one of the first open source software platforms to store, manage and distribute its collections in digital format. As much of the world’s content is now being developed and disseminated in digital format, the DSpace software supports next-generation digital archiving that is more permanent and shareable than current analog archives. DSpace can support a wide variety of artifacts, including books, theses, 3D digital scans of objects, photographs, film, video, research data sets and other forms of content.
DSpace is available to anyone free of charge under the BSD open source license, which allows research institutions to run it as-is, or to modify and extend it as needed.

Podeu accedir a un tutorial de Dspace elaborat per la Universidad de los Andes

En aquest article es pot veure la comparació entre diverses plataformes de software per a la construcció de biblioteques digitals 

La Biblioteca digital de Google

octubre 24, 2007

books_sm.gif

Google llegó a un acuerdo en diciembre de 2004 con las universidades de Stanford, Harvard, Michigan (Estados Unidos), Oxford (Gran Bretaña) y la Biblioteca Pública de Nueva York para digitalizar todos sus libros y fondos documentales, y ponerlos a disposición del público en Internet. Sólo la biblioteca Widener de Harvard tiene 15 millones de volúmenes.

Gerber comprende los recelos que provoca aunque considera que son infundados. “Google es un buscador, pero no el único. Nuestro éxito radica en que las busquedas son rápidas y fáciles. Si no fuera así, los internautas buscarían en otros sitios. Google sólo facilita el camino para que la gente encuentre la información que necesita. Google Print es un servicio de valor añadido más, como Gmail o Picasa. Si los internautas descubren libros y les interesan los comprarán, y eso es también beneficioso para los autores y editores”, dice Gerber.

Varios estudios, según Google, sostienen que sólo el 20% de los libros publicados a lo largo del tiempo son de dominio público. “Un 20% está a la venta y entre el 60% y el 80% restante han dejado de editarse, están descatalogados. El objetivo de Google Print es poner en circulación este gran volumen de libros. El problema no es que los libros vayan a desaparecer, porque muchos están en las bibliotecas. El objetivo es ponerlos en la Red. Si no está en Internet no será encontrado y no será leído”.

Las obras que están bajo dominio público, es decir, que no están sujetas a derechos de autor, se ofrecen en su totalidad. “De las sometidas a copyright sólo ofrecemos una ficha de catálogo y un extracto sobre la búsqueda que aparece en la obra y el número de ocasiones que el término buscado aparece en el título”, explica Gerber.

A pesar de las demandas recibidas por violar el copyright, Google asegura que es “absolutamente” respetuoso con la propiedad intelectual. “Consideramos

que indexar libros, aunque estén bajo copyright, no es una violación de la ley. Estos títulos no se pueden leer ni imprimir. Simplemente puedes leer un pequeño fragmento. Esto es un fair use [uso legítimo, uso razonable] del material“. Este concepto jurídico de la legislación anglosajona deja abiertas las excepciones a los derechos de autor. Para saber si hay o no fair use, los jueces deben establecer en cada caso si el uso del material protegido es comercial o educativo, el volumen y cantidad reproducido y los efectos sobre el mercado que causa su puesta en circulación, entre otros.

En Europa, por el contrario, las excepciones están delimitadas por la ley. De ahí que de la biblioteca de Oxford, Google Print sólo digitalice los libros que están bajo dominio publico, es decir, los publicados durante o antes del siglo XVIII, tal como ya hacen proyectos similares como Gutenberg o Alianza de Contenido Abierto. Gerber no está en contra de estos y otros proyectos: “Cualquier iniciativa que ponga en Internet libros nos parece positiva. Los vemos como complementarios, no como competidores”.

Gerber asegura que el buscador no obtiene ingresos económicos. “El 100% de la digitalización y el mantenimiento de la base de datos de las cinco bibliotecas corre por nuestra cuenta”.

GOOGLE PRINT: http://print.google.es

Informació publicada a “el Pais” CIBERP@ÍS 10/11/2005

Biblioteca Virtual Miguel de Cervantes

octubre 24, 2007

logocer.gif

La Biblioteca Virtual Miguel de Cervantes se inauguraba en la Universidad de Alicante en julio de 1999 con unas dos mil obras. Un año antes la Universidad de Alicante, dentro de una amplia apuesta por las nuevas tecnologías, presentaba dicho proyecto al Grupo Santander. La escasez de recursos de la Universidad fue compensada con una generosa y decisiva ayuda -no solo financiera- del Santander que haría viable la considerada hoy la primera Biblioteca digital del mundo hispano.Siete años después, la Cervantes Virtual es el ejemplo más sólido de bibliotecas digitales en muchas vertientes. No sólo por la cantidad de obras digitalizadas (unas 12.000) sino por muchos desarrollos y aportaciones, difíciles de resumir: eficientes tecnologías de digitalización, su muy temprana apuesta por los metadatos y XML, registros de imagen, vídeo, voz, lenguaje de signos, herramientas para sistemas interactivos con los usuarios, catalogación de recursos, programas especializados de concordancias, integración de obras de diferentes instituciones y países, acuerdos con editores sobre derechos de la propiedad intelectual para obras recientes, etc.En la misma base de datos de la Biblioteca Virtual Miguel de Cervantes es posible ver integradas obras de las bibliotecas nacionales de España, Chile, Argentina, Perú… libros del Colegio de México, la Biblioteca de Cataluña, etc., incunables y tesis doctorales de la mayor asociación de hispanistas de los Estados Unidos, portales de autores clásicos y contemporáneos, entre otros muchos recursos y servicios. Es una clara demostración de que una biblioteca digital no es sólo una tarea consistente “escanear” libros. Es también un ejercicio de respeto a la realidad institucional, los autores, las culturas y muchas sensibilidades más.

Este pasado mes de octubre la Biblioteca Virtual Miguel de Cervantes sobrepasó los 10 millones de páginas vistas. Hay que recordar aquí que una página de esta biblioteca puede equivaler en contenido, medido en bytes, a diez o más páginas de un portal estándar. No sería descabellado pues, afirmar que en la actualidad la citada biblioteca se sitúa entre los cinco primeros portales con más tráfico en todo el mundo hispano.

Internet Archive

octubre 24, 2007

logo_internet_archive.jpg

Internet Archive tiene como objetivo almacenar la Red entera y hacerlo diariamente, pero por el momento sólo cubre textos en ascii y páginas web públicas, mientras que no recoge ni imágenes ni otros objetos multimedia.
La web pública se define como la que se tiene acceso a través del protocolo web (http) y sin necesidad de contraseña. Actualmente, según Oclc, se puede considerar que es el 36% del total de la web y que la mitad de esta información la proporcionan organizaciones e individuos norteamericanos.

Open Content Alliance

octubre 24, 2007

opencontentalianca.gifLa Open Content Alliance es un nuevo proyecto de digitalización de contenidos textuales y multimedia. Desde Yahoo, uno de sus principales impulsores, lo han presentado estos días como la alternativa más libre a Google Print, ya que todo estará almacenado en Internet Archive y será de libre acceso.
Pero en Open Content Alliance están involucradas ciertas organizaciones gubernamentales. Entre los donantes de servicios y materiales para Open Content se encuentran, por ejemplo, Adobe, HP, o Los National Archives del Reino Unido. Ellos mismos se definen como el próximo paso en la tradición del Open Source. Sólo digitalizarán libros de dominio público (cosa que ya estaban haciendo otros como el Proyecto Guttenberg o la Biblioteca Virtual Cervantes), y aquellos que sus legitimos dueños permitan bajo licencias Creative Commons. Yahoo no detentará en exclusiva la posibilidad de indexar los libros, sino que compartirá el archivo con otros buscadores.
HP está proporcionando la tecnología necesaria para realizar el escaneo, y Adobe las licencias de Acrobat y Photoshop para poder visionarlos. El día 25 de octubre harán una pequeña demostración, y para finales de año esperán tenerlo todo a punto.

http://www.opencontentalliance.org/

DRIVER, Digital Repository Infrastructure Vision for European Research

octubre 24, 2007

driver_logo.gif

Las siglas DRIVER corresponden a Digital Repository Infrastructure Vision for
European Research
, proyecto mediante el cual un consorcio financiado por la
Comunidad Europea está creando un marco de trabajo organizativo y tecnológico
para implementar una capa paneuropea de datos que permita el uso avanzado de
los recursos de contenido en el ámbito de la investigación y la educación superior.
DRIVER desarrolla una infraestructura de servicios (de la que no se hablará en este
documento) y una infraestructura de datos. Ambas están diseñadas para orquestar
los recursos y los servicios existentes en la red de repositorios.
DRIVER como infraestructura de datos
La infraestructura de datos se sustenta sobre los recursos alojados localmente,
como publicaciones científicas recopiladas en repositorios digitales de instituciones
y organismos de investigación. Estos recursos se recolectan con DRIVER y se
agregan a escala europea. Para poder garantizar una calidad óptima, DRIVER
facilitará los medios posibles para armonizar y validar la agregación. DRIVER
respetará la procedencia de los recursos mediante su “marcación” con información
del repositorio local. DRIVER seguirá apuntando al repositorio local cuando se
descargue un recurso en vez de suministrarlo. Los datos de DRIVER estarán
disponibles para que todos los socios de la red DRIVER de proveedores de
contenido puedan reutilizarlos mediante el protocolo OAI-PMH.
Banco de pruebas de DRIVER
La fase actual de pruebas del proyecto DRIVER sienta las bases de una ambiciosa y
rica en contenidos infraestructura paneuropea de repositorios. La red de
repositorios digitales es polifacética en lo que respecta a los distintos países, los
distintos recursos (texto, datos o multimedia), las diferentes plataformas
tecnológicas, las distintas políticas de metadatos, etc. Aun así, existen puntos en
común en gran parte de este contexto: el texto es el tipo de recurso más
suministrado por los repositorios digitales y el mejor modo de ofrecer estos
recursos textuales es el protocolo OAI-PMH (Open-Archives-Initiative Protocol for
Metadata-Harvesting). Por lo tanto, la fase actual de pruebas del proyecto DRIVER se
centra en los recursos textuales que pueden recolectarse con el protocolo OAI-PMH.

Podeu ampliar la informació amb els següents documents :

http://www.rebiun.org/doc/driver%20directrices.pdf 

http://www.rebiun.org/doc/driver%20anexos.pdf 

http://www.rebiun.org/doc/driver%20consejos.pdf 

XML, eXtensible Markup Language

octubre 24, 2007

eslogo-20030729.jpg

L’XML, llenguatge d’etiquetatge extensible (eXtensible Markup Language) és un llenguatge informàtic d’etiquetatge de continguts que deriva del llenguatge SGML i permet representar documents en una gramàtica XML que és també[1] independent del context i intercanviar informació entre ordinadors o programari, atès que organitza les dades de manera ordenada amb una sintaxi com aquesta:

<document titol="Sintaxi de l'XML" autor="Pep">
   <paragraf modificat="27/04/05">
        Contingut del paràgraf
   </paragraf>
   <paragraf modificat="12/02/03">
        Contingut del paràgraf
   </paragraf>
</document>

L’XHTML és una versió de l’HTML adaptada a l’XML vàlida per a tots els navegadors. Va ser creat per la World Wide Web Consortium (W3C) XML es un Lenguaje de Etiquetado Extensible muy simple, pero estricto que juega un papel fundamental en el intercambio de una gran variedad de datos. Es un lenguaje muy similar a HTML pero su función principal es describir datos y no mostrarlos como es el caso de HTML. XML es un formato que permite la lectura de datos a través de diferentes aplicaciones.

Las tecnologías XML son un conjunto de módulos que ofrecen servicios útiles a las demandas más frecuentes por parte de los usuarios. XML sirve para estructurar, almacenar e intercambiar información.

Podeu accedir a n’aquest enllaç per una introducció a l’XML en 10 punts bàsics

Estructuración de la información mediante XML: un nuevo reto para la gestión documental
Bonifacio Martín Galán
David Rodríguez Mateos
Podeu instal·lar-vos un editor de XML des d’aquest enllaç

AJAX, JavaScript asincrònic i XML

octubre 24, 2007

AJAX, JavaScript asincrònic i XML (Asynchronous JavaScript + XML en anglès), és el terme emprat per a referir-se a la unió de diverses tecnologies web que ens donen la possibilitat d’actualitzar els continguts web sense la necessitat de tornar a carregar la pàgina completament. Això és així gràcies a la interacció entre diferents llenguatges com ara el JavaScript, l’XML, entre d’altres.

El model clàssic d’aplicació web funciona de manera que l’usuari realitza una petició HTTP al servidor, seguidament, el servidor realitza un procés (es connecta a la base de dades, processa nombres, etc-) i retorna una pàgina HTML al client.

El funcionament d’AJAX es fonamenta en la càrrega d’un motor AJAX (escrit en JavaScript i amagat en un marc ocult). Aquest motor és l’encarregat de mostrar la interfase gràfica i comunicar-se amb el servidor. Mitjançant AJAX, l’usuari no es connecta directament amb el servidor, sinó que primer ho fa amb el motor d’AJAX i aquest és el que fa la sol·licitud al servidor. Un cop això, el servidor retorna la sol·licitud que passa a través del motor i renderitza el resultat, de manera que mai es veurà la pàgina completament blanca com passa amb els models clàssics d’aplicacions web. L’aplicació web amb AJAX es comporta com una típica aplicació d’escritori on no cal anar refrescant les pantalles per actualitzar les dades.

Podeu ampliar la informació sobre AJAX a l’article Ajax: Un Nuevo acercamiento a las Aplicaciones Web
de Jesse James Garrett