Categorías
Ciencia de la información

¿Qué es eso de métricas para arquitectura de información?

Este semestre estoy viendo una materia llamada «Métrica y arquitecturas de información». La primera vez que escuché el nombre me sonó a algo que tenía que ver con bibliometría aunque no estaba muy seguro de su relación con arquitecturas de información, tema que ya he tratado anteriormente en este post.

Pues bien, en esta materia hemos analizado bases de datos bibliográficas y comparando las opciones que presentan en cuanto a la búsqueda, recuperación de información, puntos de acceso (como autor, tipo de documento -artículo, libro, etc.),  depuración y presentación de resultados de búsquedas. La he encontrado particularmente útil ahora que estoy a cargo de un OPAC o catálogo de biblioteca y me he dado cuenta que los resultados de las búsquedas muchas veces se pasan por alto a la hora de diseñar sitios en internet, como si lo único que importara es que la base de datos hiciera su query y trajera cualquier cantidad de información, sin importar si es relevante o pertinente, si le estamos dando a nuestros usuarios toneladas de información para que se pierda en ella.

Para hacer una pequeña prueba he decidido usar uno de los sitios más consultados en Colombia, el sitio del diario www.eltiempo.com donde hice una búsqueda simple sobre la primer noticia que encontré en su portada

Portada de ElTiempo.com 2009-10-02
Portada de ElTiempo.com 2009-10-02

Ingresé «Rio de Janeiro, sede de los Juegos Olímpicos de Verano de 2016» en el buscador y obtuve 11 resultados:

Resultados de búsqueda en ElTiempo.com 2009-10-02
Resultados de búsqueda en ElTiempo.com 2009-10-02″

Esto puede darme a entender que no se estan usando los títulos como puntos de acceso, o que la única forma que pueda acceder a una noticia desde el buscador es que la noticia esté en Archivo y tenga al menos un día de anterioridad. En todo caso se están recuperando documentos a partir de stop words como lo demuestra la última noticia recuperada: «¿U2 en Colombia? ¿Que al Campín no le va a ocurrir nada? ¡No seamos ingenuos!» a partir de las palabras «de» y «los» que coinciden con nuestra búsqueda inicial y son stop words.

ElTiempo.com realiza depuraciones en sus búsquedas por portal, secciones y fecha, ordenacion de resultados por relevancia y más antiguo y más reciente primero. Me pareció un muy buen método el uso de la «Línea de tiempo» para mostrar las noticias por densidad vs. años aunque mi clase de Métricas para arquitectura de información me ha enseñado a trabajar más en las posibilidades que le brindas al usuario para recuperar información en entornos web. Imagino que el realizar una búsqueda con palabras poco usadas como «Olímpicos» te genera estos pocos resultados, habría que hacer la prueba con palabras más frecuentes en las noticias a ver qué tal reacciona el buscador al recuperar muchos más resultados.

Aclaro: este es apenas un ejercicio académico, felicitaciones a los desarrolladores del sitio de noticias por su buen trabajo y su reciente actualización; siempre van a haber comentarios sobre lo que se pordía mejorar y este es solo uno de ellos, tal vez fuera de lugar. Al final de este post dejo un taller común para métricas y arquitectura de información y su respuesta.

¿Debemos dejarle siempre todo el trabajo de búsqueda y recuperación a Google?

Métricas para arquitectura de información

Descargar

Categorías
Ciencia de la información

Recuperación de información Distribuida y en Paralelo

No resultó fácil encontrar información sobre estos temas. Recomendación: Leer Modern Information Retrieval de Ricardo Baeza-Yates y Berthier Ribeiro-Neto. Capítulo 9.

Para hacer recuperación de información en paralelo se toman grandes colecciones de documentos, se indexan para poder recuperar cada partición del documento y almacenan en varios dispositivos, es decir, pueden existir un documento de 3 Gb almacenado en tres discos de 1Gb que se reconstruye a partir del index. Así, si tenemos una gran cantidad de documentos podemos realizar varias búsquedas simultáneas para recuperar diversos documentos almacenados en diferentes discos, no es necesario esperar a que un proceso termine para empezar el siguiente. Para esto Google usa la indexación de la web.

Mapas conceptuales de las redes sociales que conforman el ecosistema económico en Cleveland y Silicon Valley.
Mapas conceptuales de las redes sociales que conforman el ecosistema económico en Cleveland y Silicon Valley.

Descentralizado Vs. Distribuido

En cuanto a la recuperación de información distribuida un buen ejemplo es la blogósfera: Muchos nodos son capaces de producir, consumir e intercambiar información.  Se crean redes distribuidas que a diferencia de las redes centralizadas o las descentralizadas nunca van a estar incomunicadas dado que siempre habrá un camino que las una. El problema de la recuperación de información distribuida es su heterogeneidad: No sabemos qué formato nos vamos a enfrentar, su idioma o la calidad de su contenido. Para esto se usa el pagerank, para valorar la información y darle prioridad a la hora de recuperarla.

La diferencia entre Cleveland y Silicon Valley que mencionan en Nomada hablan sobre la paradoja del declive de Cleveland, ya que está altamente jerarquizada mientras que Silicon Valey presentan una topología de red distribuida que no necesariamente obedece a las jerarquías de sus nodos. Puede verse en la imágen que si un nodo central de Cleveland se desconecta dejará por fuera de la red a varios nodos que dependen de él.

[Actualización del 2008-10-28 con comentarios de clase del profesor Leonardo Machett]

Los militares usaron una tipología de red distribuida para comunicarse, dicha red evolucionó a Internet, la red de redes. Imagínese las búsquedas en una red centralizada, que además respondía a sus usuarios de manera secuencial, es decir, hasta que no se haya recuperado una solicitud de información no se puede realizar la siguiente bísqueda. Ahora imagínese que Google no podrá completar su solicitud hasta que se hayan respondido todas las solicitudes anteriores. ¿Cuánto tardaría?

Para poder responder varias consultas al tiempo se realiza la recuperación de información en paralelo.

Entre las características de la recuperación de información distribuida encontramos que la información almacenada puede ser heterogénea. Es decir, puede buscar cierta información que no se encuentra en texto como el usuario lo espera, sino que su formato está en audio.

Otra característica emergente de la recuperación de información distribuida son las difernecias entre el idioma en que se recupera la información y la profundidad de los contenidos recuperados. Quien escribe puede ser un experto en un tema o un principiante, inclusive un embustero (como ya lo comentaré en un post siguiente)


Referencias

ARCHITECTURE & LANGUAGE IMPLEMENTATION. Distributed and parallel information retrieval. [en línea]. [consultado 21 de oct. De 2008]. Disponible en  <http://www-ali.cs.umass.edu/Darch/>

BANCHERO, Santiago. Propuesta de plan de tesis [versión entregada]. [en línea]. [consultado 21 de oct. De 2008]. Disponible en <http://camaronbitmap.blogspot.com/2007/02/propuesta-de-plan-de-tesis-versin.html>

EXPLORADORES ELECTRÓNICOS. Topologías de red. [en línea]. [consultado 21 de oct. De 2008]. Disponible en <http://www.exploradoreselectronicos.net/e4pedia/Imagen:Topolog%C3%ADas_de_red.gif>

GARCIA-MOLINA, Hector y TOMASIC, Anthony. Issues in parallel information retrieval.[en línea]. [consultado 21 de oct. De 2008]. Disponible en <http://www.cs.cmu.edu/~tomasic/doc/1994/TomasicGarciaDEB1994.pdf>