¿Qué es eso de métricas para arquitectura de información?

Este semestre estoy viendo una materia llamada «Métrica y arquitecturas de información». La primera vez que escuché el nombre me sonó a algo que tenía que ver con bibliometría aunque no estaba muy seguro de su relación con arquitecturas de información, tema que ya he tratado anteriormente en este post.

Pues bien, en esta materia hemos analizado bases de datos bibliográficas y comparando las opciones que presentan en cuanto a la búsqueda, recuperación de información, puntos de acceso (como autor, tipo de documento -artículo, libro, etc.),  depuración y presentación de resultados de búsquedas. La he encontrado particularmente útil ahora que estoy a cargo de un OPAC o catálogo de biblioteca y me he dado cuenta que los resultados de las búsquedas muchas veces se pasan por alto a la hora de diseñar sitios en internet, como si lo único que importara es que la base de datos hiciera su query y trajera cualquier cantidad de información, sin importar si es relevante o pertinente, si le estamos dando a nuestros usuarios toneladas de información para que se pierda en ella.

Para hacer una pequeña prueba he decidido usar uno de los sitios más consultados en Colombia, el sitio del diario www.eltiempo.com donde hice una búsqueda simple sobre la primer noticia que encontré en su portada

Portada de ElTiempo.com 2009-10-02
Portada de ElTiempo.com 2009-10-02

Ingresé «Rio de Janeiro, sede de los Juegos Olímpicos de Verano de 2016» en el buscador y obtuve 11 resultados:

Resultados de búsqueda en ElTiempo.com 2009-10-02
Resultados de búsqueda en ElTiempo.com 2009-10-02″

Esto puede darme a entender que no se estan usando los títulos como puntos de acceso, o que la única forma que pueda acceder a una noticia desde el buscador es que la noticia esté en Archivo y tenga al menos un día de anterioridad. En todo caso se están recuperando documentos a partir de stop words como lo demuestra la última noticia recuperada: «¿U2 en Colombia? ¿Que al Campín no le va a ocurrir nada? ¡No seamos ingenuos!» a partir de las palabras «de» y «los» que coinciden con nuestra búsqueda inicial y son stop words.

ElTiempo.com realiza depuraciones en sus búsquedas por portal, secciones y fecha, ordenacion de resultados por relevancia y más antiguo y más reciente primero. Me pareció un muy buen método el uso de la «Línea de tiempo» para mostrar las noticias por densidad vs. años aunque mi clase de Métricas para arquitectura de información me ha enseñado a trabajar más en las posibilidades que le brindas al usuario para recuperar información en entornos web. Imagino que el realizar una búsqueda con palabras poco usadas como «Olímpicos» te genera estos pocos resultados, habría que hacer la prueba con palabras más frecuentes en las noticias a ver qué tal reacciona el buscador al recuperar muchos más resultados.

Aclaro: este es apenas un ejercicio académico, felicitaciones a los desarrolladores del sitio de noticias por su buen trabajo y su reciente actualización; siempre van a haber comentarios sobre lo que se pordía mejorar y este es solo uno de ellos, tal vez fuera de lugar. Al final de este post dejo un taller común para métricas y arquitectura de información y su respuesta.

¿Debemos dejarle siempre todo el trabajo de búsqueda y recuperación a Google?

Métricas para arquitectura de información

Descargar

Por David Ramírez-Ordóñez

Hola. Soy David. Docente, bloguero y bibliotecario digital. Desarrollo proyectos digitales desde el 2005. Más de mi en este enlace.

9 comentarios

  1. hola,

    interesante tu articulo. trabaje en este proyecto en conjunto con Cavorite. La mayoría de las funcionalidades que mencionas fueran propuesta por el.
    La linea de tiempo es realizad con el API de spreadsheets de Google, que permite esa visualización.

    Los filtros que permiten organizar los resultados, por publicación, fecha, etc. fueron inspirados por los resultados de búsqueda del The Guardian (http://browse.guardian.co.uk).
    Estoy tratando de acordarme la razón del no incluir las noticias del día en los resultados de búsqueda. Y si no estoy mal, la razón es simple, las noticias del día no son indexadas por el crawler, este solo indexa noticias que pasan después de una día de vida al archivo del tiempo.

  2. Hola

    Fuí una de las personas que trabajó en este proyecto y, como dice Matías, la mayoría de errores son culpa mía :-P.

    Me gusta que este tipo de cosas se discutan acá en los blogs. La búsquedas es una de las son una de las aplicaciones más importantes de la web y por eso mismo no creo que haya que dejarle todo el trabajo a Google.

    En cuanto a las observaciones, estuve probando la búsqueda por título y parece que no funciona bien con todas la palabras, aun cuando se especifique la consulta entre comillas. Eso es un error, pues el título está incluido en el índice, aunque no se falla solo para ciertos casos.

    Sobre el uso de ‘stopwords’, es cierto que se están incluyendo para unos campos y creo que se hizo porque en unas pruebas nos dimos cuenta de que era mejor dejarlas. Este es uno de los aspectos en el que no hay un consenso general sobre su ventaja en motores de búsqueda; el otro que está en esa zona gris es ‘stemming’. En este enlace puede encontrar más información al respecto: http://nlp.stanford.edu/IR-book/html/htmledition/dropping-common-terms-stop-words-1.html

    Por último, sí se indexan las noticias del día. Es más, para algunos casos en los resultados aparece una sección señalando las noticias recientes. Eso es algo en lo que quise trabajar un poco más, pues me parecía que en este tipo de buscadores la relevancia y la antigüedad de un documento están muy relacionadas. En la página se están destacando esos resultados, pero creo que se puede hacer algo mucho mejor.

    Como decía al comienzo, trabajé en ese proyecto ya hace un buen tiempo y ahora estoy haciendo cosas diferentes (fuera de El Tiempo). Era un proyecto que me gustaba y que creo que puede ser muy útil. Está lejos de estar «terminado» y tiene todavía muchos errores y cosas que se pueden hacer mejor. Confío en que blogs como este motiven a las personas a tratar de hacerlo.

  3. Cavorite, que bueno leerte por aquí.

    Gracias por aclarar las dudas que tenia al respecto a este proyecto.

    Tu post me hace pensar en la tendencia que existe hoy sobre la relevancia del resultado de búsqueda basado en lo reciente y no en lo relevante.

    Interesante ver como se podrían mezclar estos dos filtros sin tener que depender en la elección de una usuario para filtrar de una o de otra manera.

  4. A mi juicio el tema con los stop words impacta al rendimiento de espacio y tiempo.

    Chéveres los comentarios de @cavorite.

    A propósito: ¿Alguno ha trabajado con ontologías en los índices? ¿Conocen trabajos de ontologías en español, en Colombia?

    1. Hola Miguel.

      Creo que en el Centro de Documentación Musical de la Biblioteca Nacional de Colombia han trabajado con ontologías.

Responder a matiasjajaja Cancelar la respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *