Boletín de Abril de 2007
 
Boletín Informativo

RAUdo-CLARA


María Paz Mirosevic

El buscador experto ha llegado... y es para quedarse
Bastó una frase para que en la cabeza de Luis Castillo, ingeniero de RAU, surgiera una gran idea: “Necesitamos que las redes nos comuniquen sus actividades, sus noticias; queremos informar acerca de lo que ocurre en sus instituciones, tardamos mucho en revisar sus sitios web, para conseguir sus novedades”. Comunicaciones y Relaciones Públicas de CLARA, en la reunión de San Salvador (noviembre de 2006), hablaba de escasez de tiempo y pedía información para poder difundirla oportunamente dentro de la comunidad. Al terminar la reunión, el 25 de noviembre por la tarde, Luis dijo: “En RAU tenemos algo que les puede ayudar a solucionar este problema”.

El 15 de diciembre de 2006, supe a qué se refería Luis, pues la búsqueda que RAUdo-CLARA realiza sólo en los sitios web de las redes integrantes de CLARA, es MUY efectiva; y el manejo del sistema, más fácil que la tabla del 1.

Bueno, probada y aprobada con creces la herramienta, la tarea siguiente era afinar detalles e instalarla en la web de CLARA. El producto estuvo listo el día 8 de marzo de 2007. RAUdo-CLARA ya es una realidad a la que todos los usuarios de la web de CLARA pueden acceder mediante el menú que encabeza el sitio, sólo mediante un clic. Pero antes de que pruebe RAUdo-CLARA, pongámonos serios y conversemos con el cerebro de la idea: Luis Castillo.

En pocas palabras, ¿Qué es RAUdo?
Es un buscador que recupera información de los sitios WWW miembros de CLARA http://www.rau.edu.uy/raudo/clara/.

¿Quién diseñó e implementó esta herramienta en RAU y desde cuándo opera?
En la RAU el buscador se llama RAUdo (http://www.rau.edu.uy/raudo/) y fue desarrollado en el año 2000, basado en el motor de búsqueda ht://Dig, con licencia GNU. En el grupo de compañeros de la RAU que lo adaptó estaba Alicia García, María Cervantes, Julio Cardozo y yo.

A partir de la reunión en San Salvador, iniciaste el trabajo tendiente a generar un RAUdo para CLARA, ¿qué te motivó a implementar esta herramienta para nuestra comunidad?
El conocimiento de lo útil que ha resultado para la RAU, y el hecho de que la búsqueda en los grandes motores devuelve mucho “ruido”, por lo que resulta imprecisa. Con esto en mente, pensé que sería útil para la comunidad CLARA, contar con un RAUdo adaptado a ella, pues los resultados de la búsqueda son solo de los sitios de CLARA. Además, nuestra herramienta recupera términos escritos en castellano y en portugués.

Un trabajo como este implica muchas horas, ¿quiénes colaboraron en este esfuerzo?
El trabajo de darle “formato” para CLARA ha llevado algunas semanas; colaboraron María Cervantes, María José López y yo.

Un motor de búsqueda tan especializado como este, requiere de un constante chequeo de la información existente en los sitios en el que éste opera. ¿Cómo se realiza este trabajo y con qué periodicidad?
Con una frecuencia de una vez por semana (configurable) se realiza una indización de todos los sitios, actualmente once, permitiendo, de esta forma, que se mantenga actualizada la información en la base de datos del buscador.

¿Pueden las redes conectadas a RedCLARA cooperar con RAUdo-CLARA? ¿De qué modo?
Claro que pueden. Avisando los cambios de servidores, si los hay. Filtrando los directorios que no quieren que sean indexados para que el buscador no los publique (indicándolo en el archivo robot.txt en cada uno de los sitios). Chequeando con cierta frecuencia en RAUdo-CLARA que los sitios están siendo alcanzados por el buscador y que el número de documentos, es el que corresponde.

Aparte de colaborar, también se pueden beneficiar de él, pues el buscador hace un chequeo de los links y los archivos que cada sitio tiene, generando un informe de inconsistencia que lo pueden activar los webmasters para mejorar sus sitios.

¿De qué modo los usuarios de RAUdo-CLARA pueden sacar mejor partido a esta herramienta?
Cuando se tiene claro cómo busca o cuáles son las formas correctas de hacerlo, se le saca más provecho a la herramienta, para eso recomendamos que se vea la Ayuda en http://www.rau.edu.uy/raudo/clara/ayuda.htm.

Pero el uso de RAUdo-CLARA es muy simple: básicamente se puede buscar por los términos escritos en español, portugués o inglés (como estén escritos en origen) y/o realizar búsquedas booleanas.

En tus propias palabras, ¿qué es lo mejor de RAUdo-CLARA?
Contar con una herramienta propia para la recuperación de información para nuestra comunidad.

Así opera RAUdo-CLARA

Sitios en los que busca (indexados):
• http://www.cedia.org.ec
• http://www.cudi.edu.mx
• http://www.raap.org.pe
• http://www.ragie.org.gt
• http://www.raices.org.sv
• http://www.rau.edu.uy
• http://www.reacciun2.edu.ve
• http://www.redclara.net
• http://www.renata.edu.co
• http://www.renia.net.ni
• http://www.retina.ar
• http://www.reuna.cl
• http://www.rnp.br

Tipo de documentos indexados:
Se indexan documentos en formato Word, PDF y RTF. Se excluyen las siguientes terminaciones: /cgi-bin/ .cgi .wav .gz .z .sit .au .zip .tar .hqx .exe .com .gif .jpg .jpeg .aiff .class .map .ram .tgz .bin .rpm .mpg .mov .avi .ps .ppt .tex .ra .Z. Tampoco se indexan valores numéricos.

Número de documentos que recupera RAUdo-CLARA:
16.000.

Consideraciones sobre las búsquedas de RAUdo-CLARA:
Interpreta palabras con tilde, ñ, (ISO 8859-1).
Recupera por alguna de las palabras ingresadas.
Recupera por todas las palabras ingresadas.
Permite utilizar operadores Booleanos.
No reconoce mayúsculas y minúsculas.

Estrategia de operación de RAUdo-CLARA:
Se indexa cada palabra de los documentos: cada documento es examinado y todas las palabras presentes en él son extraídas y almacenadas.
• Las palabras tales como: la, los, de, etc. no son indexadas (stopword).
• Cada palabra tiene un contexto que está definido por el código HTML que se le aplica. Por ejemplo, palabras que están entre <h1>...</h1> tienen un contexto diferente de las palabras dentro del título (title) del documento.
• Cada contexto tiene un "peso" asociado por lo que algunos contextos son más importantes que otros: 'title_factor' y 'heading_factor_4'.
• Además del contexto de una palabra, la ubicación de la palabra dentro del documento se emplea para determinar el "peso" de la misma; a las palabras que aparecen al comienzo de un documento se les asigna más "peso" que a las palabras que aparecen al final del mismo.
• El número de ocurrencias de una palabra dentro de un documento, también es tomado en cuenta.
• El “peso” resultante de todos los factores combinados, es almacenado en la base de datos de las palabras.

Operación del algoritmo de búsqueda de RAUdo-CLARA:
Cada palabra es buscada, y se genera una lista de documentos en los que ocurre la palabra. A cada documento se le asigna un "peso" que es computado usando el "peso" combinado de todas las palabras que tiene la lista de resultados. Una vez que todos los documentos han sido identificados, son ordenados por "peso". Al documento con "peso" mayor se le asigna el número máximo de estrellas (4) para los demás, se aplica una escala descendente. Luego, los resultados son ordenados de acuerdo al "peso" asociado de las palabras buscadas y el "peso" del algoritmo que generó la palabra.