12 mar 2008

Bibliotecología y Metadatos: Una aproximación personal


El futuro cercano de la Red esta en las estructuras semánticas, así lo que hoy para algunos es Chino, para los usuarios de algunos años más adelante todo estará tan claro como el agua; el que no sepa lo que es un tag, embeded, etiquetado, 2.0, ontología semiótica, etc, está fuera, los que veían el futuro de la Bibliotecología y la Documentación en los OpenSource, como OpenBiblio, PMB etc, está fuera; de hecho, a los que proponían ingresar al sector privado con bases de datos documentales les tenemos una mala noticia en un par de años esos softwares serán obsoletos, y el coste de migración será carísimo.

La biblioteca tal como las conocemos dejarán de existir para dar paso a Centros de Recursos. El libro si bien es cierto no va a desaparecer, cada vez se relegará a un segundo plano, dando paso a elementos multimediales, inclusive la biblioteca universitaria la mas utilizada de todas las bibliotecas por su cercanía con el aprendizaje y conocimiento de las aulas, aparte de la obligación que tiene de mantenerse actualizada, dejará de ser lo que conocemos. La idea de una gran aula donde cada alumno en su laptop o móvil ingrese a las bases de datos documentales, descarguen los artículos científicos y los estudien en casa, es de hecho ya una realidad. El espacio inútil que se usa hoy en día para albergar rumas de libros la mayoría sin ser consultados nunca, en algunos años más, se convertirán en espacios donde los alumnos podrán descargar los capítulos que les solicitaron estudiar para los exámenes. Si bien esto no ocurrirá mañana, no me cabe la menor duda que no nos daremos ni cuenta cuando pase.

Frente a este tan desolador futuro, quedaremos remilgando ante la Web, como los Amanuenses alemanes le reprocharón a Gütembreg su invento. Migrar es la palabra, migremos antes que tengamos que migrar nuestros datos, al parecer en el horizonte (me acorde de ese programita carísimo y absolutamente inútil) se ven cambios importantes, pero me temo que la mayoría de mis colegas no tienen idea de lo que ocurre a diez mil por hora a su alrededor, el mundo esta migrando del papel al documento en linea, las empresas privadas migran sus antiguas bases de datos a ERP's a CMS's, y piden a gritos que digitalicen sus archivos y los relacionen con otros proyectos de gestión empresarial, y no tiene ni idea quien sabe hacer eso, contratan ingenieros comerciales, informáticos, arquitectos de información que terminan siendo ingenieros en cualquier cosa, y a nosotros nada.

Como a mí me interesa el tema de los archivos empresariales , nos dedicamos a hacer este blog. Primero lo más importante, toda esa verborragia de ontologías y semántica se resume en poner etiqueta a todo lo que hacemos, en este caso a documentos digitales...... pero como le hacemos etiquetas personalizadas de metadatos a pdf, que es por excelencia el formato mas extendido .

El tema de los metadatos es extenso, existen una gran variedad de schemas para construirlos, pero mejor es irse por lo seguro. Lo mas probable es que ninguno de las estructuras de metadatos que existen en la actualidad te pueda ayudar. Recuerda siempre cuando tengas todo claro sobre que etiquetas de metadatos usaras, aparecerá el primer obstaculo para cualquier ser humano común y corriente, usuario medio de estos aparatos, EL LENGUAJE DE PROGRAMACIÓN. Por lo tanto cuando estas en un proyecto no puedes apurarte y explicarle a los que finalmente pondrán el dinero para tu trabajo que aplicaras DBCore, XMLMarc, XML,XMP, etc, cuando no tienes idea que es eso y lo que necesitamos es ideas que concreten rapidamente.

Hay un programa semi gratuito llamado PDF Explorer con el podemos utilizar las famosas CUSTOM FIELD (otra cosa esta estos temas están llenos de términos y documentos en ingles así que a aplicarse en este idioma), las personalizas y se agregan inmediatamente en el BACKUP (XMP) de nuestro documento, lo que permite que los buscadores la indexen. Trae un buscador onda google buenisimo pero tienes que pagar por utilizar todas sus funciones. Acá tenemos el MiniGoogle es básicamente un google para la intranet, de interfaz configurable que termina dejando en ridículo a cualquier OPAC bibliotecario, el problema vale desde los 5 millones (2990€), pero si tu empresa es más pequeña o no van a soltar los dineros, así como así, existen una variedad de buscadores gratuitos y siempre hackeables (lo importante es demostrar que funciona, después es problema de los otros) para intranets.

Asegúrense con una buena versión de AcrobatReader Profesional, y un buen Scanner que lea por los dos lados o si no el proyecto se volverá una eternidad, siempre habilitar lectura OCR al scanneo para que después cuando el buscador indexe los documentos no lo lea como una foto si no como un texto (si no entendieron busquenlo en wikipedia), y si tu empresa no te apoya realmente no con dinero, ni con red, ni con un PC digno, mejor haz otra cosa por que entre dejar algo inconcluso y ensuciar tu nombre (onda, joven que no tenia idea) es mejor seguir catalogando libros.

10 mar 2008

- Cuantificación

TIPOS DE DOCUMENTOS USADOS EN CONTRALORÍA

v CONTRATOS

o SERVICIOS

o PUBLICIDAD

v PROVEEDORES

v FACTURAS

v BOLETAS DE HONORARIOS

v TRANSACCION, FINIQUITOS Y RENUNCIA DE ACCIONES.

v CORRESPONDENCIA

v CHEQUES, RECIBOS DE PAGO > FINANZAS

METADATAS PARA CADA DOCUMENTO.

CONTRATO DE SERVICIOS


- PUBLICIDAD

o TITULO

o AUTOR

o CONTRAPARTE

o RUT

o MARCA/PRODUCTO/SERVICIO

o FECHA DOC

o PALABRAS CLAVES

o IDENTIFICACION FISICA

- PROVEEDORES DE SERVICIOS

o TITULO

o AUTOR

o CONTRAPARTE

o RUT

o FECHA DOC

o SERVICIO PRESTADO

o PALABRAS CLAVES

o IDENTIFICACION FISICA

FACTURAS

o TITULO

o AUTOR

o RUT

o ARTISTA/SERVICIO/PRODUCTO/MARCA

o FECHA DOC

o Nº FACTURA

o PALABRAS CLAVES

o IDENTIFICACION FISICA

BOLETAS DE HONORARIO

o TITULO

o AUTOR

o RUT

o FECHA DOC

o Nº BOLETA

o PALABRAS CLAVES

o IDENTIFICACION FISICA

SINIESTRO (TRANSACCION, FINIQUITOS Y RENUNCIA DE ACCIONES)

o TITULO

o AUTOR

o CONTRAPARTE

o RUT

o SUMA

o PALABRAS CLAVES

o IDENTIFICACION FISICA

CORRESPONDENCIA

o TITULO

o AUTOR (REMITENTE)

o DESTINATARIO

o ASUNTO

o FECHA

o PALABRAS CLAVES

o IDENTIFICACION FISICA

CHEQUES, RECIBOS DE PAGO >>>> PENDIENTE.

RESUMEN METADATOS

Los metadatos requeridos para cada documento PDF están condensados en:

- TITULO

- AUTOR

- CONTRAPARTE

- RUT

- SERVICIO/PRODUCTO

- FECHA DOC

- Nº FACTURA

- Nº BOLETA DE HONORARIO

- DESTINATARIO

- ASUNTO

- SUMA

- PALABRAS CLAVES

- IDENTIFICACION FISICA

CANTIDADES DE DOCUMENTO

Contratos / Siniestros / Estados Financieros:

50 Documentos p/carpeta app. Cada uno con 5 hojas app. = 250 hojas

50 doc p/c x 60 carpetas app = 3 000 documentos

250 hojas x 60 carpetas = 15 000hojas.

145 kb por hoja x 15 000 = 2 175 000 Kb o 2 Gb

Facturas:

2000 facturas mensuales X 4 meses se considera solo el 2008 y diciembre del 2007

8000 facturas.

110 kb por hoja app = 880000 Kb o 859.3 Mb

(taza de 2.5 GB anuales)

CÁLCULOS

Calculo.

(60/min.)/9

Cada 3’’ = 180

Cada 5’’ = 108

Cada 7’’ = 77

Promedio = 121.6 Documentos Diarios

El promedio entre un documento cada 3, 5 y 7 minutos, que son app. los tiempos por escaneado dependiendo del peso y el ingreso de la metadata, es de 121.6 documentos diarios.

CONTRATOS

3000/

Termino de:

1 persona = 24.6 días

2 personas = 12.3 días

FACTURAS

8000/

Término de:

1 persona = 65.7 días

2 personas = 32.8 días

3 personas = 21.9 días

Nota: la cantidad sube a razón de 2000 facturas mensuales, por lo tanto estos cálculos pueden ya estar obsoletos. Se recomienda ver la posibilidad de ver algún software de gestión de facturas que incluya opción de migrar datos a SAP como por ejemplo http://www.readsoft.cl/.

MÁXIMO TIEMPO REQUERIDO

21.6 + 65.7 = 87.3 o 4 meses y medio

MÍNIMO TIEMPO REQUERIDO

12.3 + 21.9 = 34.2 o 1 mes y medio.

- Propuesta Digitalización


Finalmente
el proyecto se basa en 3 directrices de trabajo, las cuales están relacionadas y dependen entre si, responden a la necesidad de organizar la documentación, analizar la información y administrar el sistema de gestión de documental.

Estas directrices las podemos definir como Gestión Documental, Gestión de Información y Gestión del Conocimiento, son términos que permiten apreciar en conjunto el trabajo que desarrollaremos, identifican distintas áreas de trabajo que apuntan a un objetivo común, la comprensión del flujo de inteligencias dentro de una organización. Y nos remiten a las distintas etapas de vida de un documento, desde que el autor lo genera como un dato, se transforma en documento, lo utiliza como información y lo aplica como conocimiento explicito de los procesos normales de una empresa. Este desarrollo (de dato a conocimiento) puede ser intervenido en sus distintas etapas para evaluar su correcto flujo a través de la organización asegurándonos que entre el emisario, el canal, el mensaje, y el receptor del documento no existan dificultades de traslado.

En la nueva configuración de trabajo con ambientes interactivos e interoperables de colaboración, que nos permiten trabajar en línea gracias a los ERP y los CMS, es más que necesario un control sobre el flujo de documentos. Si no queremos ver a nuestras Unidades de Negocio adquirir los vicios informativos que han marcado a la Red durante su explosión informacional, como es el caso del Ruido Informativo (muchas búsquedas con respuestas irrelevantes), Silencio Informativo (pocas o nulas respuestas a las búsquedas), Sobrecarga Informativa (Muchas respuestas, asertivas o irrelevantes para una búsqueda simple); o vicios de flujo propios de una organización, tal es el caso de, Cuellos de Botella, Duplicaciones, Pérdidas y Fugas de la Documentaciónla Documentación más relevante para la Empresa.

La Gestiónde Conocimiento: Metadatos Online.

El proceso de Gestión de Conocimiento, es la parte más elemental y la consecusión del los anteriores trabajos, es el que más tiempo conlleva, puesto que es la materialización de todo el trabajo conceptual que hasta este momento se ha llevado a cabo. Es la automatización de los procesos anteriores.

Para su realización se debe contar con un equipamiento especial, concerniente a la Digitalización y edición de los Documentos, y al Host y Base de Datos donde alojaremos el resultado de este trabajo.

Es necesario definir a razón de la cantidad de documentos existentes, cuanto es el tiempo que se necesita para abarcar todos los archivos en un tiempo prudente. Con estos datos podemos sugerir la cantidad de Scanner, equipos y personal que trabajará en el proyecto. Hasta el momento los equipos, el Scanner y el digitalizador serán uno

Definir el Formato en que digitalizaremos los archivos, con esto sugeriremos el Software que utilizaremos para la edición.

El equipamiento de alojamiento, es la base de datos que contendrá los documentos y archivos que digitalizaremos.