27 jul 2009
22 oct 2008
Procesamiento Documental: OCR automático
Al escanear los documento, decidí no aplicar directamente el OCR a las imágenes PDF al momento de la digitalización, ya que retrasaba el trabajo de captura de imagen de los otros documentos, lo que repercutía en un retraso de la entrega de las carpetas y archivos físicos a las personas encargadas de desarrollarlos, finalmete opté por acumular archivos PDF de solo imagen y posteriormente trabajarlos en conjunto para extraer el OCR, para esto utilizé la herramienta Batch Processing, que es una forma de trabajar documentos PDF en pilas, y no individualmente, con esto automatizamos el trabajo de OCR y no nos preocupamos más de este por ahora, también es útil para los que tienen cientos y miles de PDF y quieran subirlos a algun servidor para Busquedas a Texto Completo.
16 oct 2008
Procesamiento Documental: Scanneo
Después de muchos tramites compramos el scanner, le elegido fue el Fujitsu f6140, el cual tiene grandes funcionalidades, la mejor obviamente es la de procesar 4.000 documentos diarios, tiene un sensor de sobrealimentación de hojas, es decir, puedes ir a tomarte un cafe mientras la maquina hace su trabajo sin preocuparte que se pasen dos hojas pegadas a la vez, el software de procesamiento que trae por defecto es el Scann All, y usa como controlador TWAIN o ISIS, prefiero el primero, el cual me permite escanear Duplex con la funcion de reconocimiento de hoja blanca, y ajuste automatico de tamaño de hoja, por lo que solo pasan y pasan documentos y no tengo que configuarar el tamaño de hoja y el nombre del archivo a cada rato, especialmente con contratos notariales en formato oficio y contratos simples en formato carta.
La función de scanneo predeterminada es, Salida de Imagen PDF sin OCR, con la siguiente configuración de escaneo:
28 ago 2008
11 jul 2008
Elección de Software y Hardware
Después de algunos meses hemos vuelto para continuar. Hemos planteado que las empresas necesitan el ordenamiento de sus documentos no solo por un tema de ahorro de insumos y materiales, si no porque la gestión documental le aporta una visión Universal de sus Procesos, los cuales puede continuar y replicar en caso de catástrofes y demases.
A posteriori del Mapeo Documental y ya teniendo a mano la información relevante de los procesos de nuestra empresa, debemos comenzar a examinar el Mercado para ver que nos ofrece en el ámbito de TICs que nos permitan desarrollar la labor que comenzamos con nuestra Auditoría.
Lo primero es crear parámetros que se ajusten a la dimensión del trabajo que haremos, por ejemplo, los criterios de elección tanto del Software como del Hardware dependerán de la cantidad de Usuarios y la cantidad de Papel que manipularemos. Primero a nivel de usuario sabemos que la mayoría de los software Licenciados cobran por cantidad de personas que eventualmente los utilizarían, es decir, no es lo mismo adquirir un ECM (software de gestión de contenidos empresariales) y comprar un Scanner que utilizarán 5 personas, que para una empresa donde serán 50 los usuarios que manipularán facturas y contratos diariamente. Y segundo, a nivel de papeles, es distinto contratar un ECM con una base de datos que permita alojar 50.000 documentos que una sin limites que permita 5.000.000 de documentos, o comprar un Scanner que digitaliza 500 documentos diarios para un pequeño archivo, que un Scanner de Producción que puede digitalizar 5.000 documentos diarios para grandes repositorios. Entonces, primero veamos los criterios más importantes para la compra del scanner.
- Velocidad de procesamiento (rendimiento)
- Duplex v/s Simple
- Tipo de alimentador (manual o automático)
- Color v/s Blanco y Negro
- Capacidad de precarga
- Resolución
- Tamaño aceptado de documentos
- Filtros de imagen
- Confiabilidad
- Soporte técnico
- Relación Rendimiento / Precio
Para la elección del Software ECM nos hemos planteado la necesidad de uno que mire con una visión general los procesos que generan dentro de las áreas de Administración, y que incluya vínculos a sistemas como SAP y SharePoint. Para esto definimos nuestro sistema en base a la escalabilidad que un proyecto como este pueda tener dentro de esta Unidad de Negocio como también en la demás, así es como nos topamos con distintos sistemas de Gestión de Contenidos, Bases de Datos y Soluciones Integrales, los cuales se preocupan desde la Captura de la imagen hasta su distribución, con ingreso manual de la metadata, otros que son simples repositorios de Documentos con una base datos SQL que les sirve para la búsqueda, y otros más complejos que Automatizan todo el proceso incluyendo la captura de metadatos, etc.
Por lo tanto se nos hace un poco mas compleja la tarea de escoger el mejor ECM, para simplificarnos esto solo debemos ceñirnos a nuestros objetivos planteados al principio:
- Digitalizar la documentación impresa
- Preservar el patrimonio documental y la historia legal de las empresas.
- Reducir la manipulación y el uso de la documentación original.
- Simplificar la búsqueda de la documentación para reducir la carga administrativa.
- Controlar y Auditar el acceso a la documentación.
- Permitir el acceso web a la documentación digitalizada.
- Permitir anexar los documentos a correos electrónicos.
Con estos datos ya podremos escoger los implementos que faltan para realizar nuestro proyecto. En el próximo post, hablaremos de las diferentes herramientas tanto Opensource como Licenciadas para trabajar en proyectos de Digitalización y creación de Repositorios Empresariales.
25 abr 2008
Cuestionario de Auditoría de Información
Cuestionario Documental.
1º Qué Procesos realizan en su Área y que documentos se relacionan a estos Procesos
Proceso | Documento |
|
Pago de Proveedores | Factura de Compra |
|
| |
|
| |
|
| |
|
| |
|
| |
|
| |
|
| |
|
| |
|
| |
|
| |
|
| |
|
Describa un pequeño workflow Ejem. (Llega la factura se ingresan los datos se corrigen con los datos de…. Se emite una nota...) (Llega | ||
2º Cual es | ||
(Especifique por tipo y cantidad) | | |
Tipo de Documento | Cantidad | |
Factura de Compra | 2000 mensuales | |
| | |
| | |
| | |
| | |
| | |
| | |
| | |
| | |
| | |
| | |
| | |
3º Antes que los Documentos lleguen a su área, ¿de donde provienen? | ||
4º Después que los Documentos pasan por su Área, ¿hacia donde van? |
11 abr 2008
El Modelo Documental: La Gestión Documental.
El modelo de Gestión Documental es la conceptualización de como llevaremos acabo la mantención en el tiempo del Sistema de Gestión Documental (SGD).
El modelo de gestión parte con la automatización del proceso Documental que antes se llevaba a cabo de forma manual, es decir, la producción o recibimiento de documentos, su archivamiento para consultas posteriores. La digitalización y tratamiento de los documentos es el primer paso para la conformación de una estructura de Modelo Organizativo para el continuo desarrollo de la gestión documental en el Holding.
Primero debemos entender que cada empresa es independiente en su estructura y geográficamente a las demás, por lo que
Es importante la estandarización de los procedimientos a llevar a cabo, por lo que un Manual de Procedimientos que consigne las etapas del proceso, desde la obtención de la versión firmada del Documento hasta su digitalización y clasificación mediante ingreso de metadatos; sería indispensable.
Primeramente, en el procedimiento se tiene que determinar la escritura en Mayúscula para todos los campos. Segundo, se necesita un sistema de nombramiento de los archivos, la idea es no duplicar nombres que podrían hacer cometer errores de resultado al browser, por ejemplo, la creación de un topónimo para cada Unidad de Negocio el cual deberá acompañar a los nombres de archivo (COQ = Coquimbo), seguido por una abreviación del tipo de documento junto algo de lo identifique como único (COQFAC23658.pdf - para la factura número 23658 de Coquimbo). Tercero, el peso de la imagen a digitalizar que varia desde los 200 ppp hasta los 600ppp.
También es importante la coordinación entre las Áreas de Digitalización de las distintas Unidades y el monitoreo constante del trabajo de Automatización.
Por último no dejar de lado que lo más importante son los beneficios inmediatos que se pueden lograr con un Sistema de Gestión Documental, tales como:
A) Hacer más fácil a las personas trabajar con los documentos.
B) Facilitar que la información se comparta y se aproveche como un recurso colectivo,
C) Evitar que se dupliquen documentos, evitar fotocopiados innecesarios, evitar dobles grabaciones de datos, etc.
D) Conservar la memoria de la organización más allá de los individuos que trabajan en ella y poder aprovechar el valor de los contenidos en los que queda plasmada la experiencia, evitando empezar de cero sobre aspectos en los que ya hay experiencia acumulada.
La Digitalización: Digitalización y Extracción.
Esta etapa es la obtención de la imagen, la identificación y registro de los valores informativos, o metadatos, inherentes a los documentos. El proceso técnico nace de la ubicación del documento en su contexto, puesto que al ser delimitado en su función y uso, obtendremos las etiquetas relevantes que nos dirijan en la búsqueda posterior. Por lo tanto es necesario realizar el trabajo de Mapa Documental, antes que el de Digitalización y Extracción.
Las etiquetas o campos de metadatos son delimitadores que se encuentran en el “lenguaje de marcado” del Documento, si bien es cierto, la fuente principal de datos para rellenar las etiquetas están en el cuerpo mismo del texto, es necesario su identificación y posterior registro, exportándola a su “lenguaje de marcado”. Esto tiene por finalidad la generación de relaciones semánticas entre los distintos documentos.
Así con los atributos de su función, uso y contexto insertado en las propiedades del documento, definimos las condiciones que los robots de los buscadores encontraran los que queremos.
Un ejemplo es el de a continuación, se crearon etiquetas a base de supuestos usos que le dan a ciertos documentos en la Empresa. Yendo de los Macro a lo Micro nos encontramos con los siguientes metadatos generales.
- Tipología
- Procedencia
- Contraparte
- Rut
- Artista/Servicio/Producto
- Fecha Doc
- Nº Factura
- Nº Boleta de Honorario
- Destinatario
- Asunto
- Suma
- Palabras Claves
La obtención de
El formato PDF usa un Lenguaje de Marca llamado XMP (parecido al XML), al cual es posible agregarle los campos de metadatos anteriormente detallados. Estos Campos no solo permiten una búsqueda exacta sino que también reducen efectivamente los efectos de Ruido y Sobrecagra Informativa.
En el ámbito de la seguridad un campo de Procedencia crea una Categoría de Accesibilidad a los Documentos, puesto que un documento con un una clave particular solo podría ser vista por determinadas personas en determinados lugares, por ejemplo
Por lo tanto en esta etapa, tenemos:
- La obtención de la Imagen (Digitalización de Documentos)
- La extracción del Metadato (Mineria de datos)
- La aplicación de la Usabilidad. (Derechos de Accesos)
La Preparación Documental: Mapeo de Documentos.
Para iniciar el trabajo de Mapeo Documental se plantean las siguientes interrogantes con el fin de enmarcar en una planificación estratégica las tareas a realizar.
- ¿Qué documentos hay en la empresa?
- ¿A qué función/es responden?
- ¿Quien tiene atribuciones sobre los mismos?
- ¿Cuál es su soporte?
- ¿Dónde y cómo se pueden localizar?
- ¿Qué relación tienen con los sistemas de datos
corporativos? - ¿Que relación tienen con las normas y
procedimientos establecidos en la organización? - ¿Cuáles tienen valor para el conocimiento de la
empresa?
Estás nos arrojan como resultado, un plan de trabajo para Organizar la documentación existente en
- IDENTIFICACIÓN DOCUMENTAL
- IDENTIFICACIÓN ORGANIZACIÓN.
- Identificar Generadores (autores)
- Identificar Usuarios
- Identificar los Servicios que presta
- Relación de los servicios y los objetivos
- Relación Con los Sistemas de Datos
- SAP
- SharePoint
- etc.
La finalidad de todo esto es identificar aquellos documentos necesarios para resumir y/o continuar la operación de la empresa en caso de catástrofe, recrear las operaciones legales y financieras, proteger los intereses de los socios e inversionistas, así como de los empleados y algunos intereses externos.
La otra finalidad es asegurar los accesos de cada documento con las personas correspondientes, así podemos configurar un medio de seguridad y control de accesos, a los documentos.
Una vez realizado lo anterior se procede a ubicar la información en un diagrama que facilite la localización exacta de los documentos vitales, en caso de presentarse una situación que ponga en riesgo a la compañía; este diagrama puede ser un mapa geográfico, o un esquema de ubicación de los documentos siguiendo la estructura jerárquica de la organización, o diseñando un modelo lógico - simbólico (Mapa Conceptual) en el cual se puedan ubicar los recursos de información esenciales.
Ejemplo de tabla para coordinar en primera instancia la información:
Mapeo Documental. | | | |
Organigrama | | | |
| | | |
Colaborador | Cargo | Documento | Acción |
| | | |
| | | |
| | | |
| | | |
| | | |
| | | |
| | | |
| | | |
| | | |
| | | |
| | | |
Objetivos Básicos.
- Digitalizar la documentación impresa
- Preservar el patrimonio documental y la historia legal de las empresas.
- Reducir la manipulación y el uso de la documentación original.
- Simplificar la búsqueda de la documentación para reducir la carga administrativa.
- Controlar y Auditar el acceso a la documentación.
- Permitir el acceso web a la documentación digitalizada.
- Permitir anexar los documentos a correos electrónicos.
INTRODUCCIÓN
El proyecto que documentaremos se basa en 3 directrices de trabajo, las cuales están relacionadas y dependen entre si, responden a la necesidad de organizar la documentación, analizar la información y administrar el sistema de gestión de documental.
Estas directrices las podemos definir como Preparación Documental, Digitalización y finalmente Modelo Documental, estos términos nos permiten apreciar en conjunto el trabajo que desarrollaremos, identifican distintas áreas de trabajo que apuntan a un objetivo común, la comprensión del flujo de inteligencias dentro de una organización. Y nos remiten a las distintas etapas de vida de un documento, desde que el autor lo genera como un dato, se transforma en documento, lo utiliza como información y lo aplica como conocimiento explicito de los procesos normales de una empresa. Este desarrollo (de dato a conocimiento) puede ser intervenido en sus distintas etapas para evaluar su correcto flujo a través de la organización asegurándonos que entre el emisario, el canal, el mensaje, y el receptor del documento no existan dificultades de traslado.
En la nueva configuración de trabajo con ambientes interactivos e interoperables de colaboración, que nos permiten trabajar en línea gracias a los ERP y los CMS, es más que necesario un control sobre el flujo de documentos. Esta visión sobre como debemos tratar los papeles de
Es importante que los planteamientos y lineamientos de este proyecto estén de acuerdo completamente con
12 mar 2008
Bibliotecología y Metadatos: Una aproximación personal
El futuro cercano de la Red esta en las estructuras semánticas, así lo que hoy para algunos es Chino, para los usuarios de algunos años más adelante todo estará tan claro como el agua; el que no sepa lo que es un tag, embeded, etiquetado, 2.0, ontología semiótica, etc, está fuera, los que veían el futuro de la Bibliotecología y la Documentación en los OpenSource, como OpenBiblio, PMB etc, está fuera; de hecho, a los que proponían ingresar al sector privado con bases de datos documentales les tenemos una mala noticia en un par de años esos softwares serán obsoletos, y el coste de migración será carísimo.
La biblioteca tal como las conocemos dejarán de existir para dar paso a Centros de Recursos. El libro si bien es cierto no va a desaparecer, cada vez se relegará a un segundo plano, dando paso a elementos multimediales, inclusive la biblioteca universitaria la mas utilizada de todas las bibliotecas por su cercanía con el aprendizaje y conocimiento de las aulas, aparte de la obligación que tiene de mantenerse actualizada, dejará de ser lo que conocemos. La idea de una gran aula donde cada alumno en su laptop o móvil ingrese a las bases de datos documentales, descarguen los artículos científicos y los estudien en casa, es de hecho ya una realidad. El espacio inútil que se usa hoy en día para albergar rumas de libros la mayoría sin ser consultados nunca, en algunos años más, se convertirán en espacios donde los alumnos podrán descargar los capítulos que les solicitaron estudiar para los exámenes. Si bien esto no ocurrirá mañana, no me cabe la menor duda que no nos daremos ni cuenta cuando pase.
Frente a este tan desolador futuro, quedaremos remilgando ante la Web, como los Amanuenses alemanes le reprocharón a Gütembreg su invento. Migrar es la palabra, migremos antes que tengamos que migrar nuestros datos, al parecer en el horizonte (me acorde de ese programita carísimo y absolutamente inútil) se ven cambios importantes, pero me temo que la mayoría de mis colegas no tienen idea de lo que ocurre a diez mil por hora a su alrededor, el mundo esta migrando del papel al documento en linea, las empresas privadas migran sus antiguas bases de datos a ERP's a CMS's, y piden a gritos que digitalicen sus archivos y los relacionen con otros proyectos de gestión empresarial, y no tiene ni idea quien sabe hacer eso, contratan ingenieros comerciales, informáticos, arquitectos de información que terminan siendo ingenieros en cualquier cosa, y a nosotros nada.
Como a mí me interesa el tema de los archivos empresariales , nos dedicamos a hacer este blog. Primero lo más importante, toda esa verborragia de ontologías y semántica se resume en poner etiqueta a todo lo que hacemos, en este caso a documentos digitales...... pero como le hacemos etiquetas personalizadas de metadatos a pdf, que es por excelencia el formato mas extendido .
El tema de los metadatos es extenso, existen una gran variedad de schemas para construirlos, pero mejor es irse por lo seguro. Lo mas probable es que ninguno de las estructuras de metadatos que existen en la actualidad te pueda ayudar. Recuerda siempre cuando tengas todo claro sobre que etiquetas de metadatos usaras, aparecerá el primer obstaculo para cualquier ser humano común y corriente, usuario medio de estos aparatos, EL LENGUAJE DE PROGRAMACIÓN. Por lo tanto cuando estas en un proyecto no puedes apurarte y explicarle a los que finalmente pondrán el dinero para tu trabajo que aplicaras DBCore, XMLMarc, XML,XMP, etc, cuando no tienes idea que es eso y lo que necesitamos es ideas que concreten rapidamente.
Hay un programa semi gratuito llamado PDF Explorer con el podemos utilizar las famosas CUSTOM FIELD (otra cosa esta estos temas están llenos de términos y documentos en ingles así que a aplicarse en este idioma), las personalizas y se agregan inmediatamente en el BACKUP (XMP) de nuestro documento, lo que permite que los buscadores la indexen. Trae un buscador onda google buenisimo pero tienes que pagar por utilizar todas sus funciones. Acá tenemos el MiniGoogle es básicamente un google para la intranet, de interfaz configurable que termina dejando en ridículo a cualquier OPAC bibliotecario, el problema vale desde los 5 millones (2990€), pero si tu empresa es más pequeña o no van a soltar los dineros, así como así, existen una variedad de buscadores gratuitos y siempre hackeables (lo importante es demostrar que funciona, después es problema de los otros) para intranets.
Asegúrense con una buena versión de AcrobatReader Profesional, y un buen Scanner que lea por los dos lados o si no el proyecto se volverá una eternidad, siempre habilitar lectura OCR al scanneo para que después cuando el buscador indexe los documentos no lo lea como una foto si no como un texto (si no entendieron busquenlo en wikipedia), y si tu empresa no te apoya realmente no con dinero, ni con red, ni con un PC digno, mejor haz otra cosa por que entre dejar algo inconcluso y ensuciar tu nombre (onda, joven que no tenia idea) es mejor seguir catalogando libros.
10 mar 2008
- Cuantificación
TIPOS DE DOCUMENTOS USADOS EN CONTRALORÍA
v CONTRATOS
o SERVICIOS
o PUBLICIDAD
v PROVEEDORES
v FACTURAS
v BOLETAS DE HONORARIOS
v TRANSACCION, FINIQUITOS Y RENUNCIA DE ACCIONES.
v CORRESPONDENCIA
v CHEQUES, RECIBOS DE PAGO > FINANZAS
METADATAS PARA CADA DOCUMENTO.
CONTRATO DE SERVICIOS
- PUBLICIDAD
o TITULO
o AUTOR
o CONTRAPARTE
o RUT
o MARCA/PRODUCTO/SERVICIO
o FECHA DOC
o PALABRAS CLAVES
o IDENTIFICACION FISICA
- PROVEEDORES DE SERVICIOS
o TITULO
o AUTOR
o CONTRAPARTE
o RUT
o FECHA DOC
o SERVICIO PRESTADO
o PALABRAS CLAVES
o IDENTIFICACION FISICA
FACTURAS
o TITULO
o AUTOR
o RUT
o ARTISTA/SERVICIO/PRODUCTO/MARCA
o FECHA DOC
o Nº FACTURA
o PALABRAS CLAVES
o IDENTIFICACION FISICA
BOLETAS DE HONORARIO
o TITULO
o AUTOR
o RUT
o FECHA DOC
o Nº BOLETA
o PALABRAS CLAVES
o IDENTIFICACION FISICA
SINIESTRO (TRANSACCION, FINIQUITOS Y RENUNCIA DE ACCIONES)
o TITULO
o AUTOR
o CONTRAPARTE
o RUT
o SUMA
o PALABRAS CLAVES
o IDENTIFICACION FISICA
CORRESPONDENCIA
o TITULO
o AUTOR (REMITENTE)
o DESTINATARIO
o ASUNTO
o FECHA
o PALABRAS CLAVES
o IDENTIFICACION FISICA
CHEQUES, RECIBOS DE PAGO >>>> PENDIENTE.
RESUMEN METADATOS
Los metadatos requeridos para cada documento PDF están condensados en:
- TITULO
- AUTOR
- CONTRAPARTE
- RUT
- SERVICIO/PRODUCTO
- FECHA DOC
- Nº FACTURA
- Nº BOLETA DE HONORARIO
- DESTINATARIO
- ASUNTO
- SUMA
- PALABRAS CLAVES
- IDENTIFICACION FISICA
CANTIDADES DE DOCUMENTO
Contratos / Siniestros / Estados Financieros:
50 Documentos p/carpeta app. Cada uno con 5 hojas app. = 250 hojas
50 doc p/c x 60 carpetas app = 3 000 documentos
250 hojas x 60 carpetas = 15 000hojas.
145 kb por hoja x 15 000 = 2 175 000 Kb o 2 Gb
Facturas:
2000 facturas mensuales X 4 meses se considera solo el 2008 y diciembre del 2007
8000 facturas.
110 kb por hoja app = 880000 Kb o 859.3 Mb
(taza de 2.5 GB anuales)
CÁLCULOS
Calculo.
(60/min.)/9
Cada 3’’ = 180
Cada 5’’ = 108
Cada 7’’ = 77
Promedio = 121.6 Documentos Diarios
El promedio entre un documento cada 3, 5 y 7 minutos, que son app. los tiempos por escaneado dependiendo del peso y el ingreso de la metadata, es de 121.6 documentos diarios.
CONTRATOS
3000/
Termino de:
1 persona = 24.6 días
2 personas = 12.3 días
FACTURAS
8000/
Término de:
1 persona = 65.7 días
2 personas = 32.8 días
3 personas = 21.9 días
Nota: la cantidad sube a razón de 2000 facturas mensuales, por lo tanto estos cálculos pueden ya estar obsoletos. Se recomienda ver la posibilidad de ver algún software de gestión de facturas que incluya opción de migrar datos a SAP como por ejemplo http://www.readsoft.cl/.
MÁXIMO TIEMPO REQUERIDO
21.6 + 65.7 = 87.3 o 4 meses y medio
MÍNIMO TIEMPO REQUERIDO
12.3 + 21.9 = 34.2 o 1 mes y medio.
Metadatos
- Digitalización (12)
- Auditoria de Informacion (10)
- Gestion Documental (10)
- Metadatos (10)
- Editor de Metadatos (9)
- Mapeo Documetal (9)
- Documentacion (8)
- ECM (7)
- Gestión del conocimiento (7)
- KM (7)
- Mapa Conceptual (7)
- Empresa Privada Chilena (6)
- XML (6)
- Bibliotecologia (5)
- MiniGoogle (5)
- Indicadores (3)
- Acrobat Reader Pro (2)
- CRM (2)
- Escaneo (2)
- Imagen PDF (2)
- OCR (2)
- Objetivos (2)
- Batch OCR (1)
- Batch Processing (1)
- Busqueda a Texto Completo (1)
- Chile (1)
- Conceptualización (1)
- Dublin Core (1)
- Fujitsu fi6140 (1)
- PDFExplorer (1)
- bibliotecología (1)
- gestión documental (1)
- kwoledgetree (1)
Blog de Mapeo Documental by Sebastiano Gamboa Gallardo is licensed under a Creative Commons Atribución-No Comercial-Licenciar Igual 2.0 Chile License.