22 oct 2008

Procesamiento Documental: OCR automático


Al escanear los documento, decidí no aplicar directamente el OCR a las imágenes PDF al momento de la digitalización, ya que retrasaba el trabajo de captura de imagen de los otros documentos, lo que repercutía en un retraso de la entrega de las carpetas y archivos físicos a las personas encargadas de desarrollarlos,  finalmete opté por acumular archivos PDF de solo imagen y posteriormente trabajarlos en conjunto para  extraer el OCR, para esto utilizé la herramienta Batch Processing, que es una forma de trabajar documentos PDF en pilas, y no individualmente, con esto automatizamos el trabajo de OCR y no nos preocupamos más de este por ahora, también es útil para los que tienen cientos y miles de PDF y quieran subirlos a algun servidor para Busquedas a Texto Completo.
Para activarla debemos ir al menú Advanced/Document Processing/Batch Processing en el Adobe Acrobat Professional 8, creamos una New Sequence, le damos un nombre y aceptamos, seleccionamos un Comando, en este caso Recognize Text Using OCR, despues damos aceptar, el paso 2  (Selected folder) sería identificar la carpeta que donde estan los documentos PDF que queremos convertir, y como tercer paso escogemos si queremos que los PDF procesados se guarden en la misma  carpeta u en otra (Same folder as original/Specific folder). Si se desea se puede escoger en Output Format la pestaña PDF Optimizer que mejora la calidad del scanneo.
Cuando terminemos con la digitalización de los archivos solo tenemos que abrir el Batch Processing seleccionar nuestro Proceso que hemos creado y darle Run Process, abrir tu diario por internet favorito y dejar que el pc haga tu trabajo.

16 oct 2008

Procesamiento Documental: Scanneo


Después de muchos tramites compramos el scanner, le elegido fue el Fujitsu f6140, el cual tiene grandes funcionalidades, la mejor obviamente es la de procesar 4.000 documentos diarios, tiene un sensor de sobrealimentación de hojas, es decir, puedes ir a tomarte un cafe mientras la maquina hace su trabajo sin preocuparte que se pasen dos hojas pegadas a la vez, el software de procesamiento que trae por defecto es el Scann All, y usa como controlador TWAIN o ISIS, prefiero el primero, el cual me permite escanear Duplex con la funcion de reconocimiento de hoja blanca, y ajuste automatico de tamaño de hoja, por lo que solo pasan y pasan documentos y no tengo que  configuarar el tamaño de hoja y el nombre del archivo a cada rato, especialmente con contratos notariales en formato oficio y contratos simples en formato carta.

La función de scanneo predeterminada es, Salida de Imagen PDF sin OCR, con la siguiente configuración de escaneo:

  Resolución : 300 dpi
  Tamaño de Papel : Oficio (8.5x14pul)
  Área de Escaneo (Izquierdo) : 0.000 pulgada
                 (Superior) : 0.000 pulgada
                 (Ancho) : 8.500 pulgada
                 (Longitud) : 14.000 pulgada
  Tipo de Escaneo : ADF (Lado Frontal)
  Modo de Imagen : Blanco/Negro
  Blanco/Negro : Advanced DTC
  Rotación de Lado Volteado : Libro
  Detección Aut de Tam y End : Detección Automática para Tamaño de Página
  Sobreescaneado : Habilitar
  Elimi de agujero perforado : Con color de fondo
  Detección de alim múltiple : Verificar Grosor(Ultrasónico)
  Omitir Página Vacia : Si