22 oct 2008

Procesamiento Documental: OCR automático


Al escanear los documento, decidí no aplicar directamente el OCR a las imágenes PDF al momento de la digitalización, ya que retrasaba el trabajo de captura de imagen de los otros documentos, lo que repercutía en un retraso de la entrega de las carpetas y archivos físicos a las personas encargadas de desarrollarlos,  finalmete opté por acumular archivos PDF de solo imagen y posteriormente trabajarlos en conjunto para  extraer el OCR, para esto utilizé la herramienta Batch Processing, que es una forma de trabajar documentos PDF en pilas, y no individualmente, con esto automatizamos el trabajo de OCR y no nos preocupamos más de este por ahora, también es útil para los que tienen cientos y miles de PDF y quieran subirlos a algun servidor para Busquedas a Texto Completo.
Para activarla debemos ir al menú Advanced/Document Processing/Batch Processing en el Adobe Acrobat Professional 8, creamos una New Sequence, le damos un nombre y aceptamos, seleccionamos un Comando, en este caso Recognize Text Using OCR, despues damos aceptar, el paso 2  (Selected folder) sería identificar la carpeta que donde estan los documentos PDF que queremos convertir, y como tercer paso escogemos si queremos que los PDF procesados se guarden en la misma  carpeta u en otra (Same folder as original/Specific folder). Si se desea se puede escoger en Output Format la pestaña PDF Optimizer que mejora la calidad del scanneo.
Cuando terminemos con la digitalización de los archivos solo tenemos que abrir el Batch Processing seleccionar nuestro Proceso que hemos creado y darle Run Process, abrir tu diario por internet favorito y dejar que el pc haga tu trabajo.

No hay comentarios: