11 abr 2008

La Digitalización: Digitalización y Extracción.

Esta etapa es la obtención de la imagen, la identificación y registro de los valores informativos, o metadatos, inherentes a los documentos. El proceso técnico nace de la ubicación del documento en su contexto, puesto que al ser delimitado en su función y uso, obtendremos las etiquetas relevantes que nos dirijan en la búsqueda posterior. Por lo tanto es necesario realizar el trabajo de Mapa Documental, antes que el de Digitalización y Extracción.

Las etiquetas o campos de metadatos son delimitadores que se encuentran en el “lenguaje de marcado” del Documento, si bien es cierto, la fuente principal de datos para rellenar las etiquetas están en el cuerpo mismo del texto, es necesario su identificación y posterior registro, exportándola a su “lenguaje de marcado”. Esto tiene por finalidad la generación de relaciones semánticas entre los distintos documentos.

Así con los atributos de su función, uso y contexto insertado en las propiedades del documento, definimos las condiciones que los robots de los buscadores encontraran los que queremos.

Un ejemplo es el de a continuación, se crearon etiquetas a base de supuestos usos que le dan a ciertos documentos en la Empresa. Yendo de los Macro a lo Micro nos encontramos con los siguientes metadatos generales.

  • Tipología
  • Procedencia
  • Contraparte
  • Rut
  • Artista/Servicio/Producto
  • Fecha Doc
  • Nº Factura
  • Nº Boleta de Honorario
  • Destinatario
  • Asunto
  • Suma
  • Palabras Claves

La obtención de la Imagen se realiza mediante la utilización de un Scanner y un Software que permita editar, visualizar y convertirla en un Documento PDF, este formato es el adecuado para el manejo de documentación susceptible a ser impresa, puesto que permite solo lectura de esta. Posteriormente al escaneo del documento, el software debe posibilitar el Reconocimiento Óptico de Caracteres u OCR, el cual hace posible que Browser pueda leer el Texto del documento. Esta característica no es necesaria a todos los documentos, siendo unos más estructurados que otros o con datos importantes consignados en forma manuscritas, lo que hace que el OCR no los reconozca y omita información crítica; es el caso por ejemplo de las Facturas.

El formato PDF usa un Lenguaje de Marca llamado XMP (parecido al XML), al cual es posible agregarle los campos de metadatos anteriormente detallados. Estos Campos no solo permiten una búsqueda exacta sino que también reducen efectivamente los efectos de Ruido y Sobrecagra Informativa.

En el ámbito de la seguridad un campo de Procedencia crea una Categoría de Accesibilidad a los Documentos, puesto que un documento con un una clave particular solo podría ser vista por determinadas personas en determinados lugares, por ejemplo la Gente de Fiscalía en Pucón.

Por lo tanto en esta etapa, tenemos:

  • La obtención de la Imagen (Digitalización de Documentos)
  • La extracción del Metadato (Mineria de datos)
  • La aplicación de la Usabilidad. (Derechos de Accesos)


No hay comentarios: