Esta etapa es la obtención de la imagen, la identificación y registro de los valores informativos, o metadatos, inherentes a los documentos. El proceso técnico nace de la ubicación del documento en su contexto, puesto que al ser delimitado en su función y uso, obtendremos las etiquetas relevantes que nos dirijan en la búsqueda posterior. Por lo tanto es necesario realizar el trabajo de Mapa Documental, antes que el de Digitalización y Extracción.
Las etiquetas o campos de metadatos son delimitadores que se encuentran en el “lenguaje de marcado” del Documento, si bien es cierto, la fuente principal de datos para rellenar las etiquetas están en el cuerpo mismo del texto, es necesario su identificación y posterior registro, exportándola a su “lenguaje de marcado”. Esto tiene por finalidad la generación de relaciones semánticas entre los distintos documentos.
Así con los atributos de su función, uso y contexto insertado en las propiedades del documento, definimos las condiciones que los robots de los buscadores encontraran los que queremos.
Un ejemplo es el de a continuación, se crearon etiquetas a base de supuestos usos que le dan a ciertos documentos en la Empresa. Yendo de los Macro a lo Micro nos encontramos con los siguientes metadatos generales.
- Tipología
- Procedencia
- Contraparte
- Rut
- Artista/Servicio/Producto
- Fecha Doc
- Nº Factura
- Nº Boleta de Honorario
- Destinatario
- Asunto
- Suma
- Palabras Claves
La obtención de
El formato PDF usa un Lenguaje de Marca llamado XMP (parecido al XML), al cual es posible agregarle los campos de metadatos anteriormente detallados. Estos Campos no solo permiten una búsqueda exacta sino que también reducen efectivamente los efectos de Ruido y Sobrecagra Informativa.
En el ámbito de la seguridad un campo de Procedencia crea una Categoría de Accesibilidad a los Documentos, puesto que un documento con un una clave particular solo podría ser vista por determinadas personas en determinados lugares, por ejemplo
Por lo tanto en esta etapa, tenemos:
- La obtención de la Imagen (Digitalización de Documentos)
- La extracción del Metadato (Mineria de datos)
- La aplicación de la Usabilidad. (Derechos de Accesos)
No hay comentarios:
Publicar un comentario