Definición del método de segmentación

El método de segmentación permite determinar cómo se almacenan los datos en el almacén de almacenamiento E3C. En el almacenamiento E3C se incluyen las siguientes capas lógicas y físicas:

• Capas de segmento: una separación física o un soporte de contenido para una o más recopilaciones.

• Capas de recopilación: una manera lógica de dividir y cargar datos en Servigistics InService.

Al añadir orígenes de datos a Servigistics InService, se debe decidir en qué recopilación se cargan los orígenes. El nivel de recopilación representa normalmente una unidad básica que se proporciona como un paquete del sistema de origen. Puesto que el nivel de recopilación es la capa lógica, no tiene ningún impacto en el sistema. La capa de segmento es la capa física en la que se almacenan todos los orígenes en el almacenamiento E3C.

Cuando se publica el contenido en los servidores de Viewer, se divide en segmentos dentro del almacenamiento E3C para conservar un rendimiento aceptable de la búsqueda y para minimizar el impacto de las operaciones de entrada y salida. El desarrollo de un plan de segmentación depende significativamente del contenido creado publicado.

Se deben tener en cuenta varias consideraciones para el plan de segmentación. En las siguientes secciones se proporcionan detalles sobre estas consideraciones para ayudar a decidir cómo se deben dividir los datos en segmentos.

El número de orígenes de datos es una de las consideraciones principales que afecta al número de segmentos que se crearán en el sistema. No hay límite para el tamaño de almacenamiento E3C. Sin embargo, hay una limitación del número de palabras y frases, en función de sus apariciones, que se almacenan dentro de un segmento.

Una aparición es un número asociado a cada palabra (y cada elemento de apertura y cierre de un documento XML) de los datos. Un segmento básico se limita a 2 GB de apariciones. Alcanzar la capacidad máxima de apariciones para un segmento afecta al rendimiento de Viewer (por ejemplo, al realizar una búsqueda) y al rendimiento de la actualización incremental. En general, el número recomendado de palabras (apariciones) en un segmento tiene un máximo de 500 millones (0,5 GB).

Para planificar el número y el tamaño de orígenes por segmento, se deben poder analizar los datos e identificar el número de palabras. Además de este número, se debe tener en cuenta un búfer para la carga incremental de datos. Según el análisis de una variedad de muestras de datos, se recomienda utilizar el siguiente método de análisis para determinar los segmentos.

A la hora de decidir qué datos van en un segmento, una capacidad de apariciones del 25 % al 50 % (lo que significa de 500 MB a 1 GB de apariciones aproximadamente) es el objetivo ideal. Este número no debe ser demasiado bajo, ya que se puede acabar con demasiados segmentos y sus gastos indirectos asociados. Tampoco es aconsejable que el segmento se llene demasiado, ya que afecta al rendimiento y se acerca demasiado al límite de segmento.

En las siguientes tablas se proporciona una estimación aproximada de cuántas apariciones contienen normalmente cada uno de los tipos de datos. El porcentaje siguiente se basa en el 100 % de la capacidad de un segmento.

Los resultados basados en el número de fichero (con una granularidad de 1000 ficheros aproximadamente, si es posible) son los siguientes:

Tipo de datos	Número de ficheros	Contribución de aparición	Contribución de aparición (%)
PartsList	1042 (2084 con XMD)	749364	0.0375
PDF	906	41093041	2
IEXML	1000	2833986	0.14

Los resultados basados en el tamaño de disco (con granularidad de 10 MB si es posible) son los siguientes:

Tipo de datos	Tamaño	Contribución de aparición	Contribución de aparición (%)
PartsList	10 MB	277542	0,0138
PDF	10 MB	37020	0,002
IEXML	10 MB	1190750	0,06

Se recomienda realizar el cálculo de los datos en función de ambas tablas y elegir el promedio o el número mínimo para mayor seguridad.

Al tener en cuenta los tipos XML con diferentes definiciones de indexación, se recomiendan los siguientes tamaños de datos en función del tipo IEXML:

Para mezclar tipos de datos, se puede utilizar una parte relativa de ficheros. Por ejemplo, 3 GB de datos XML y 80 GB de datos PDF.

Si el tamaño de datos supera el límite de la tabla, es probable que los datos se deban romper en varios fragmentos. Por ejemplo, si hay 20 GB de XML y 500 GB de PDF, probablemente se necesitarán seis segmentos.

Servigistics InService permite vincular desde un origen de datos a otro (documento, imagen, etc.) mediante vínculos predefinidos entre los orígenes. Los vínculos se pueden crear solo dentro del mismo segmento. Los vínculos a orígenes de otros segmentos no funcionan en Viewer. Por consiguiente, los orígenes vinculados se deben cargar en el mismo segmento.

El tipo de datos también afecta al tamaño del segmento. Por ejemplo, los documentos PDF escaneados tienen menor impacto en el tamaño de segmento. Dichos documentos tienen un fichero de propiedades que los acompaña dentro del almacenamiento, pero en este caso habrá muy pocas apariciones que se vayan a indexar.

Por lo tanto, se deben analizar los datos para comprender los distintos tipos de datos del segmento.

La búsqueda entre segmentos se realiza mediante la capa de lógica de negocio. La búsqueda a través de varios segmentos es menos eficaz, ya que la búsqueda se realiza en cada segmento por separado y luego la capa unifica y clasifica los resultados independientes en una lista de resultados de la búsqueda. Cuanto menos segmentos existan en el sistema, más eficaz será la búsqueda.

Al definir la segmentación, mantenga el número de segmentos lo más pequeño posible, teniendo en cuenta las demás consideraciones.

Los documentos compartidos son aquellos que se cargan en más de una recopilación. En el modo Compartido, Servigistics InService solo almacena una copia del documento compartido por segmento, independientemente de cuántas recopilaciones del segmento contienen este origen.

Si hay recopilaciones con muchos documentos compartidos, se recomienda cargarlas en un único segmento para reducir la cantidad de copias de estos documentos.

Los paquetes fuera de línea se crean a partir de un segmento. Esto significa que se distribuyen segmentos completos a un sistema fuera de línea, junto con todas las recopilaciones asociadas. Las recopilaciones que no se deben distribuir se deben dividir en distintos segmentos del mismo paquete fuera de línea.

Tipo de datos	Tamaño de datos
XML (PartList, IEXML)	De 5 a 7 GB
PDF	De 150 a 200 GB