Definizione dell'approccio alla segmentazione

L'approccio alla segmentazione determina il modo in cui i dati vengono memorizzati nel repository di archiviazione E3C. L'archiviazione E3C è costituita dai livelli logici e fisici riportati di seguito.

• Livelli di raccolta - Un modo logico di dividere e caricare i dati in Servigistics InService.

Quando si aggiungono le origini dati Servigistics InService, è necessario decidere in quale raccolta saranno caricate le origini. Il livello di raccolta di solito rappresenta un'unità di base fornita come bundle dal sistema di creazione. Poiché il livello di raccolta è il livello logico, questo tipo di livello non ha alcun impatto sul sistema. Il livello di segmento è il livello fisico in cui tutte le origini sono memorizzate nell'archiviazione E3C.

Quando il contenuto è pubblicato nei server Viewer, viene suddiviso in segmenti all'interno dell'archiviazione E3C al fine di cosnervare velocità di ricerca accettabili e ridurre al minimo l'impatto sulle operazioni di I/O. Lo sviluppo di un piano di segmentazione è fortemente dipendente dal contenuto creato pubblicato.

Per il piano di segmentazione è necessario tenere in considerazione diversi punti. Le sezioni seguenti forniscono informazioni dettagliate per decidere come dividere i dati in segmenti.

Il numero di origini dati è una delle considerazioni principali che interessa il numero dei segmenti che verranno creati nel sistema. Non esiste alcun limite per la dimensione dell'archiviazione E3C. Tuttavia, è presente una limitazione per il numero di parole e frasi, in base alle relative occorrenze, che sono memorizzate in un segmento.

Un'occorrenza è un numero associato a ciascuna parola (e a ogni elemento di apertura e chiusura in un documento XML) nei dati. Un segmento principale è limitato a 2 GB di occorrenze. Il raggiungimento del numero massimo di occorrenze per un segmento interessa sia le prestazioni del Viewer (ad esempio quando si esegue una ricerca) che le prestazioni incrementali di aggiornamento. Il numero consigliato di parole (occorrenze) in un segmento è di solito 500 milioni (0,5 GB) massimo.

Per pianificare il numero e la dimensione delle origini per segmento, è necessario analizzare i dati e identificare il numero di parole. Oltre a questo numero, è necessario considerare un buffer per il caricamento incrementale dei dati. In base di un'analisi di vari campioni di dati, per determinare i propri segmenti si consiglia di utilizzare l'approccio di analisi riportato di seguito.

In teoria, quando si decide quali dati andranno a finire in un segmento, l'obiettivo è una capacità di occorrenze che va dal 25% al 50% (ovvero, circa 500 MB - 1 GB di occorrenze). Questo numero non deve essere troppo basso in quanto si potrebbe avere un numero eccessivo di segmenti con relativo overhead associato. Inoltre il segmento non dovrebbe essere troppo pieno, in quanto in questo caso si avrebbe un impatto sulle prestazioni e ci si avvicinerebbe troppo al limite di segmento.

Nelle tabelle seguenti è fornita una stima approssimativa del numero di occorrenze di solito contenute da ogni tipo di dati. La percentuale di seguito è basata sul 100% della capacità di un segmento.

I risultati basati sul numero di file (con una granularità di circa 1000 file, quando possibile) sono:

Tipo di dati	Numero di file	Contributo dell'occorrenza	Contributo dell'occorrenza (%)
PartsList	1042 (2084 con XMD)	749364	0.0375
PDF	906	41093041	2
IE XML	1000	2833986	0.14

I risultati basati sulla dimensione del disco (con granularità di 10 MB, quando possibile) sono:

Tipo di dati	Size	Contributo dell'occorrenza	Contributo dell'occorrenza (%)
PartsList	10 MB	277542	0.0138
PDF	10 MB	37020	0.002
IE XML	10 MB	1190750	0.06

Si consiglia di eseguire il calcolo dei dati basati su entrambe le tabelle e scegliere il numero medio o il più basso per non sbagliare.

Considerando i tipi XML con diverse definizioni di indicizzazione, per il tipo IEXML si consigliano le dimensioni di dati riportate di seguito.

Se si desidera utilizzare tipi di dati misti, è possibile utilizzare una parte relativa di file. Ad esempio, 3 GB di dati XML e 80 GB di dati PDF.

Se la dimensione dei dati supera il limite nella tabella, allora è possibile che i dati siano divisi in diversi frammenti. Ad esempio, se si hanno 20 GB di dati XML e 500 GB di dati PDF, è probabile che saranno necessari sei segmenti.

Servigistics InService consente di creare un collegamento da un'origine dati a un'altra (documento, immagine, e così via) utilizzando i link predefiniti tra le origini. I link possono essere utilizzati solo all'interno dello stesso segmento. I link alle origini in altri segmenti non funzionano nel visualizzatore. Di conseguenza, le origini collegate devono essere caricate nello stesso segmento.

Anche il tipo di dati ha un impatto sulla dimensione del segmento. Ad esempio, i documenti PDF analizzati hanno un impatto minore sulla dimensione dei segmenti. Questi documenti hanno un file di proprietà presente nell'archiviazione, ma in questo caso sarà indicizzato un numero molto basso di occorrenze.

Pertanto, è necessario analizzare i dati per comprendere i diversi tipi di dati presenti nel segmento.

La ricerca tra i segmenti viene eseguita tramite il livello di logica di business. La ricerca in più segmenti è più dispendiosa in quanto viene eseguita separatamente in ogni segmento per poi unificare e ordinare i risultati separati in un unico elenco di risultati della ricerca. Meno segmenti sono presenti nel sistema, più efficiente sarà la ricerca.

Date queste considerazioni, quando si definisce la segmentazione, tenere il numero dei segmenti più basso possibile.

I documenti condivisi sono documenti che sono caricati in più di una raccolta. In modalità condivisa, Servigistics InService memorizza solo una copia del documento condiviso per segmento indipendentemente dal numero di raccolte nel segmento che includono questa origine.

Se sono presenti raccolte con numerosi documenti condivisi, si consiglia di caricarle in un singolo segmento in modo da ridurre il numero di copie di tali documenti.

I package offline vengono creati da un segmento. Ciò significa che i segmenti completi vengono distribuiti in un sistema non in linea insieme a tutte le raccolte associate. È necessario dividere le raccolte che non devono essere distribuite nello stesso package offline in segmenti diversi.

Tipo di dati	Dimensione dati
XML (PartList, IEXML)	5-7 GB
PDF	150-200 GB