Segmentierungsansatz definieren

Ihr Segmentierungsansatz bestimmt, wie Daten im E3C-Speicher-Repository gespeichert werden. E3C-Speicher hat die folgenden logischen und physischen Ebenen:

Wenn Sie Datenquellen zu Servigistics InService hinzufügen, sollten Sie entscheiden, in welche Sammlung die Quellen geladen werden. Die Sammlungsebene stellt normalerweise eine grundlegende Einheit dar, die als Bündel vom Entwicklungssystem bereitgestellt wird. Da die Sammlungsebene die logische Ebene ist, hat sie keine Auswirkungen auf das System. Die Segmentebene ist die physische Ebene, auf der alle Quellen im E3C-Speicher gespeichert werden.

Wenn Inhalt auf den Viewern veröffentlicht wird, wird der Inhalt im E3C-Speicher in Segmente aufgeteilt, um eine akzeptable Suchleistung aufrechtzuerhalten und die Auswirkungen von Eingabe-/Ausgabeoperationen zu minimieren. Die Entwicklung eines Segmentierungsplans ist hochgradig vom veröffentlichten entwickelten Inhalt abhängig.

Für den Segmentierungsplan sollten Sie mehrere Überlegungen berücksichtigen. Die folgenden Abschnitte enthalten Details zu diesen Überlegungen, um Ihnen die Entscheidung bzgl. der Aufteilung Ihrer Daten in Segmente zu erleichtern.

Die Anzahl der Datenquellen ist eine der wichtigsten Überlegungen, die die Anzahl der Segmente beeinflusst, die im System erstellt werden. Es gibt keine Beschränkung für die Größe von E3C-Speicher. Es gibt jedoch eine Beschränkung für die Anzahl von Wörtern und Ausdrücken (basierend auf ihren Vorkommen), die in einem Segment gespeichert werden.

Ein Vorkommen ist eine Zahl, die jedem Wort (und jedem öffnenden und schließenden Element in einem XML-Dokument) in den Daten zugeordnet ist. Ein Kernsegment ist auf 2 GB Vorkommen beschränkt. Wenn die maximale Vorkommenkapazität für ein Segment fast erreicht ist, wirkt sich dies sowohl auf die Viewer-Leistung (beispielsweise beim Durchführen einer Suche) als auch auf die Leistung inkrementeller Aktualisierungen aus. Im Allgemeinen beträgt die empfohlene Anzahl von Wörtern (Vorkommen) in einem Segment maximal 500 Millionen (0,5 GB).

Um die Anzahl und Größe von Quellen pro Segment zu planen, müssen Sie die Daten analysieren und die Anzahl von Wörtern identifizieren. Zusätzlich zu dieser Zahl müssen Sie einen Puffer für inkrementelles Datenladen berücksichtigen. Auf Grundlage einer Analyse einer Vielzahl von Datenbeispielen wird empfohlen, den folgenden Analyseansatz zum Bestimmen der Segmente zu verwenden.

Idealerweise ist eine Kapazität von 25 % bis 50 % Vorkommen (d.h. ca. 500 MB bis 1 GB Vorkommen) das Ziel, wenn darüber entschieden wird, welche Daten in ein Segment aufgenommen werden. Diese Zahl sollte nicht zu niedrig festgelegt werden, da dies zu einer zu großen Anzahl von Segmenten und dem damit verbundenen Mehraufwand führen könnte. Außerdem soll das Segment nicht zu voll werden, das dies die Leistung beeinträchtigt und die Segmentbeschränkung damit fast erreicht ist.

Die folgenden Tabellen enthalten eine grobe Schätzung, wie viele Vorkommen jeder Datentyp in der Regel enthält. Der unten angegebene Prozentsatz basiert auf 100 % der Kapazität eines Segments.

Die Ergebnisse auf Basis der Anzahl Dateien (mit einer Granularität von ca. 1.000 Dateien, wenn möglich) lauten:

Datentyp	Anzahl der Dateien	Vorkommenanteil	Vorkommenanteil (%)
PartsList	1042 (2084 bei XMD)	749364	0.0375
PDF	906	41093041	2
IEXML	1000	2833986	0.14

Die Ergebnisse auf Basis der Datenträgergröße (mit einer Granularität von 10 MB, wenn möglich) lauten:

Datentyp	Größe	Vorkommenanteil	Vorkommenanteil (%)
PartsList	10 MB	277542	0.0138
PDF	10 MB	37020	0.002
IEXML	10 MB	1190750	0.06

Es wird empfohlen, die Berechnung der Daten auf Grundlage beider Tabellen auszuführen und entweder den Durchschnitt oder die niedrigste Zahl zu wählen, um auf der sicheren Seite zu sein.

Unter Berücksichtigung der XML-Typen mit verschiedenen Indexierungsdefinitionen werden die folgenden Datengrößen je nach IEXML-Typ empfohlen:

Wenn Sie Datentypen kombinieren möchten, können Sie einen relativen Anteil der Dateien verwenden. Beispiel: 3 GB XML-Daten und 80 GB PDF-Daten.

Wenn die Datengröße den Grenzwert in der Tabelle überschreitet, sollten die Daten vermutlich in mehreren Fragmente unterteilt werden. Wenn Sie beispielsweise 20 GB XML- und 500 GB PDF-Daten haben, benötigen Sie wahrscheinlich sechs Segmente.

Servigistics InService ermöglicht es Ihnen, mithilfe von vordefinierten Links zwischen Quellen eine Verknüpfung von einer Datenquelle zu einer anderen (Dokument, Bild usw.) zu erstellen. Links können nur innerhalb desselben Segments erstellt werden. Links zu Quellen in anderen Segmenten funktionieren im Viewer nicht. Daher müssen verknüpfte Quellen im selben Segment geladen werden.

Der Datentyp hat auch Auswirkungen auf die Größe des Segments. Gescannte PDF-Dokumente haben beispielsweise nur geringe Auswirkungen auf die Segmentgröße. Diese Dokumente werden im Speicher von einer Eigenschaftendatei begleitet, in diesem Fall werden jedoch nur sehr wenige Vorkommen indexiert.

Daher müssen Sie die Daten analysieren, um die verschiedenen Datentypen im Segment zu verstehen.

Die Suche zwischen Segmenten wird durch die Geschäftslogikebene ausgeführt. Die Suche über mehrere Segmente ist aufwendiger und unwirtschaftlicher, da die Suche in jedem Segment separat erfolgt und die Ebene anschließend die separaten Ergebnisse in einer Suchergebnisliste vereinheitlicht und sortiert. Je weniger Segmente im System vorhanden ist, desto effizienter ist die Suche.

Wenn Sie die Segmentierung definieren, halten Sie die Anzahl der Segmente unter Berücksichtigung der anderen Überlegungen so klein wie möglich.

Gemeinsam benutzte Dokumente sind Dokumente, die in mehreren Sammlungen geladen werden. Im Modus der gemeinsamen Benutzung speichert Servigistics InService nur eine Kopie des gemeinsam benutzten Dokuments pro Segment, egal wie viele Sammlungen im Segment diese Quelle enthalten.

Wenn Sie über Sammlungen mit vielen gemeinsam benutzten Dokumenten verfügen, wird empfohlen, diese in einem einzelnen Segment zu laden, um die Anzahl der Kopien dieser Dokumente zu reduzieren.

Offline-Pakete werden aus einem Segment erstellt. Dies bedeutet, dass vollständige Segmente an ein Offline-System verteilt werden, zusammen mit allen zugeordneten Sammlungen. Sie sollten Sammlungen, die nicht im gleichen Offline-Paket verteilt werden sollen, in verschiedene Segmente aufteilen.

Datentyp	Datengröße
XML (Teileliste, IEXML)	5–7 GB
PDF	150–200 GB