Servigistics InService 發佈與載入 > 使用發佈與載入 > TAL 組態 > 定義分割方式
  
定義分割方式
分割方式決定 E3C storage 存放庫中儲存資料的方式。E3C storage 具有下列邏輯及實體圖層:
區段圖層 - 一或多個集合的實體分割或內容持有者。
集合圖層 - 集合是用來分割資料並將其載入 Servigistics InService 的一種邏輯方法。
集合是配套中不同前後關聯的彙總。
將資料來源新增至 Servigistics InService 時,您應該決定將來源載入至哪一個集合。集合層級通常表示作為編寫系統中的配套提供的基本單位。由於集合層級是邏輯圖層,因此對系統沒有任何影響。區段圖層是實體圖層,其中的所有來源都儲存在 E3C storage 中。
將內容發佈至 Viewer 伺服器時,系統會在 E3C Storage 內將內容分割成區段,以維持可接受的搜尋效能並最小化輸入與輸出作業影響。開發分割計劃在很大程度上取決於已發佈的編寫內容。
您應該對分割計劃進行多方面考量。以下幾節將提供有關這些考量的詳細資訊,以協助您確定將資料分割成區段的方法。
每個區段中來源的數目以及大小
資料來源的數目是主要考量因素之一,它將影響系統中可以建立的區段數目。對 E3C storage 的大小沒有任何限制。但是,對字詞或片語的數目有限制,此限制由字詞或片語儲存在區段內的出現位置確定。
出現位置是與資料中每個字 (以及 XML 文件中的每個開啟和關閉元素) 相關聯的數字。核心區段出現位置皆會限制為 2 GB。幾乎達到區段的最大出現位置容量時會影響檢視器效能 (例如,執行搜尋時) 和累加式更新效能。一般而言,建議區段中字詞 (出現位置) 數目最多為 500 百萬 (0.5 GB)。
如需計劃每個區段中來源的數目與大小,您必須分析資料並確定字數。除此數字外,您還必須考慮累加式資料載入的緩衝區。根據對多種不同數據樣本的分析,建議您使用下列分析方法來確定區段。
理想情況下,在決定哪些資料屬於某一區段時,目標容量是出現位置的 25% 到 50% (即出現位置的約 500 MB 至 1 GB)。此數字不能太低,因為這最終可能會產生太多區段以及與此相關的額外負擔。您也不希望區段太滿,這會影響效能並且太接近區段限制。
下表提供了對每個資料類型通常包含的出現位置數量的粗略預估。下面的百分比按區段容量的 100% 計。
根據檔案數 (若可能,資料粒度大約為 1000 個檔案) 所獲得的結果:
資料類型
檔案數
出現位置貢獻度
出現位置貢獻度 (%)
PartsList
1042 (XMD 為 2084)
749364
0.0375
PDF
906
41093041
2
IEXML
1000
2833986
0.14
根據磁碟大小 (若可能,資料粒度為 10 MB) 所獲得的結果:
資料類型
大小
出現位置貢獻度
出現位置貢獻度 (%)
PartsList
10 MB
277542
0.0138
PDF
10 MB
37020
0.002
IEXML
10 MB
1190750
0.06
建議您根據上述兩個表格執行資料計算,並出於安全考慮,選擇平均值或最小數值。
考慮到 XML 類型具有不同索引定義,下列資料大小建議以 IEXML 類型為基礎:
資料類型
資料大小
XML (PartList、IEXML)
5-7 GB
PDF
150-200GB
若需要混合資料類型,則可以使用檔案的相對比例。例如, XML 資料為 3 GB,PDF 資料為 80 GB。
如果資料大小超過表格中的限制,則資料可能會被分割成多個片段。例如,如果您的 XML 為 20 GB、PDF 為 500 GB,則可能需要六個區段。
文件之間的參照
Servigistics InService 可讓您使用在來源間預先定義的連結從一個資料來源連結至另一個資料來源 (文件、影像等等)。連結僅可以在同一區段內完成。與其他區段中來源之間的連結無法在檢視器中執行。因此,連結的來源必須在同一區段中載入。
資料類型
資料類型也會影響區段大小。例如,掃描的 PDF 文件對區段大小影響很小。儲存內會隨附有這些文件的內容檔案,但在此情況下,索引的出現位置非常少。
因此,您必須分析資料,以瞭解區段中的不同資料類型。
跨多個區段搜尋
區段之間的搜尋可透過企業邏輯圖層來完成。跨多個區段搜尋會更加耗費資源,因為搜尋會在每個區段中單獨執行,然後圖層會將單獨的搜尋結果統一到一個搜尋結果清單中並排序。系統中區段越少,搜尋效率越高。
定義分割時,在滿足其他指定考慮事項的基礎上,請保持區段數目盡可能少。
集合之間的共用文件數
共用文件是從多個集合中載入的文件。在共用模式下,Servigistics InService 僅儲存每個區段中共用文件的一個副本,無論區段中有多少個集合包括此來源。
若存在包含多個共用文件的集合,建議您將其載入單一區段以減少這些文件的副本數量。
離線區段
從區段中建立離線封裝。這表示完整區段將與所有相關聯的集合一起分配至離線系統。您需要將不應該分配至相同離線封裝的集合分割成不同區段。