データのクレンジング: 使用可能なツールについて
データの読み込みプロセスにおいて時間のかかる作業は、データを確認およびクレンジングし、適切な RBInfo ファイルおよび DTD に指定されているデータフォーマット要件を満たすようにする作業です。
|
データファイルは XML フォーマットであり、 Windchill のインストール時に提供される DTD (standardX20 ディレクトリ内) に準拠している必要があります。XML データファイルの作成および検証方法については、 XML フォーマットの検証を参照してください。
|
このセクションでは、データをクレンジングする各ツールオプションの長所と短所について説明します。
テキストエディタ: 長所と短所
ワードパッド、メモ帳、TextPad などのテキストエディタは、使用方法や入手方法が簡単です。追加のデータ変換が不要で、データファイルのサイズが小さいときには、これらのテキストエディタを選択できます。テキストエディタを使用すると、これから読み込む内容をすばやく表示できます。
長所
• 使用が簡単
• ほとんどのオペレーティングシステムで使用できる
• データをすばやく表示可能
• 習得が簡単
• 単純なサーチおよび置換に使用可能
• このツールでのデータ表示に、追加のコーディングや準備が必要ない
• XML、CSV、およびその他のテキストファイルに対応する
短所
• データの検証ができない
• 追加のデータ変換ができない
• 大容量のデータには不向き
Microsoft Excel: 長所と短所
顧客によっては、コンマなどの区切り記号によって区切られたフラットファイルフォーマットのデータを生成するルーチンを組み込んでいる場合があります。Microsoft Excel は、整然とまとめられた行および列にデータを表示するのに適したツールです。
長所
• 使用が簡単
• ほとんどの Windows オペレーティングシステムで利用可能
• データをすばやく表示可能
• 単純な検索および置換操作に使用できる
• データを検証するための数式を作成可能
• 習得が簡単
• 列を手動で移動できる (これにより、追加のデータ変換が制限される)
• データのフィルタと並べ替えができる。これによって、重複した部品やドキュメントの識別や、リソースバンドルに追加するアイテムのリストの生成を簡単に行うことができます。
• データの一貫性
短所
• データを手動で列に解析する必要がある (「テキストから列へ」機能を使用)
• ワークシートのデータは 65,536 行に制限されている
• Windows 以外のプラットフォームでは使用不可
• データを行および列のフォーマットにする必要がある
カスタムコード :長所と短所
カスタマイズされたコードを使用すると、読み込みプロセスを大幅に強化できます。XML 変換や Java プログラムを開発すると、顧客は必要なロードファイルフォーマットに関係なく、同じフォーマットでデータを引き続き提供できるようになります。コンテキストの導入により、現在では必要に応じて、カスタマイズされたコードを使用してデータをロードファイルのグループに分けることができます。
カスタムコードは、通常、テキストエディタなどの別のツールと併用します。
このアプローチは、ロードファイルフォーマットが、提供されたデータのフォーマットと異なるときには、ほとんどこの方法を使用します。
長所
• データ検証用の特別な規則を適用して作成が可能
• 顧客が提供した中間フォーマットから、読み込み可能なフォーマットにデータを変換できる
• データを分割できる
• 一貫したわかりやすい結果が得られる (Excel などのツールを使用する手動操作では誤りが起こる可能性がある)
• 転送および共有が可能
• 複数のオペレーティングシステム上で実行できる
短所
• 入出力に密接に結合しており、入力または出力を変更すると、カスタムコードの変更が必要になる。
• データ確認用のユーザーインタフェースがない
• 通常はデータ確認用の追加のツールを使用する必要がある
• 複数のスキルが必要
• コードを開発した後も、手作業とプログラムによる作業の両方が必要になる