2011年2月7日月曜日

Informatica Release 9を使ってみた パート2 (Informatica Data Quality)

このエントリーを含むはてなブックマーク はてなブックマークに追加 Add to Delicious Bookmark この記事をクリップ! Googleブックマークへ追加 Digg
今回は、前回のInformatica Release 9を使ってみた パート1で少し触れた「Informatica Data Quality」について書いていきたいと思います。

「Informatica Data Quality」とは簡単に説明すると、データの名寄せデータ・クレンジングといったものです。
例えば、全国各地でアンケートを行い、その顧客データをデータに取り込むとき、大抵の場合アルバイトの方が人海戦術で紙に書かれているものをデータベースに登録をするかと思います。
その時に、東京では番地を「x-xx-x」と決めて登録をしているのですが、神奈川では「xのxxのx」と登録されている場合も稀ではありません。
また、年齢層という欄に「1:10歳~20歳」「2:20歳~40歳」「3:40歳~60歳」「4:60歳~80歳」「5:年齢不明」という欄があったとして、そこに「6」が入力されている場合もあるかもしれません。
その場合は「5」にデータを変更しないといけません。
こうしたのをデータ・クレンジングといいます。

そうしたデータを適切な形式に変更するToolが「Informatica Data Quality」です。

「Informatica Data Quality」の場合、データ・クレンジングを行う前にデータのプロファイリングを行います。
これは、現在のデータの状況を数値で視覚化出来る分析です。

プロファイリングを行うことによって、大量のデータを品質のレベルやタイプでグループ化し、問題のあるカラムを発見しやすくなります。
また、ドリルダウンのようなボタンもあり、問題のあるグループの実際のレコードを確認することも出来ます。

問題のグループが見つかったら、データ・クレンジングをしていきます。
方法としては幾つかあるのですが、ほとんどはリファレンス表の作成と、ルールの作成によって、データ・クレンジングをしていきます。

リファレンス表の作成は、地域で決められている登録方法が違っている場合に有効な方法です。
例えば、東京では番地を「x-xx-x」と決めて登録をしているのですが、神奈川では「xのxxのx」と登録されている場合などです。

ルールの作成は、年齢層という欄に「1:10歳~20歳」「2:20歳~40歳」「3:40歳~60歳」「4:60歳~80歳」「5:年齢不明」という欄があったとして、そこに「6」が入力されている場合などに有効な方法です。
これは、「Informatica Data Quality」に登録されている関数を使用し、余分なものを適切なデータに変更することが出来ます。
ノンプログラミングToolと書かれていますが、ここで若干のプログラミングちっくなことをします。

また、JOIN解析という事も出来ます。例えば、東京と神奈川のデータをJOINしてみて、2つのテーブルがどのような関係であるかをベン図で見ることが出来ます

「Informatica Data Quality」はWebからのAnalyst ToolとアプリケーションのDeveloper toolの2つで作業をすることができ、1つのリポジトリを使用するので、Webから変更したら、Developer toolも自動的に変更されるという形になります。

また、価格は以下のようになっています。
Informatica Data Quality : 4,200万円~
Japan Address Validation : 470万円 ~(毎月更新される住所データを含む 年間購読料)



0 件のコメント: