Menu

CRMにおけるデータクレンジング(データクリーニング)の重要性

今回は、顧客情報の管理ソリューションを提供しているピツニーボウズ・ソフトウェア株式会社の北邨秀治さんに「データクレンジング」に関する記事を寄稿いただきました!

pitney-bowes-softwareピツニーボウズ・ソフトウェア株式会社
1920年に郵便業界からスタートしたピツニーボウズは、グローバルテクノロジー カンパニーとして、企業の顧客施策に関わる様々な業務を、デジタルとアナログ、双方の側面から支援しています。

CRMシステムは、「顧客データを有効活用し、顧客ロイヤルティーを高めることで生涯価値を最大化する」ことを目的として導入されてきました。「顧客データを有効に活用する」というと、自分たちの業務を進める上で都合が良いように利用することだけが目的となりがちです。例えば、「顧客データが汚れているけど、少しくらい重複してメールやDMを送付しても大きな問題ではない」と考えるかもしれません。しかし、本当にそれでいいのでしょうか?

重複してメッセージを受け取ったお客様は、「この会社は個人情報を正しく管理していないのではないか?だから情報漏えいしても気づかないのではないだろうか」と不安に思うかもしれません。少なくとも、その企業に良い印象をもつことはないでしょう。つまり、誤記や重複が多い汚れている顧客データをそのまま使うと、顧客ロイヤルティーを高めるための活動として実施したプロモーション活動が、逆にロイヤルティーを下げてしまうということになりかねないのです。そう考えると、顧客データが汚れていると費やした顧客獲得コストが無駄になるだけでなく、生涯価値を失ってしまうリスクがあるということになります。

そこで重要となるのが顧客データの「データクレンジング」です。
データクレンジングとは、データの有効活用の阻害要因となる、誤記、表記の揺れなどを削除、修正したり、重複したデータを取り除いたり統合することで、データの品質を高めることを意味します。

データクレンジングで最も重要なのは「住所」と「氏名」のクレンジング

データクレンジングの中でも重要かつ手作業では困難なのが、住所と氏名のクレンジングです。

例えば、下記の顧客データは同一人物なのですが、目視やExcelのマクロを使って、これらが同一データであることを判定するのは非常に困難であることがわかると思います。

斉藤隆 浦和市常盤6丁目4番4号 ミカサマンション201号室
齋藤隆 埼玉県さいたま市浦和区常盤6-4-4-201

住所のクレンジング

住所の場合には、都道府県名が欠落していたり、丁目番地の書式を統一することはもちろんですが、それ以外にも以下のような問題があります。

1.市区町村同号前の古い住所が含まれている

住所表記が変わってしまった場合ですが、上記の例では「浦和市常盤」は市区町村統合前の古い住所表記のものであり、「さいたま市浦和区常盤」は市区町村統合後の新しい住所表記になったものです。つまり、これらは同一住所を表していますが、単純な比較ではこれらは同一とは判定できません。解決するには、古い住所に該当する新しい住所へ変換する必要があります。

2.市町村内の行政区画の大字/字の有無が統一されていない

住所に大字/字が含まれる場合、これらは住所としては無くても構わないために、省略されている住所とそうでない住所が混在しているケースがあり、この場合も単純な比較では同一と判定できません。

3.部屋番号が丁目番地に続けて入力されている場合と、独立した項目として入力されている場合がある

部屋番号については、集合住宅の場合、丁目番地に続けて部屋番号が記載されている場合と、そうでない場合があります。また、マンション名などが記載されている場合もあるでしょう。
このような場合、部屋番号を無視して判定するか、部屋番号として識別して判定するかのどちらかの方法でなければ、同一住所かどうかを判定できません。しかし部屋番号を無視しようとしたとしても、「XX町1-2-3」と記載されている住所が「1丁目2番3号」なのか「1番地2号3号室」なのかを識別できなければ、部屋番号を取り除くこともできません。この問題を解決するには、町単位の住所表記パターンに関するデータが必要となります。

このように住所データのクレンジングで上記の課題を解決するには専用の住所辞書を使って処理しなければ実現できないケースが多々あります。

氏名のクレンジング

氏名の場合には「異体字」という問題があります。これは同じ“さいとう”という姓であっても、「斉藤」「斎藤」「齋藤」と幾つかの異なる字体(異体字)が存在しており、同一人物なのに異なる字体の文字が使われていることで、単純な文字列比較では同一人物であると判定できないという問題です。これを解決するには、異体字辞書を使って異体字を標準文字に変換した上で比較する必要があります。

さらに、重複判定方法によっては、同一住所かつ同一姓の場合には名が異なっていても同一家族として扱いたいという場合があります。この時、もし姓名が連結されて1つの項目に入力されていると、姓名を姓と名に分割しなければなりませんが、これを実現するには姓名辞書を使って姓と名を識別する必要があります。

以上のように、一言で「データクレンジング」と言っても、手作業やExcelレベルでは実現できない複雑な処理がいろいろとあります。

データクレンジングサービスの利用が最適

そこでお勧めなのが、専用の住所辞書や姓名辞書を活用した高度なクレンジング処理を、利用件数分の安価な課金費用で利用できる「クラウド型のデータクレンジングサービス」の活用です。 

Spectrum オンデマンド・サービス

201_kuramoto_01

従来は、新しいデータが発生する度にその書式を整形し、既存のデータ中に重複データが存在しないかどうかを定期的にチェックすることが大変で作業を怠りがちでしたが、このサービスを使うと、既存のExcelファイルで管理しているデータがあれば、お客様自身がオンラインでクレンジング処理を実行でき、短時間で結果が得られます。

専用のツールやサービスを利用すると、コストはかかりますが、間違いのない名寄せができますし、名寄せしたいデータ量がExcelで処理できるレベルを超える場合など、ぜひご利用いただければと思います。

※記載されている内容は掲載当時のものであり、一部現状とは内容が異なる場合があります。ご了承ください。

PageTop
PageTop