名寄せロジックとは?基本の仕組みを理解する
名寄せロジックとは、複数のデータベースやシステムに散在する同一企業・同一人物のレコードを統合するために使用される判定ルールやアルゴリズムの総称です。名寄せの精度はロジックの設計品質に直結するため、正しい理解が不可欠です。
BtoB営業の現場では、CRM・SFA・マーケティングオートメーション(MA)など複数のシステムにデータが分散しているケースが一般的です。経済産業省の調査によれば、日本企業の約70%がデータのサイロ化に課題を抱えており、顧客データの重複率は平均で20〜30%に達するとされています。この重複データを放置すると、同じ企業に複数の営業担当が別々にアプローチしてしまう、正確な顧客分析ができないといった問題が発生します。
名寄せロジックが解決する3つの課題
名寄せロジックは、以下の3つの課題を解決するために設計されます。名寄せの基礎知識とあわせてご覧ください。
- 重複排除:同一企業・同一人物のデータを1つに統合し、データベースの正確性を担保する
- データ統合:異なるシステム間のデータを結合し、顧客の全体像を把握できるようにする
- データ品質の維持:表記ゆれや入力ミスを検出・補正し、データの信頼性を高める
たとえば「株式会社SalesNow」「(株)セールスナウ」「SalesNow Inc.」は、表記が異なるものの同一企業を指しています。名寄せロジックは、このような表記の違いを吸収して同一レコードとして判定する仕組みです。SalesNowでは1,400万件超の企業・組織データベースを基盤に、法人番号をキーとした高精度な名寄せを自動で実行し、CRM/SFAのデータ品質を担保しています。
名寄せロジックの基本構造
名寄せロジックは、大きく分けて「前処理(正規化)」「照合(マッチング)」「判定(統合/非統合の決定)」の3層構造で成り立っています。
| 層 | 処理内容 | 具体例 |
|---|---|---|
| 第1層:前処理 | 表記ゆれの統一・不要文字の除去 | 「(株)」→「株式会社」、全角→半角変換 |
| 第2層:照合 | 照合キーによるレコード間の比較 | 法人番号一致、企業名の類似度算出 |
| 第3層:判定 | 一致度に基づく統合可否の決定 | スコア80%以上→自動統合、50〜79%→目視確認 |
この3層構造を正しく設計できるかどうかが、名寄せの成否を分けます。特に第1層の前処理(データクレンジング)は名寄せ精度に直結するため、最も重要な工程です。
名寄せで使われる5つのマッチングアルゴリズム
名寄せアルゴリズムとは、2つのレコードが同一かどうかを判定するための計算手法のことです。適切なアルゴリズムの選択が名寄せの精度と効率を決定づけます。
名寄せで使用される主なマッチング方式は5種類あり、それぞれ精度・処理速度・対応範囲が異なります。自社のデータ特性と目的に合わせて最適な方式を選択することが重要です。
1. 完全一致方式
完全一致方式とは、照合対象の文字列が一字一句同じ場合のみ「一致」と判定するマッチング方式です。法人番号や電話番号のように、表記ゆれが発生しにくい項目に適しています。
処理速度が速く実装もシンプルですが、「株式会社」と「(株)」のような表記ゆれには対応できません。完全一致方式を採用する場合は、事前の正規化処理が不可欠です。精度は正規化の品質に依存し、正規化済みデータであれば99%以上の精度を実現できます。
2. あいまい一致方式
あいまい一致方式とは、文字列の部分的な一致や類似パターンを許容して判定するマッチング方式です。編集距離(レーベンシュタイン距離)やN-gram類似度といったアルゴリズムを用いて、文字列間の類似性を数値化します。
たとえばレーベンシュタイン距離では、「セールスナウ」を「セールズナウ」に変換するために必要な編集操作(挿入・削除・置換)の回数を計算します。この場合、「ス」→「ズ」の1回の置換なので距離は1となり、高い類似度と判定されます。入力ミスや軽微な表記ゆれに強い一方、処理速度は完全一致より遅く、大量データの処理では計算コストが課題になります。
3. 類似度スコアリング方式
類似度スコアリング方式とは、複数の照合項目(企業名・住所・電話番号など)をそれぞれスコア化し、加重合計で総合スコアを算出するマッチング方式です。たとえば、企業名一致に40点、住所一致に30点、電話番号一致に30点を割り当て、合計スコアが80点以上であれば「同一」と判定するといった設計が可能です。
この方式では、項目ごとの重み付けを柔軟に調整できるため、業種やデータ特性に応じた最適化が容易です。SalesNowの名寄せ機能では、法人番号を最優先の照合キーとしつつ、企業名・住所・電話番号を組み合わせた類似度スコアリングを採用し、98%以上の名寄せ精度を実現しています。
4. ルールベース方式
ルールベース方式とは、人間が定義した条件分岐ルール(if-then形式)に基づいてマッチング判定を行う方式です。「法人番号が一致する場合は統合」「企業名が5文字以上一致し、かつ都道府県が同じ場合は候補として抽出」のように、ビジネスロジックに即したルールを定義します。
ルールベース方式の利点は、判定根拠が明確でブラックボックス化しない点です。金融機関や大手企業など、判定の透明性が求められる組織で多く採用されています。一方で、ルールの作成・メンテナンスに専門知識が必要で、表記パターンが増えるほどルールが複雑化するデメリットがあります。
5. AI・機械学習方式
AI・機械学習方式とは、過去の名寄せ事例を学習データとして、同一判定のパターンをアルゴリズムに自動学習させるマッチング方式です。ランダムフォレストやニューラルネットワークなどの手法が使われ、人間が想定しない表記パターンにも柔軟に対応できます。名寄せにおけるAI活用の詳細記事もあわせてご覧ください。
経済産業省「DXレポート2.1」でもAIを活用したデータ品質管理の重要性が指摘されており、近年導入企業が増加しています。ただし、十分な学習データ(一般的に数千件以上の正解ペア)が必要であり、導入初期のコストが高い点に注意が必要です。
5つのアルゴリズム比較表
| 方式 | 精度 | 処理速度 | 表記ゆれ対応 | 導入コスト | 適用場面 |
|---|---|---|---|---|---|
| 完全一致 | 高(正規化前提) | 非常に速い | 不可 | 低 | 法人番号・電話番号の照合 |
| あいまい一致 | 中〜高 | やや遅い | 可 | 中 | 企業名・住所の照合 |
| 類似度スコアリング | 高 | 中程度 | 可 | 中 | 複数項目の総合判定 |
| ルールベース | 高(ルール次第) | 速い | 一部可 | 中〜高 | 透明性が求められる場面 |
| AI・機械学習 | 非常に高 | 遅い(学習時) | 高精度で可 | 高 | 大量データ・複雑な表記ゆれ |
実務では単一のアルゴリズムだけでなく、複数の方式を組み合わせるハイブリッド型が主流です。たとえば、法人番号で完全一致を試み、不一致のレコードにあいまい一致を適用する段階的アプローチが効果的です。
名寄せロジック設計の5ステップ
名寄せロジックの設計とは、自社のデータ特性に合わせて最適な照合ルールを構築するプロセスです。設計の質がそのまま名寄せの精度と運用効率に直結します。
実務で成果を出す名寄せロジックを構築するには、以下の5つのステップを順に進めることが重要です。
ステップ1:データの現状把握と課題の特定
名寄せロジック設計の第一歩は、現在のデータベースの品質を定量的に把握することです。具体的には、レコード総数、重複の推定件数、表記ゆれの頻出パターン、欠損項目の割合を調査します。
一般的なBtoB企業のCRM/SFAでは、データの重複率が15〜30%程度存在するとされています。ある調査では、営業担当者がデータの重複確認や修正に1人あたり週平均2.5時間を費やしているという結果も出ています。この現状把握のフェーズを省略すると、設計したロジックが実データに適合せず、手戻りが発生します。
ステップ2:照合キーの選定
照合キーとは、レコード同士を比較する際に使用するデータ項目のことです。法人番号・企業名・住所・電話番号・メールアドレスのドメインなどが代表的な照合キーです。
照合キーの選定では、「一意性」「データ充足率」「表記安定性」の3つの基準で評価します。法人番号は一意性が高く最も信頼性の高いキーですが、データベースに法人番号が含まれていないケースも多いため、複数のキーを組み合わせる設計が現実的です。照合キーの設計については後述のセクションで詳しく解説します。
ステップ3:前処理ルールの策定
前処理ルールとは、照合の前段階でデータを統一的なフォーマットに整える正規化ルールのことです。「(株)→株式会社」「全角英数→半角英数」「スペース除去」など、業種やデータ特性に応じたルールセットを定義します。詳細は次のセクションで解説します。
ステップ4:マッチングアルゴリズムの選定と閾値設定
前述の5つのアルゴリズムから、自社のデータ特性と運用体制に合った方式を選定します。重要なのは閾値(スレッショルド)の設定です。
閾値が高すぎると本来統合すべきレコードを見逃し(False Negative)、低すぎると別の企業を誤って統合してしまいます(False Positive)。一般的には、類似度80%以上で自動統合、50〜79%で目視確認、50%未満で非統合とする3段階の閾値設計が推奨されます。テストデータで検証し、自社に最適な閾値を見つけることが重要です。
ステップ5:テスト・検証とPDCAサイクルの確立
設計したロジックの精度を測定するために、正解データ(ゴールドスタンダード)を用意してテストを実施します。精度指標としては、適合率(Precision)と再現率(Recall)、そしてそれらの調和平均であるF1スコアを使用します。
初回のテストでF1スコア90%以上を達成することは稀であり、通常は閾値の調整や正規化ルールの追加を繰り返して精度を高めます。SalesNowでは、1,400万件超のデータベースを基盤に名寄せロジックを継続的に改善しており、導入企業のCRM/SFAデータの重複を平均85%以上削減しています。
名寄せの前処理|正規化・データクレンジングの実践
名寄せにおける前処理とは、照合の精度を最大化するためにデータを統一的なフォーマットに変換する工程です。前処理の品質が名寄せ全体の精度の70%以上を決定するとも言われています。
BtoB営業のデータベースで頻出する表記ゆれには一定のパターンがあり、それぞれに対応する正規化ルールを設計することで、名寄せの精度を大幅に向上させることができます。名寄せとデータクレンジングの関係については、名寄せ・データクレンジングの詳細記事もあわせてご覧ください。
企業名の正規化ルール
企業名は名寄せにおいて最も表記ゆれが発生しやすい項目です。以下の正規化ルールを適用することで、照合精度が大幅に向上します。
| 正規化ルール | 変換前 | 変換後 |
|---|---|---|
| 法人格の統一 | (株)、(株)、㈱ | 株式会社 |
| 全角→半角変換 | ABC、123 | ABC、123 |
| 半角カナ→全角カナ | セールスナウ | セールスナウ |
| スペース除去 | Sales Now | SalesNow |
| 記号除去 | セールス・ナウ | セールスナウ |
| 大文字→小文字変換 | SALESNOW | salesnow |
これらの正規化ルールを適用するだけで、企業名の照合精度は平均で30〜40%向上するとされています。正規化処理は名寄せの土台であり、ここを手抜きすると後工程のアルゴリズムがいくら高精度でも成果が出ません。
住所の正規化ルール
住所データは、番地表記やビル名の有無、略称の使用など、多様な表記パターンが存在する項目です。住所の正規化は名寄せの精度向上に不可欠な工程です。
- 都道府県の省略補完(「渋谷区」→「東京都渋谷区」)
- 番地表記の統一(「3丁目5番地2号」→「3-5-2」)
- ビル名・階数の分離(照合対象から除外)
- 旧住所の新住所への変換
国土交通省が公開している住所マスタや、総務省の全国地方公共団体コードを活用すると、住所の正規化精度をさらに高めることができます。
電話番号・その他項目の正規化
電話番号はハイフンの有無や市外局番の記載方法でゆれが発生します。「03-1234-5678」「0312345678」「03(1234)5678」をすべて「0312345678」のようにハイフンなし半角数字に統一するのが基本です。
メールアドレスのドメイン部分(@以降)も有効な照合キーになります。個人のフリーメールではなく、企業ドメインであれば企業の特定に活用できるため、正規化の対象に含めることを推奨します。
照合キーの選定と組み合わせ戦略
照合キーの選定とは、名寄せロジックにおいて「どの項目を使ってレコードを比較するか」を決定する工程です。照合キーの設計が名寄せの成否を左右すると言っても過言ではありません。
法人番号を第一照合キーに設定する
法人番号とは、国税庁が全法人に付与する13桁の一意の識別番号です。2015年10月の法人番号制度開始以降、約600万社以上の法人に番号が付与されており、名寄せにおいて最も信頼性の高い照合キーです。
法人番号は1社に1つしか存在しないため、一致すれば同一企業と100%判定できます。SalesNowは1,400万件超の企業データに法人番号を紐づけて管理しており、ユーザーのCRM/SFAデータに法人番号を自動付与する機能を提供しています。法人番号が付与されたデータ同士であれば、完全一致方式だけで高精度な名寄せが完了します。
第二照合キー:企業名 + 住所の組み合わせ
法人番号がないレコードに対しては、企業名と住所の組み合わせが次に有効な照合キーとなります。企業名単独では同名の異企業(「田中建設」など)を誤って統合するリスクがありますが、住所を組み合わせることでこのリスクを大幅に低減できます。
企業名の類似度が80%以上かつ都道府県が一致する場合を「候補」として抽出し、市区町村まで一致すれば「高確度」とする段階的な判定が効果的です。
補助照合キーの活用
第一・第二照合キーで判定できないケースには、補助照合キーを活用します。代表的な補助キーは以下の通りです。
- 電話番号:企業の代表番号や部署直通番号で照合。SalesNowは部署直通番号を含む組織データを保有しており、より細かい粒度での名寄せが可能
- Webサイトドメイン:企業のコーポレートサイトのドメインで照合。グループ企業の判別にも有効
- メールアドレスドメイン:社員のメールアドレスの@以降で照合。Gmail等のフリーメールは除外する
- 代表者名:中小企業の場合、代表者名の一致は高い信頼度を持つ
照合キーの優先順位設計
実務では、照合キーに優先順位を設けた段階的マッチングが効果的です。
- 第1段階:法人番号の完全一致 → 自動統合(信頼度100%)
- 第2段階:企業名+住所の類似度スコアリング → スコア80%以上で自動統合
- 第3段階:電話番号またはドメインの完全一致 → 企業名類似度50%以上で統合候補に
- 第4段階:上記すべて不一致 → 新規レコードとして登録
この段階的アプローチにより、自動処理で解決できる範囲を最大化しつつ、誤判定のリスクを最小限に抑えることが可能です。
名寄せロジックの精度を高める運用のポイント
名寄せロジックの精度向上とは、一度設計したロジックを継続的に改善し、データ品質を維持・向上させる取り組みです。名寄せは一度実行して終わりではなく、継続的な運用改善が不可欠です。
定期実行のサイクルを設計する
名寄せの実行頻度は、データの流入速度に応じて設計します。展示会やセミナー後にリードが大量流入する企業であれば、イベント後に都度実行するのが効果的です。一般的な目安として、月次での定期実行を推奨します。
ある調査によれば、BtoB企業のCRMデータは月平均で3〜5%の新規レコードが追加されるとされています。月次で名寄せを実行することで、重複データの蓄積を防ぎ、データベースの品質を一定水準に保つことができます。
誤判定の分析とルール改善
名寄せ実行後には、誤判定の分析を必ず行います。False Positive(別企業を同一と誤判定)とFalse Negative(同一企業を見逃し)のそれぞれについて原因を特定し、正規化ルールの追加や閾値の調整に反映します。
たとえば、グループ企業を誤って統合してしまうケースが多発する場合は、「社名に『グループ』『ホールディングス』を含む場合は住所一致を必須条件にする」といったルールを追加します。このPDCAサイクルを回すことで、名寄せ精度は運用を重ねるほど向上します。
データガバナンスとの連携
名寄せロジックを組織全体で運用するためには、データガバナンスの枠組みとの連携が重要です。データの入力ルール(命名規則・必須項目)を明確化し、入力段階で表記ゆれを防止する仕組みを整備します。
入力段階での品質管理と名寄せロジックによる事後的な品質管理を組み合わせることで、CRM/SFAのデータ品質を高い水準で維持できます。SalesNowでは、データ入力時に法人番号を自動検索・付与する仕組みを提供しており、入力段階からデータの一意性を担保できます。
名寄せツールの活用で効率と精度を両立する
名寄せツールとは、前処理・照合・判定の一連のプロセスを自動化し、人手による作業工数を大幅に削減するソフトウェアです。手動での名寄せには限界があるため、ツールの活用が現実的な選択肢となります。
手動名寄せの限界
手動による名寄せは、データ量が1,000件を超えると急激に工数が増大します。10,000件のレコードに対して手動で名寄せを行う場合、1件あたり平均3分として500時間以上の工数が必要です。さらに人為的なミスの発生率も高く、一般的に手動名寄せの精度は70〜80%程度にとどまります。
名寄せツール選定の5つの基準
名寄せツールの比較も参考にしながら、以下の5つの基準で評価することを推奨します。
- 照合アルゴリズムの種類:完全一致のみか、あいまい一致・AI対応があるか
- 正規化の自動化範囲:企業名・住所・電話番号の正規化がどこまで自動化されるか
- CRM/SFA連携:Salesforce・HubSpotなど既存システムとのデータ連携が可能か
- マスタデータの品質:照合基盤となる企業データベースの網羅性と鮮度
- 運用サポート:導入後のルール調整や精度改善のサポート体制があるか
SalesNowは、国内1,400万件超の企業・組織データベースを照合基盤として、法人番号ベースの高精度な名寄せ機能を提供しています。Salesforce・HubSpotとのネイティブ連携に対応し、CRM/SFAのデータ品質を自動的に維持します。名寄せだけでなく、新規開拓リストの作成やアクティビティ通知まで一気通貫で対応できる点がSalesNowの強みです。名寄せツールの比較検討については、名寄せ・データクレンジングの詳細記事もあわせてご参照ください。
導入効果の目安
名寄せツールの導入により、以下のような効果が期待できます。
| 指標 | 手動運用 | ツール導入後 |
|---|---|---|
| 名寄せ精度 | 70〜80% | 95%以上 |
| 処理時間(10,000件) | 500時間以上 | 数分〜数時間 |
| 月次運用工数 | 40時間以上 | 5時間以下 |
| 重複データ削減率 | 50〜60% | 85%以上 |
SalesNowの導入企業では、名寄せ・データ整備の工数を1人あたり月8.6時間削減し、商談数2.3倍を達成した実績があります。アイムファクトリー社の導入事例でも、名寄せロジックの改善による成果が報告されています。名寄せロジックの設計から運用まで、ツールの活用により大幅な効率化が可能です。
実践事例:ディップが名寄せロジックの整備で受注の3割をデータ起点に転換した取り組み
データの重複・不整合でアプローチの最適化ができなかった
求人メディア「バイトル」などを運営するディップ(従業員2,766名)では、全国規模の営業組織が各拠点で個別にデータを管理していたため、同一企業が異なる名称・表記で複数登録されていた。名寄せが十分に行われないまま営業活動が進行し、同じ企業への重複アプローチや、過去のアプローチ履歴を活かせないケースが発生していた。
企業データベースの名寄せ機能でデータ統合を実施
同社はSalesNowの名寄せ機能を活用し、社内に散在していた企業データを法人番号基準で統合した。表記ゆれや旧社名の吸収合併も自動的に処理され、1つの企業に対して1つのレコードが紐づく正確なデータ基盤が構築された。名寄せのロジックをツールに任せることで、手作業での照合にかかっていた膨大な時間が削減された。
月160時間削減と受注の3割がデータ起点に
名寄せによるデータ整備の結果、月160時間の工数削減を実現し、受注全体の約3割がSalesNowのデータを起点としたアプローチから生まれるようになりました。名寄せロジックの整備が、データの信頼性向上を通じて営業成果に直結することを示した事例です。
まとめ
名寄せロジックは、「前処理(正規化)」「照合(マッチング)」「判定(統合/非統合)」の3層構造で設計します。マッチングアルゴリズムは完全一致・あいまい一致・類似度スコアリング・ルールベース・AI方式の5種類があり、自社のデータ特性に合わせた選択が重要です。
設計のポイントは、法人番号を第一照合キーとした段階的マッチング、徹底した前処理(正規化・データクレンジング)、そして定期的なPDCAサイクルによる精度改善です。手動での名寄せには精度・工数の両面で限界があるため、名寄せツールの活用が現実的な選択肢となります。
SalesNowは、1,400万件超の企業データベースと法人番号ベースの名寄せ機能を提供し、CRM/SFAのデータ整備から新規開拓まで一気通貫で支援しています。名寄せロジックの設計・運用にお悩みの方は、まずSalesNowの資料をご覧ください。
よくある質問
Q. 名寄せロジックとは何ですか?
名寄せロジックとは、複数のデータベースに散在する同一企業・同一人物のレコードを統合するための判定ルールやアルゴリズムのことです。企業名・住所・電話番号などの項目を照合し、一致度を判定して重複データを特定します。SalesNowでは1,400万件超の企業データベースを基盤に、法人番号ベースの高精度な名寄せを実現しています。
Q. 名寄せロジックにはどのような種類がありますか?
主な名寄せロジックには、完全一致方式、あいまい一致方式、類似度スコアリング方式、ルールベース方式、AI・機械学習方式の5種類があります。完全一致は高精度だが表記ゆれに弱く、あいまい一致やAI方式は柔軟性が高い反面、誤判定のリスクがあります。実務では複数の方式を組み合わせるハイブリッド型が主流です。
Q. 名寄せロジックを設計する際に最も重要なポイントは何ですか?
名寄せロジック設計で最も重要なのは、照合キーの選定と前処理(正規化)の精度です。法人番号のような一意識別子を第一照合キーに設定し、企業名・住所は事前に表記ゆれを正規化してから照合することで、名寄せ精度を大幅に向上できます。SalesNowは法人番号の自動付与機能を提供しており、入力段階からデータの一意性を担保できます。