コンプライアンス調査における文書レビューの最適化、パート2

最新の分析機能と継続能動学習を使い「否定的命題を証明する」には

この記事は内部調査や規制当局による調査のコンプライアンス管理に使用される文書レビュー手法を取り上げた2部立て記事のパート2です。パート1ではコンプライアンス調査の目標達成に向けて効果的な文書レビューを行うための手順をいくつかご紹介しました。そこで今回は要開示文書が存在しないということを統計的確実性で証明するため、つまり実質的に否定的命題を証明するための方法論について概説します。

「否定的命題を証明」することの意味

コンプライアンス調査の目的とは、ほとんどの場合、何らかのまとまったパターンを示す出来事を記述した重要文書を素早く探し出し、インタビューを効果的に行うために必要な要因を収集することにあります。そうした場合、文書は目的を達成するための手段に過ぎません。

ところが時には文書自体が目的になることもあります。例えば政府機関はよく民事調査請求(CID)を利用して法的責任に関する申し立ての調査を行います。そうした場合、文書自体が調査の目的になります。そうした文書には後々使い道があるのかもしれませんが、CIDに対応して行われる文書レビューの重点は要開示文書を探し出すことだけに置かれています。

しかし、どうしても要開示文書が見つからないという状況があるかもしれません。これが実際に何を意味するかというと、ほとんどの場合、所定の文書を1件ずつすべてレビューしても要開示文書が一つも見つからないということです。現在では収集文書が電子情報になっていて、全部で何百、何千、さらに数百万件に達することさえあるので、そんな莫大な量の文書を一つ一つレビューすると、費用と時間途方もなく膨らむ可能性があります。

もちろんそんなことをしなくても、今では最新の分析機能、継続能動学習、統計学を活用して、電子文書のごく一部だけをレビューし、収集文書の中には要開示文書がごく少数しか含まれていないので、全文書をレビューしたのでは費用や労力に見合った成果を得られない可能性があるということを証明することができます。「否定的命題を証明する」ということは、すなわち要開示文書をどんなに探しても一つも見つからないので、統計学を利用して要開示文書が実質的に存在しないということを証明するという意味なのです。

なぜ継続能動学習なのか

文書レビューの強化に使用可能なテクノロジー支援型レビュー(TAR)のプロトコルは主に3種類あります。単純受動学習、単純能動学習、継続能動学習です。これら3種類のプロトコルはそれぞれ基本的なTARアルゴリズムの訓練手順が異なっていて、否定的命題の証明に効力を発揮するのは継続能動学習(CAL)だけです。

以下に詳述する通り、否定的命題を証明する目的は、あらゆる努力を尽くして要開示文書を探し出すことにあります。したがってテクノロジー支援型レビューのプロトコルはその目的に向かって前進できるものでなければなりません。

レビュー期間を通じて要開示文書を効果的に探し出すことができるTARプロトコルはCALだけです。単純受動学習は無作為に選択した文書をレビュー担当者に渡してシステムの訓練を行います。単純能動学習は不確定サンプリングというプロセスでシステムを訓練しますが、その際、「関連する可能性が50%の」文書(関連がありそうな文書と関係がなさそうな文書のちょうど境界線上にある文書)をレビュー担当者に渡します。

一方、CALは主として適合性フィードバックというプロセスを使用して訓練用文書をレビュー担当者に渡します。適合性フィードバックはその時点で文書について判明している事項をもれなく利用して、要開示文書の可能性が最も高い文書を訓練用文書として選定します。

CALのプロトコルを使用すると、TARのアルゴリズムがより力を発揮します。このプロセス中にレビューされる文書はTARが要開示文書の可能性が高いと判断した文書ばかりです。そうした方法論を取ると、無作為に選択した文書や関連する可能性が50%の文書でシステムを訓練するという方法を取った場合よりはるかに効率よく目的に近づくことができます。だからこそ、CALは否定的命題の証明に不可欠なのです。

統計学を用いたレビュー範囲の設定

否定的命題の証明の第一段階は、まずレビューの誤差限界を、次いでプロセス中にレビューすべき文書の数を設定する統計的パラメーターを確立することです。ここで期待しているのは、どれほど文書をレビューしても要開示文書が発見されないということです。統計学的手法はそうした想定に立って、レビューする文書の数と誤差限界、換言すると収集文書内に存在する可能性がある要開示文書の数の関係を制御します。

統計学的限界の設定に厳格なルールはありません。それどころか、限界をどこに設定するかは要開示文書を発見する価値と費用の関係次第で決まります。要するに、決定の行方は費用と成果の比例関係をどう評価するかによって左右され、調査依頼者との協議によって定まることになります。

一例として要開示文書が1件も含まれていないと思われる500,000件の収集文書について考えてみましょう。二項式の統計的計算ツール、例えばstatpages.info/confint.htmlにあるツールを使用すると、収集文書の1%、2%、5%、10%のサンプルについて誤差限界を評価し、幅広い選択肢を検討することができます。

幅広い選択肢があると、様々なサンプル数ごとにコストと成果を比較した上で、レビューすべき文書数を依頼者と協議し、決定することができます。

分析機能を駆使して要開示文書に「類似した」文書のレビューを開始

否定的命題を証明することの隠れた目的は、実は考えられる取り組みをもれなく行って、収集文書の中に存在しないと考えられる文書を正確に特定することにあります。つまり、最終的にはTARツールが力仕事をしてくれると想定して、要開示文書を探すための分析的アプローチを徹底的に活用するということです。

また、どんなアプローチでも要開示文書を探し出すことはできないはずなので(収集文書の中に要開示文書がないはずなので)、レビューでは文脈的にみて要開示文書に近い文書を探すことに重点を置くべきでしょう。こうした「類似」文書は、最終的にCALによるレビュー訓練時のサンプル文書として役立ちます。

プロセスの最初にまずキーワード検索を行います。これに使用するキーワードは、文書中に存在する可能性がある要開示文書をうまく探し出せるように、慎重に選定します。この際、必ず依頼者にもキーワード選定を依頼します。それによって真正な要開示文書の発見確率が高まるばかりか、レビューの範囲が狭すぎるのではないかという依頼者の懸念も和らぐことになります。検索にヒットした文書が多すぎたら、その中からある程度無作為に抽出したサンプルをレビューして、要開示文書が存在しないことを統計的に立証します。

次に最新の分析機能を使い、要開示文書があると予想される特定部分を徹底的に調べます。例えばキーワードをより細かく設定して検索をかけ、特定のカストディアンが持っている文書を集中的に調査するといった方法が考えられます。またコミュニケーション分析を使用すれば、Eメールのやり取りのパターンの中から調査対象との関連の深そうなものを特定することができます。要開示文書の可能性が高まるような特定のファイルの種類(ExcelやPowerPointなど)があるかもしれませんし、付随するメタデータ、例えば文書の元々のファイルパスなどを念入りに調べて要開示文書を探すこともできます。

考えられる検索方法をすべて使い尽くし、レビューが必要と考えられる文書の20%から30%を調べ終わるまでこうした作業を続けます。こうすることで要開示文書が存在しないということがとりあえず立証され、CALアルゴリズムの訓練を開始出来るのです。将来的に実施方法の妥当性を説明する必要が出た場合いに備え、どんな取り組みをしたかということは必ず記録しておいてください。

真正な要開示文書の選別作業におけるCALの使用

分析機能によるレビューが終わったら、継続能動学習を使用して残りのレビューを完了します。CALアルゴリズムは分析機能によるレビューの間、収集文書全体を効率よく分析して文脈的に「類似」文書と似た文書を探し出し、途中で行われたコード付けに関する決定すべてから継続的に関連性の有無の判定方法を学習します。

次に1つまたは複数の人工シード文書を使用し、分析機能によるレビューでできたCALの訓練体制を最適化します。収集文書中に存在している開示文書の特定内容を反映した電子文書を作成します。その文書を収集文書にインポートし、文書の特定を容易にするための識別子(独自のベイツ番号など)を慎重に記載し、人工のシード文書に「要開示」のマークを付加します。これで要開示文書であることを示す具体的な言葉が明確な形で継続能動学習に与えられます。

キーワード検索のプロセスと同様に、人工のシード文書も依頼者に選定を依頼することができます。そうすることで、CALのアルゴリズムが依頼者の求めているものと文脈的によく似た文書を認知し、レビューの優先順位の上位に押し上げます。

CALのプロセス中にレビューする文書の一部は、開示が必要な人工のシード文書や分析機能によるレビューで特定された「類似」文書とは必ず文脈的に異なったものにしてください。本シリーズのパート1で述べたように、最新のTARツールには文脈的に多様な文書を探す機能が備わっています。この機能のおかげで収集文書全体が周到に調べられることになるので、否定的命題の証明には欠かせない機能です。

おそらくCALによるレビューでは要開示文書は一切見つからないでしょう。要開示文書は収集文書の中にはないはずだからです。しかし分析機能によるレビューと同様、要開示文書に近い文書には「関連性高」のコードが付加され、文脈的にみて要開示文書に近い文書があれば、継続的にそのランクを上げて、本物の要開示文書の発見の可能性を最大化できるようにしなければなりません。

レビューと統計学の理論で「否定的命題を証明」

レビュー中に要開示文書が一つも見つからないと仮定すると、基礎的統計を利用して実質的に否定的命題を証明することができます。もちろん収集文書をすべてレビューしなければ、その中に関連文書が存在しないということを確証する手立てはありません。しかし収集文書の中に要開示文書が存在したとしても、その数がきわめて少ないということは言えるはずです。上記の例でいえば、このプロセスを利用して25,000件の文書をレビューすれば、文書全体に含まれる要開示文書の数が100を超えることはないはずだということになります。

しかもそうした分析は純粋に無作為な統計的サンプルに基づいていますが、このレビュープロセスの中では、実は要開示文書を探すために、より慎重な試みが行われています。このプロセスは統計的手法と継続能動学習を活用し、CALのレビューで得られた文脈的に多様な文書を含めることによって、文書の中に要開示文書がある場合、それが発見される可能性を最適化します。レビューでは要開示文書が見つからなかったのですから、文書内の他の部分に要開示文書が存在する可能性は、基本的に無作為抽出した文書をレビューする場合よりもさらに低くなります。

以上を総括すると、このプロセスは文書全体をレビューせずに、その中に要開示文書が存在しないということを証明する手立てとして妥当だと言えるでしょう。しかもこの方法は無作為抽出した文書をレビューした場合より厳格なのです。

この記事は2018年8月6日付でCorporate Compliance Insightsに発表された記事を再掲載したものです。

Leave a Reply

Your email address will not be published. Required fields are marked *