Ask Catalyst:否定的な命題、つまりある文書が存在しないということを証明するにはどうすればよいのですか?

[編集者より:本記事は「Catalystに質問」シリーズの新しい投稿記事です。同シリーズではeディスカバリの検索やレビューに関する質問にお答えしています。詳細を知りたい方、あるいは質問のある方はこちらをご覧ください。]

今回は以下の質問を取り上げます。
Twitter_Ask_Catalyst_Thomas_Gricks

「Catalyst InsightとInsight Predictを使って否定的な命題、つまりある文書が収集したデータの中に存在しないということを証明するにはどうすればよいのですか?」

今回の回答者はプロフェッショナル・サービス担当マネージング・ディレクターのトーマス・グリックスです

否定的な命題を証明するのは難しい。これは誰もが知っていることです。所定の収集文書の中にある文書が含まれていないということを証明する時も例外ではありません。しかし事前にしっかり計画を立てて粘り強く実行すれば、Catalyst InsightとInsight Predictの一体型最新式分析ツールを利用することで、ある文書が存在しないということを一定の確度をもって立証することができます。

ところで質問をされたのはなぜでしょうか。どうしてある文書が収集文書の中にないということを証明しようと思われたのでしょうか。また、それが証明できると訴訟やその他の文書開示が必要な場面でどんな利点があるのでしょうか。

その答えは、質問の視点を少々変えてみるとわかります。ご質問いただいた方が本当に知りたいのは、レビューする必要がある文書の数はどのくらいかということ、さらにどんな方法をとれば開示要求をしてきた当事者に収集文書の中に要開示文書がないということを納得させられるのか、ということではないでしょうか。もちろん収集文書をすべてレビューすれば、該当する文書がないということは必ず証明できます。しかしもっとずっと少数の文書をレビューしただけで同じ結論を導けるなら、なぜ何千何万という収集文書をすべてレビューする必要があるでしょうか?

弊社がこの問題に初めて直面したのは、あるクライアントから行政調査が入ったので補足開示をしてほしいという依頼を受けた時でした。そのクライアントは、レビューすべき文書は40,000点以上あるが、その中に要開示文書は絶対にないというのです。Catalyst InsightとInsight Predictの一体型最新式分析ツールを利用したおかげで、そのクライアントはわずか6,000点の文書をレビューしただけで、収集文書の残りの部分の中に含まれている要開示文書の比率は最大でも0.04%(1万分の4)に過ぎないということを立証することができました。行政側も34,000点以上ある残りの文書をレビューして最大でも15点しか見つからない文書を探すのは無意味だと納得してくれました。

この手法の妥当性がさらに高いのが、訴訟の証拠書類のレビューです。とりわけアメリカ国内の民事訴訟では新しい連邦民事訴訟規則のおかげで比例原則の考え方が実質的に文書開示手続の前提条件になっており、レビューの基準が合理的調査と同じ程度のものになってきているので、なおさらそれが言えます。要開示文書が存在しないということを統計的に立証する能力は、これからのeディスカバリで時間と費用を制御していくうえで不可欠な能力なのです。

目標は妥当と思われる手段をもれなく使用すること

ではその仕組みとはどのようなものでしょうか。どうすればCatalyst InsightとInsight Predictを使って収集文書の中に要開示文書が存在しないということを証明することができるのでしょうか。

それに答えるには、そのプロジェクトの最終的かつ包括的な目標が、妥当な手段をもれなく使って収集文書の中の要開示文書を実際に探し出すことにあるということを、最初に十分に理解し、認識しておく必要があります。そうした認識がなければ、自らの責任を果たし、開示要求に応えて合理的調査を行うことはできません。合理的調査を行うという責任さえ果たせば、レビューの際に得られた統計的データとその実質的な意味合いを考えるだけで後は何とかなるのです。

そのことを念頭に置いて、計画のフェーズを始めます。最初に行う作業は、比例原則の議論の根拠となり、それを満たせるだけの統計的正確性とはどの程度なのかということを事前予想することです。この作業には厳密なルールはありませんし、比例分析の結果を左右するのはコストだけではありません。しかし紛争の性質や開示要求をしてきた当事者の事情、管轄権がわかっていれば、代替的な統計手法を検討し、どの程度の正確性で比例原則に関する異議に対応できるようにすべきかを判断することはできるはずです。

具体的な例をあげるため、開示が必要なものは一つも含まれていないはずの収集文書が50,000点あるとしましょう。どの訴訟や行政調査の比例分析をするのかを特定せずに、検討が必要と思われるサンプルの数を桁数を変えて3種類想定し、分析がどんなふうに働くかみてみましょう。収集文書の数は50,000点ですから、サンプル数が100点、1,000点、10,000点の場合が考えられます。比例原則の経済的な面について、業界のおおよその平均値であるレビュー済み文書1点あたり1ドルで計算すると、サンプルのレビューにかかる費用は最大で10,000ドルとなり、節減額は40,000ドル以上になります。

最初に二項式の統計的計算ツール、例えばstatpages.info/confint.htmlのツールなどを利用して、上記のサンプルをレビューしても要開示文書が見つからなかった場合にどんな成果が得られるかを判断します。そうした場合、(一つも見つからなかったので)要開示文書の割合の推定値はゼロになるでしょうが、収集文書全体に含まれる要開示文書の最大数の上界を試算することはできるでしょう。おそらく信頼水準を95%にし、残りの確率を上界に設定すれば十分です。

桁数を変えた3種類のサンプルについて、要開示文書がサンプル中に見つからなかったことを踏まえ、収集文書中に存在する可能性のある要開示文書の最大割合を計算すると、それぞれ2.95%、0.30%、0.03%になります。これはつまり、統計的にみて収集文書全体の中に存在する可能性のある要開示文書の最大数は、サンプル数が100点の場合は1,475、1,000点の場合は150、10,000点の場合は15だということです。

これで収集文書の潜在的価値が比例原則と合理的調査という2つの観点からどの程度のものになるかが感覚的につかめます。ところで、それまでの開示の状況次第では、1,475点の要開示文書を追加提示するのは重要なことかもしれませんし、あるいは150点でも重要かもしれません。さらに言えば、対象を絞り込まずに集められた大量の収集文書の場合、該当文書含有率が1%未満しかないことは少しも珍しいことではありません。これはつまり、サンプル数が1,000点の場合の要開示文書の予想数と同程度の水準です。しかも100点という少数のサンプルを1回レビューしただけで50,000点もの収集文書の調査を妥当に行ったと主張するのは無理があるかもしれません。一方、10,000点の文書をレビューすれば、十分な妥当性をもって収集文書の特性を把握したと言えるでしょう。とりわけ収集文書全体の中に含まれている可能性がある要開示文書の数が15点以下なので、なおさらそう言えます。サンプルの数、つまり否定的な命題を証明するために最終的にレビューしなければならない文書の数を判断するには、こうした要因がすべて絡んでくるのです。

さらに、確認するサンプルの数量をある範囲に限定するという方法は比例分析の費用面の評価を進めるうえでも有用です。例えばサンプル数が100点の場合、要開示文書の可能性がある文書は34点中に1点なので、該当文書1点あたりの平均費用は34ドルということになります。対照的に、10,000点のサンプルを分析する場合、要開示文書の可能性がある文書は3,333点に1点なので、要開示文書1点を探し出すためにかかる平均費用は3,000ドルということになります。状況を考えるととても容認できる額ではありません。

結局のところ、成果に見合った費用や労力をかけて適切な量の調査を行うためにどのくらいの数の文書をレビューすべきかということを判断するには、上記の要因すべてに加え、相手方の申し立てや文書開示要求の性質によって個別に異なる他の要因が絡んできます。では議論を進めるため、検討の結果、10,000点の文書をレビューしても労力や費用の面で問題ないという結論に達したと想定してみましょう。すると最初の問題、すなわちある文書が存在しないことを証明するには何点の文書をレビューする必要があるかという問題が解けます。

使えるツールはすべて使う

質問をいただいた方がこれ以降にすべきことは、使えるツールをすべて使い、考えられる取り組みをすべて行って、データベースの中に存在しないと思われるのと同じタイプの要開示文書を探すことです。

この作業は、目標を念頭に置いておかないとストレスのたまるものになるかもしれません。弁護士は弁護が仕事ですから、要開示文書を探すのは好きなのです。要開示文書はすべて宣誓証言や審理で立派な証拠になり、すぐに仕事の満足感をもたらしてくれるのですから、やりがいのある仕事だと言えなくもありません。しかしここでは要開示文書がないと考えているのですから、これからレビューする10,000点ほどの文書の中には要開示文書が一つもあってほしくない、ということを理解しておかなければなりません。

そこでまず、要求されたものと正確に合致する文書をできるだけ効率よく探し出せるように設計された分析方法を実施します。慎重に吟味したキーワードで検索を行い、検索にヒットする文書が多過ぎたら、ヒットした文書の中から100点か1,000点のサンプルを抽出してレビューし、収集文書の中に含まれている要開示文書の割合がどれほど低いかを統計的に立証します。さらに要求側当事者から提示されたキーワードでも同様の作業を行います。その際、使える分析ツールをすべて使って、収集文書の広範囲な部分集合を作成します。要開示文書が一つでも存在するなら、それはその部分集合に含まれていなければなりません。

例えば主要なカストディアンに関するものを重点的に探す、Catalyst Insightのコミュニケーション分析機能を利用する、特定の種類のファイルに注目するといった場合が考えられます。それから思いつく限りのあらゆる手法を使って要開示文書を探します。要開示文書を探し出すのに適切だと思う検索方法を、レビューした文書の数が少なくとも数千点になるまで何度も繰り返します。この時、ご自分のしたことを必ず記録しておいてください。終わった後でどんなことをやったのか説明して妥当性を証明するように求められるかもしれないからです。

この分析手法を駆使したレビューが終わったら、Insight Predictを使用したレビューに取り掛かります。Insight Predictのプロジェクトを作成しますが、このプロジェクトの文書の中で、少なくとも皆さんが探そうと思っているものに近いものには、「決定」フィールドにプラスの値が書き込まれていなければなりません。例えば、以前からある「レビュー状況」フィールドを利用して要開示文書を探す場合、要開示を表すのはプラスの値で、開示不要を表すのはマイナスの値、値がプラスでもマイナスでもなければ要否どちらでもないというのが普通です。ここに別のコーディング用の値、おそらく「近似」という名前のものを書き加えます。そうするとInsight Predictは皆さんが探しているものとできるだけ近い文書をランクの上位に押し上げざるを得なくなります。

次に、いちばんふさわしいシード文書を使用してランク付けを開始します。おそらく分析手法を駆使したレビューによって、正真正銘の要開示文書でなくても、それに近い文書群が特定されているはずです。もし特定されていれば、その文書群を利用してランク付けを始めます。もしランク付けを始めるのにふさわしい類似文書がなければ、1点以上の要開示文書を真似てつくった疑似的なシード文書(またはシード文書群)を作成します。なるべくうまく細工をして、レビューで探し出そうとしている文書を再現してください。以上のサンプルを利用して、そうしたシード文書に「近似」コードを付加します。これで探しているものと似た文書が常にレビューとコード付けすべき文書のランク上位に上がってくることになります。

ご理解いただきたいことは、Insight Predictのレビューは不成功に終わる可能性が大です。収集文書の中に要開示文書はないと想定しているわけですから。つまり、Insight Predictでレビューする文書の大多数には、事実上「開示不要」のコード付けがなされるということになるのです。Insight Predictが探しているものによく似た文書を出してきたら、それには「近似」コードを付けて、ランク付けの精度を高めてください。もちろんInsight Predictでレビューを行っている間に要開示文書が見つかったら、その文書にはプラスの(「要開示」など)コード付けをしなければなりません。その場合、要開示文書がないことを証明するという目論見は失敗に終わることになります。もしそうなったら、Insight Predictのレビューを通常の方法で続けて、収集文書の中に他に要開示文書がないか探します。

Insight Predictを使用してある文書がないことを証明する場合、必ず文脈多様性機能を利用して収集文書の中に未知の文書がないかどうかを継続的に探査してください。文脈多様性機能を利用すると、収集文書の中にどんな内容の文書があるかを最大限に把握できるようになりますので、収集文書中の様々なテーマの文書群を注意深く調べることができます。

先程あげた例でいえば、Insight Predictを使用して十分な数の文書をレビューし、分析手法を駆使してレビューした文書の数とあわせて、統計的目標値である10,000点のレビューを終えます。これで数千点の文書をレビューしても要開示文書が一つも見つからないだろうといえることになります。上述の通り、以上のやり方は直感とは正反対の方法論ですが、ある文書がないということを証明するという目標には合致した方法論です。

皆さんが10,000点の文書をレビューして要開示文書が1点も見つからなかったと仮定すると、実質的にはその基礎的な統計を利用して要開示文書の非存在を証明することができます。もちろんすべての文書をレビューしない限り、収集文書の中に要開示文書がないということを本当の意味で証明したことにはなりません。それでも10,000点の文書をレビューしても要開示文書が見つからなかったのなら、収集文書全体の中にある要開示文書は15点以下で、しかもそのうち1点を探すための費用が3,000ドルに達するということを統計的に示すことができます。さらに、無作為に選んだ10,000点の文書をレビューしなくても、分析手法とInsight Predict、さらに文脈多様性機能を利用すれば、実はもっと慎重に要開示文書を探すことができます。たいていの場合、それだけで成果に見合った費用や労力をかけて程よい調査を行うという義務は間違いなく果たせますので、それ以上レビューを要請する必要はありません。実質的には、これである文書がないということを証明できたのです。

Like this Article? Subscribe to Our Feed!

Leave a Reply

Your email address will not be published. Required fields are marked *