Insight Predictを使ったレビューの効率性

Catalyst_Blog_Review_Efficiency_Using_Insight_Predict第一のケーススタディ

テクノロジー支援型レビュー(TAR)に関する多くの考察は、レビュープロセスで見つかる関連文書の割合(%)である「発見率」に焦点を当てています。発見率が重視されるのは、弁護士は関連文書を提出する上で合理的でバランスの取れた手順を踏む義務があるためです。実際に連邦民事訴訟法26(g)では、適正な審問後に弁護士が文書開示請求に対する応答及び文書開示が状況を勘案して合理的かつ均衡のとれたものであることを証明するよう求めています。

この点、50%未満の発見率では妥当ではなく、またバランスが取れていないように思われます。現在のTARの決定は、特に他の関連文書を見つけるための潜在的費用を鑑みた場合、発見率75%を達成することが妥当であると示唆しています。80%以上の高い発見率であればほぼすべての事案において妥当と判断されるでしょう。

しかしながら発見率はこのストーリーの半分を占めるにすぎません。どのレベルでも発見率の達成には費用が伴います。その費用は「精度」、すなわち発見率を達成するためにレビューされるべき非関連文書と関連文書の比率の観点から語ることができます。TARプロセスの精度は達成しなければならない発見率のレベルによって決定されるので、精度と費用は密接に関連します。

TARプロセスで関連文書を1つ見つけるにはいくつの文書をレビューする必要があるでしょうか?この質問への回答は1つではありません。TARプロセスの精度は文書の性質、使用するアルゴリズム、トレーニングプロセスの有効性、および測定時点で得られる発見率のレベルなどの複数の要素によって決まります。

たとえばいくつかの研究においてモウラ・R・グロスマン氏とゴードン・V・コーマック氏は関連文書1件を見つけるのに2件の文書をレビューすることを想定すべきであると示唆しています(発見率75%を達成することが前提)。これは50%の精度率に換算されますが、文書全体に見る関連文書の割合(以下「関連文書割合」という)が低いコレクションの場合においてはかなり良い数値に思われます。

この考察に寄与する取り組みの一環として、当社はクライアントがレビューにおいてCatalystの高度なTAR 2.0テクノロジーである、Predictを使用した3件のシミュレーションと12件のケースに注目しました。目的はパターン識別の可否を判断するために必要な精度率を計算することでした。その過程で、ケースの選択方法またはそれらの数のいずれかが原因で当社の小サンプルは統計的予測には適さないことが判明したのですが、これらの事案に基づく報告が彼らの考察に何らかの形で寄与できればと考え、調査を継続しました。将来、より多くの事案についてのデータを集約し実験を繰り返し行いたいと考えています。

プロジェクト

守秘義務契約の関係で案件やシミュレーションについてあまり詳細を語ることはできません。そのため、シミュレーション1からシミュレーション3、ケース1からケース12のようにタイトルをつけ、それぞれについてコレクション内の文書の数及び推定される関連文書割合をリスト化しました。さらに、クライアントからレビューすべき文書の数に関して聞かれることが非常に多いので、それぞれに精度も記載しました(すなわち関連文書を見つけるためにチームがレビューした文書数など)。

当社はこの統計を「Predict Efficiency」と呼び、一般にこの数値ができるだけ1.0(「完璧な」レビュー)に近くなるのが望ましいと考えています。たとえばケース1の関連文書割合は1%をかなり下回り、チームは1件の関連文書を見つけるために、それぞれ5.77件の文書をレビューしなければなりませんでした。一方、関連文書割合が42%と最も高かったシミュレーション2では、1件の関連文書を見つけるのに1.5件の文書をレビューするだけで済みました。シミュレーション2のほうが明らかに効率的ですが、これは関連文書1件を見つけるのにレビューすべき非関連文書の数が少なかったためです。

これに関して、これらのレビューのうち発見率75%を達成した時点でレビューを中止した事例は一件もないことに留意する必要があります。すべてが80%を上回り、多くが90%を超えていたのです。結果として発見率75%の時と比較して精度は低く算出されることが予想されます。

15のプロジェクトすべてにおいて(Predict Efficiencyとして)精度を算出するための方法は以下のとおりです。

数多くのケースがおおよそ2対1の精度率を示しました。これはグロスマン氏とコーマック氏の研究成果と連動しており、知る限りにおいては大差でキーワードレビューを打ち負かしています。

いくつかのケースでは5対1を上回るなどの高い数字を示しましたが、通常はそのような結果には理由があります。たとえば関連文書割合が極端に低いケース1、8、12のような案件では、妥当な精度を得るのは、決して珍しいことではありません。他のいくつかのケースでは75%や80%の発見率を優に超えてもなおレビューを続けたため、最後のバッチにはほとんど関連文書が残っていませんでした。

これらのケース全体の平均は3対1を少々下回った程度で、ぎりぎり37.5%の精度率を維持しています。これはチームにとって良い結果でしょうか?リニアレビューと比較すると疑問の余地がありません。各ケースではチームは母集団のほんの一部のみをレビューするだけで、要求される以上の高い発見率に達することができました。リニアレビューと比較するとこれは大幅に良い結果です。キーワード検索で同じレベルの発見率を達成するには、はるかに多くの文書をレビューする必要があります。

もうひとつの別の見解を述べます。ここでは特に3つのシミュレーションを実際のケースレビューと比較します。シミュレーションを行った各レビューは、関連文書1件を見つけるためにレビューを要する文書の数という点では平均を下回っており、3件のうち2件はすべてのプロジェクトで最高の結果を示しました。

しかし結局のところ、これは驚くべきことではないかもしれません。例えば実際のレビューでは不正確又は不整合なコーディングに悩まされますが、これはQCプロセスを通じて修正されます。つまり、アルゴリズムはレビュープロセス中に誤った学習をし、その後QCを通じて修正されるということを意味しています。シミュレーションはレビュー終了後、最終のコーディングの判断に基づくため、アルゴリズムに伝えられるコーディングの決定は全て正確であり、最適な教育が行われたということができます。改めて申し上げますがこれは統計的解析ではありません。ただしPredictレビューを実行する際に予想される結果への識見にはなるでしょう。

結論

最初に申し上げたとおりこれは決して予測効率性の統計的解析ではありません。ただしこれら少数の例からもいくつかの傾向を観察できます。第1に、実際のPredictレビューはコーディングエラーや不整合、品質管理基準、関連性ドリフトなどがあり、揺らぎのない正確なコーディング判断が適用されるシミュレーションレビューよりも効率性が劣る可能性があり得ます。完全で、綿密に検討されたレビューのほうが効率性は高いことは当然でしょう。第2に、関連文書割合が極端に少ないコレクションは、その割合が妥当なコレクションに比べて効率性が低くなりがちです。最後に、本稿で考察した数字はこれらの案件に固有のものでなく、Predictに関する一般的な考察に沿うものです。したがって、より正確な統計学的評価がない場合は、Predictを使った高レベルの発見率の達成に向けてレビューを計画する際に、予測を導くための経験則としてこのデータを使用することができるでしょう。

Like this Article? Subscribe to Our Feed!

Leave a Reply

Your email address will not be published. Required fields are marked *