カタリストのアルゴリズムは継続的に学習と調整を行い、成果の改善と費用の削減を実現

Insight Predictは、継続能動学習(CAL)という機能を備えた世界初のプレディクティブ・ランキング・エンジンです。レビュー担当チームが行った判断を継続的にシステムに取り込み、その判断を使用して対象文書の再ランク付けを絶え間なく行います。

Insight Predictは、初期のプレディクティブ・ランキング・エンジンと異なり、参照用文書も専門家によるシステムの訓練も必要なく、収集された文書を順次アップロードしても問題はありません。継続能動学習エンジンを利用すると、関連文書をより多く、より短時間で、しかもより少ない労力と費用で見つけることができます。

CALのパフォーマンスの高さに定評

CALの性能が他の形態をとるテクノロジー支援型レビュー(TAR)より優れているという見方は、世界的に有名なeディスカバリの研究家、モウラ・R・グロスマン氏とゴードン・V・コーマック氏が2014年に発表した査読付き論文で確立されました。

両氏はCALを、初期のプレディクティブ・コーディング(別称、第一世代TAR)で採用されていた二つのプロトコルである単純受動学習(SPL)や単純能動学習(SAL)と比較し、CALはSPLやSALより性能が優れていて、第一世代TARのプロトコルに従って作業をした場合に発生しがちだった数々の問題を回避することができると論づけました。

第一世代TARプロトコルの限界

image00

第一世代TARを利用するには面倒な手順を踏む必要があり、実際の事案への適応性には限界がありました。

  • 該当訴訟案件の専門家(SME、多くの場合はシニア弁護士)が無作為に選んだサンプル文書(500点強)のレビューとタグ付けを行い、訓練用の参照文書として使用。
  • SMEは次に、SPLかSALを使用して訓練プロセスを開始し、文書をレビューし「関連」または「非関連」のタグを付加。
  • TARは、その付加情報を使用して他の関連文書を発見しランク付けする分類アルゴリズムを作成。
  • アルゴリズムは参照文書に対して試験適用され、その結果次第では、SMEがアルゴリズムの改善に資するよう追加訓練を実施する必要が出てくる可能性がある。

システムへの訓練とアルゴリズムの試験適用は、分類指標が「安定」するまで続けられます。TARエンジンはその後、アルゴリズムを対象文書全体に対して適用させます。その後、SMEはランク付けされた文書から無作為に選ばれたサンプル文書をレビューし、アルゴリズムが関連文書をどの程度ランキングの上位に並べ替えられているかを判断することができます。サンプル文書は、レビュー業務の管理担当者が適正な文献検索率を実現するのに何点の文書をレビューする必要があるかを判断する際にも役立ちます。

訓練は最初相互作用的に行われますが、そのプロセスは無限には続きません。分類指標が参照文書の中にある500点強の文書について可能な限りの学習を終えると、それで終わりです。あとはアルゴリズムにまかせて、もっと大量の対象文書のランク付けを(何時間もかけて)行わせ、文書を「要レビュー」と「レビュー不要」という2つのカテゴリーに分類します。

第一世代TARの実用上の問題

こうした第一世代TARのプロトコルは、実世界の証拠開示手続に適用すると実用上の問題が多数存在することに気づきます。

  • 訓練の実施が1回のみ:レビュー担当チームが文書のレビューを一旦始めてしまうと、その判断をシステムにフィードバックして分類/ランキングするためのアルゴリズムを改善する手立てがない。
  • SMEが必要:シニア弁護士に何千点もの文書のレビューを依頼して参照文書一式をつくり、それを用いてシステムへの訓練を行い、ランキングの結果を検証するのは、多額の費用がかかり、多くの場合、遅延が発生する。
  • 順次アップロードに未対応:eディスカバリにおいては文書が少しずつ収集されるのが一般的だが、第一世代TARは文書の順次アップロードに対応していない。文書を新たに追加すると、参照文書一式のみに基づいて得られた最初のランキング結果がもはや新しい文書全体を反映しないこととなり、システムへの訓練をやり直す必要が出てくる。
  • 関連文書の割合が少ない文書群には無効:第一世代TARは、関連文書が含まれる割合の低い文書群に対しては有効に機能せず、システムの訓練だけのために時には何千点もの文書をレビューする必要がある。

第二世代TARと継続能動学習

上記した実用上の問題は、弊社の第二世代TARエンジンであるInsight Predictを使用することで解消します。Insight Predictは、継続的ランキングと継続能動学習を利用してレビューにかかる時間と費用を削減し、業務の流動性と柔軟性を向上します。

継続的ランキング

Insight Predictは、何百万点もの文書を数分でランク付けすることができます。文書を収集してシステムに読み込ませる度に全ての文書をランク付けし、作業が進むにつれてレビュー担当チームが下した新たな判断を継続的にアルゴリズムに組み込んでいきます。こうした特性によって、第一世代TARシステムに特徴付けられる数々の問題が解決されました。

  • 参照文書が不要に:訓練の成否は文書全体のランキングの変動によって決まり、無作為に選んだ限られた数の文書の特性により決定づけられることはありません。文書のランキングが変動しなくなったら、それは少なくとも追加文書が新たにシステムに取り込まれるまでは、分類/ランキング用のアルゴリズムが一定に落ち着いたということを意味します。
  • 順次アップロードに対応:Insight Predictは訓練に参照文書を使用しないので、文書を順次アップロードしてそれをランキングに反映させていくことができます。新たな文書が追加されても、単にそれが継続的なランキング・プロセスの一部としてシステムに取り込まれるだけです。
  • 関連文書の割合が低い文書群にも効力を発揮:手持ちの関連文書で訓練を開始してください。レビューが進行するにしたがって、より関連性の高い文書がランキングの上位に配置され、公判担当チームに素早く関連文書を引き渡すことができます。

新しい文書のレビューが終わるたびに、その結果がランキングに反映されていきます。

 image03

上図は、Insight Predictを例にとって、レビュー業務の途中で新たな文書が追加された場合に、それによってランキングの変動幅がどう変化するかを図示したものです。追加直後は新たに追加された文書が文書全体に適応されるため、ランキングの変動が大きくなっています。しかし、その後は文書全体を代表するサンプル文書が特定されてレビューが進んでいき、ランキングの変動幅は小さくなり、安定化していきます。

継続的能動学習

継続的能動学習には2つの側面があります。まず、「継続的」であることです。システムの訓練は、レビューが完了するまで停止しません。次に、「能動的」であることです。コンピュータは、レビューの効率をできる限り向上させることを目標(これによりレビューの総費用が減少します)に、レビュー担当チームに文書を供給します。

レビュー担当者が作業を進めるにつれ、その判断がシステムにフィードバックされ、次回のランキング処理でシード文書として使用されます。レビュー担当者が新たにレビューすべき一纏まりの文書を要求すると、システムは最新のランキングに基づいてレビュー用の文書を提示します。システムが学習を1回だけで止めてしまった場合と比較して、レビューの結果が反映されてランキングが改善された分だけより適正度の高い文書をレビュー用文書として受け取ることができるのです。

ContinuousLearning

レビュー担当者は実質的にシステムの訓練担当者にもなり、訓練担当者はレビュー担当者にもなります。訓練がそのままレビューになり、レビューはそのまま訓練になると言ってもよいでしょう。

継続能動学習の機能

継続的能動学習のプロセスはシンプルかつ柔軟です。基本的なステップは以下の通りです。

まず、関連文書をできるだけたくさん探し、システムに読み込ませて最初のランキングを行う。関連文書が一つも無い場合でも、レビュー担当チームは作業を先に始めることができる。

チームにレビューを開始させる。レビューチームは、関連性がきわめて高い文書を割り振られる他、偏向を回避するためにコンピュータが文脈多様性に基づき無作為に選んだその他の文書も手にすることになる。

レビューチームによるレビュー作業が進行する中で、シニア弁護士が時間のあるときにレビュー済みの文書のごく一部分を選んで品質管理を行う。カタリストの品質管理アルゴリズムは、誤ったタグが付けられている可能性の高い文書を品質管理担当者に提示する。

関連ある文献の捕獲率が目標値に達するまでこの作業を続ける。進捗具合の確認は、進捗状況チャートおよびシステムが不定期に採取したサンプルが生成するイールドカーブを見ながら行う。

この処理手順はほぼ思い通りの手法で進めることができます。もしタグ付けをすませた文書が最初から何千点も存在するなら、まずそれから始めても構いません。ほんの少ししかないならそれでも構いませんし、あるいは全くなくても構いません。レビュー担当チームにはどんどん作業を進めてもらい、システムにはその継続的なレビューに基づき随時動的に変化する異種混合の文書の平衡化を行わせるだけで十分です。

ランキング・エンジンの性能は、レビュー担当者が小分けにした文書のレビューを終える度に向上していきます。後から何らかの手段で事案に関連のある文書が見つかった場合でも、それを単にシステムに追加すればよいのです。目的はレビューすべき関連性の高い文書を探すことであって分類指標を訓練することではないのですから、何の問題もありません。

 

第一世代TARと第二世代TARの主な違い

第一世代TAR 第二世代TAR
1. システムの訓練は1回だけ実施し、その後レビュー対象文書を割り当てる。最初の訓練が終わると、その後は訓練や学習ができない。 1. 継続能動学習によってレビューの進行中もアルゴリズムの継続的改善が可能になり、節減効果やスピードが改善する。
2. 少数の参照用文書で訓練を実施するため、順次アップロードされた文書に基づきランキングをする能力に限界がある。全文書を受領してからランキングを開始することを想定しており、参照用文書一式のみの訓練に依ってランキングを安定させる。 2. あらゆる文書を毎回ランク付けするため、順次アップロードされた文書に基づきランキングを行うことが可能。参照用文書を用意する必要はなく、文書全体の変異を計測してランキングが安定化したか否かを判断する。
3. 訴訟案件の専門家がすべてのトレーニングを担当する。レビュー担当チームの判断を使用してシステムへの追加訓練を行うことはない。 3. レビュー担当チームがレビューを行うたびにシステムへの訓練がなされる。専門家と同時並行で作業を行うので能率が最大になる。訴訟案件の専門家は事案に関連のある文書の発見とレビュー担当チームの判断の品質管理に集中できる。
4. 無作為に選んだシード文書を使用してシステムを訓練。公判チームが発見した重要文書は使用しない。 4.所定の判断を経たシード文書を使用するため、事案に最も関連深い文書で訓練を開始することが可能。偏向の発生を回避するため、能動学習による訓練を補足的に実施。
5. 関連文書の割合が少ない文書群には有効に機能しない。ワークフローが形式的なものになるので、小規模な事案には不向き。 5. 関連文書の割合が少なくても有効に機能。ワークフローが柔軟なので、小規模なものから特大のものまであらゆる規模の事案に向く。

 

訴訟案件を担当する専門家はどうなるか

第一世代TARのように、最初から訴訟案件の専門家(SME)がレビューを行う必要はありません。CALを利用するとレビュー業務を直ちに始めることができ、SMEには他の業務を担当してもらうことができます。例えば、SMEには、検索その他の手法によって関連文書を探すことに注力してもらいます。すると、それによりシステムへの訓練ができる限り早く先に進むようになります。また、SMEには、品質管理アルゴリズムを使用してレビュー担当チームの業務を監視する業務を担当してもらうこともできます。品質管理アルゴリズムというのは、誤ったタグが付けられている可能性のある文書を探知し管理者に気づかせるための機能です。

時間や費用の節減効果は

グロスマン氏とコーマック氏は、別の研究で第一世代TARプロトコルと第二世代TARプロトコルの違いを定量化しました。その際に使用した手法は、関連文書の捕獲率が特定の値に達するまでにレビュー担当チームがレビューしなければならない文書の数を計測するというものでした。下表は両名の研究論文から引用したもので、関連文書の捕獲率が75%に達するまでにレビューする必要のある文書数を、CALを利用した場合とSPLを利用した場合で比較してあります。

 pngbase64ef05c7d3f1c7d93a

研究の結果、SPLプロトコル(シード文書を無作為に抽出)を利用した場合、CALを利用した場合と比べてレビューする必要のある文書の数が非常に多いことが明らかになりました。例えば、案件201では、その差は50,000点に達しています。レビューと品質管理にかかる費用を1文書あたり2ドルとすると、CALを利用することによる節減額は100,000ドルに相当します。案件203は最も極端な例で、文書数の差は93,000点にも達しています。CALを利用することによる1文書あたりの節減額を2ドルとすると、この案件での節減総額は186,000ドルに相当します。

以下に、両氏の研究からもう1つ図を引用してみましょう。全3種類のプロトコルを同じテスト文書一式に適用し、その結果を比較したものです。ここではSALを利用する場合とSPLを利用する場合で訓練用文書の数を変え、それがレビューしなければならない文書の数にどう影響するかを調べました。第一世代TARに属する両プロトコルは、どちらも追加訓練を行うことで成果が改善しましたが、そのためには訓練を開始する前にSMEに8,000点もの文書をレビューしてもらう必要がありました。両氏が「最適」と呼んでいる訓練用文書(本来は事前に特定することが不可能)をSALとSPLで使用した場合でも、全ての案件でCALの方がSALとSPL両方の成績と同等か、あるいはそれを上回り、その差は多くの案件で歴然としていました。

 image04

カタリストの調査でもこれと同様に、レビューの開始時から終了時まで訓練を継続することで大幅な節減が可能になることが判明しました。以下に、その1例をご紹介します。

image07

レビューの偏向は生じるか

継続的能動学習が「レビューの偏向」の影響を受けないか、と心配する人がいます。キーワード検索で発見された文書を元にしてランキングを行う場合、発見できなかった関連文書があれば、それはレビューの偏向に起因するものではないか、というのです。そういう人は、無作為に選んだシード文書を使用すればレビューの偏向が生じる可能性が減ると主張します。

Insight Predictは、文脈多様性に基づくサンプル抽出という独自の技法を用いてレビューの偏向を抑制します。この技法はカタリストが開発したアルゴリズムを使用し、レビュー担当チームが既に目を通したものと全く異なる文書をレビュー担当者に提示します。

カタリストのシステムは文書をすべてランク付けするので、担当者が既にレビューした文書とまだしていない文書の特性を多少なりとも把握しています。文脈多様性アルゴリズムは、レビュー前の文書を類似しているもの同士で小さめの塊に分け、レビューが進行するにしたがって、各グループ内の代表的なサンプル文書をレビュー担当者に提示します。しかも、関連性判断機能や品質管理に関するアルゴリズムと同様に、文脈多様性機能もレビューの進行中に学習と改善を続けます。

 image08

上図は、サンプルを無作為に抽出した場合と文脈多様性に基づいて抽出した場合の抽出範囲の違いを並べて図示したものです。文脈多様性に基づいてサンプル抽出を行った場合の方が、広い範囲の対象文書を抽出していることがわかります。

結局のところ、レビュー担当チームは、関連性についてのフィードバックを参考にして選ばれた文書と、文脈多様性に基づいて選ばれた文書が混じりあったものをシステムから受け取ることになります。そうした手順を繰り返しながらアルゴリズムは訓練を積んでいき、レビューに好ましくない偏向が生じる可能性を排除していきます。

パフォーマンスが優れていると節減も大幅

Insight Predictは、継続的なランキングと継続的能動学習、さらに文脈多様性に基づくサンプル抽出を行う唯一のTARエンジンです。この3つのプロトコルを併用すると作業量と所要時間、費用が減少することが明らかになっています。学習を続ければ、性能が向上し、より多くの時間や費用が節減できるようになります。これは、この上なく魅力的な結果の組み合わせです。

 

e-max.it: your social media marketing partner

カタリストについて

独自のツールで訴訟や社内調査などのプロセス効率化に力を発揮し、コストと時間を最小限に抑え、万が一に備えるソリューションを提供しています。

お問い合わせ

合同会社日本カタリスト

107-0052 東京都港区赤坂2丁目8番3号
モドマルシェ赤坂3階
代表電話番号 03-6441-2270
FAX番号 03-6441-2271

info-japan@catalystsecure.com |  Privacy Policy

 


RT @J_SachsEsq: Via @Legaltech_news How the FBI Breaks Absolute Encryption, and How It Doesn’t https://t.co/TIyBWIW91q #encryption #FBI #da

CLOC Survey Shows Legal Departments Still Spending More Externally https://t.co/nYppxsILmP via @corpcounsel

Resource Alert: Chinese translation of 2017 DOJ Fraud Section guidance - The FCPA Blog - The FCPA Blog https://t.co/thIOzJM16Z