カタリストの次世代型プレディクティブ・ランキング・エンジンは、レビュー担当者が直面する現実的な問題の解決とレビュー費用の削減を念頭に設計されました。

テクノロジー支援型レビュー(TAR)は、ここ数年でeディスカバリの世界に革命的な進化をもたらし、レビュー対象文書の数を劇的に(しかも法廷で問題にされた場合に抗弁できる形で)減らし、費用と時間を節減することを可能にしました。しかしそれでも、第一世代のシステムは実世界の中で使ってみると有効性に限界がありました。Insight Predictは、現実のeディスカバリ案件で有効に機能するように設計された、世界初新世代型の予測に基づくランク付け用処理装置です。

第一世代TARシステムの場合、システムの訓練はすべてシニア弁護士が行う必要があり、多くの場合、無作為に抽出した何千点もの文書を次々とクリックし、システムが「安定化」するまでそれを続けていかなければなりませんでした。しかも、そうしたシステムはレビューの対象になる文書が最初からすべてそろっていることを前提としていました。もちろん、実際にはほぼあり得ないことです。さらに、第一世代TARは1回しかシステムへの訓練のプロセスを受けつけませんでした。レビュー業務が進行してからも学習を続けられる術はほぼなかったと言ってもよいでしょう。

TARの新地平

Insight Predictは新世代のTARで、その中心には「継続学習」プロセスが据えられています。このエンジンはレビューが進行するにともない継続的に学習を行い、性能を向上していくことができます。そのため、弊社の第二世代TARを利用するとレビューの柔軟性とコスト効率が高まります。これを実現するために、弊社は独自のランキング・データベースを構築しました。このデータベースには何百万点という文書を数分でランク付けする能力があります。今までのように何時間も、あるいは何日もかかることはありません。

Insight Predictには「強化学習」という機能があり、これは現在特許出願中です。継続能動学習の進化形態とも言うべきものですが、継続能動学習は第一世代TARの処理装置より関連文書を取り出す能力が高いということが、ある著名な研究によって明らかになっています。関連文書の取り出しにかかる時間が短ければ短いほど、レビューの所要時間は短くなり、レビュー費用が減少します。

Insight Predictを利用すると、システムはレビューが完了するまで学習を続けます。システムに対して行う訓練の大部分を担当するのは、シニア弁護士ではなくレビュー担当者です。品質管理プロセスがあり、判断ミスの可能性があるとフラグが立ちます。チーム内のシニアメンバーは重要度の高い文書の発見に集中して、発見した文書を訓練用シード文書として使ったり事案の内容を把握する時間を短縮したりするために利用します。アルゴリズムはその間も改善し続けます。

Insight Predictに代表される第二世代TARシステムは、TARに対して流動的で柔軟なアプローチをとるための道をついに切り開きました。現実世界のeディスカバリ業務に対して有効に機能し適応することに成功したのです。継続的な学習が可能だということは、継続的な改善が可能だということです。それはつまり、レビューの所要時間が短くなり、費用が下がるということなのです。

TAR1.0(第一世代)とTAR2.0(第二世代)の主な違い

TAR 1.0 TAR 2.0
1. システムの訓練は1回だけ実施し、その後レビュー対象文書を割り当てる。最初の訓練が終わると、その後は訓練や学習ができない。 1. 継続能動学習によってレビューの進行中もアルゴリズムの継続改善が可能になり、節減効果やスピードが改善する。
2. 少数の参照用文書で訓練を実施するため、順次アップロードされた文書に基づきランキングをする能力に限界がある。全文書を受領してからランキングを開始することを想定しており、参照用文書一式のみの訓練に依ってランキングを安定させる。 2. あらゆる文書を毎回ランク付けするため、順次アップロードされた文書に基づきランキングを行うことが可能。参照用文書を用意する必要はなく、文書全体の変異を計測してランキングが安定化したか否かを判断する。
3. 訴訟案件の専門家がすべてのトレーニングを担当する。レビュー担当チームの判断を使用してシステムへの追加訓練を行うことはない。 3. レビュー担当チームがレビューを行うたびにシステムへの訓練がなされる。専門家と同時並行で作業を行うので能率が最大になる。訴訟案件の専門家は事案に関連のある文書の発見とレビュー担当チームが行った判断の品質管理に集中できる。
4. 無作為に選んだシード文書を使用してシステムを訓練。公判チームが発見した重要文書は使用しない。 4. 所定の判断を経たシード文書を使用するため、事案に最も関連深い文書で訓練を開始することが可能。偏向の発生を回避するため、能動学習による訓練を補足的に実施。
5. 関連文書の割合が少ない文書群には有効に機能しない。ワークフローが形式的なものになるので、小規模な事案には不向き。 5. 関連文書の割合が少なくても有効に機能。ワークフローが柔軟なので、小規模なものから特大のものまであらゆる規模の事案に向く。

 

カタリストは当初から、継続的ランク付けや継続的学習は1回限りで訓練を停止してしまう第一世代TARのアプローチより効果が高いと主張していました。また、システムを訓練するために無作為に選んだ何千点ものシード文書にタグ付けをしていくのは、能動的に事案に関連のある文書を探してそれをシード文書の代わりに使用する手法より効果が低い、ということも主張していました。そしてついに、カタリストは独自の研究論文を発表し、その中で、以下3点を強く提唱しました。

  1. 訴訟案件の専門家はTARの訓練には必要ないこと。
  2.  代わりに専門家にはシステムへの訓練に役立つ文書を探す作業をしていただくこと。
  3.  或いはレビューが進むにつれて判断の正規分布から外れた値の集まりがどう変化しているか常に察知しつつレビュー担当チームが極端に的外れな判断をしていないか継続的かつ臨機応変に品質管理をしていただくこと。

カタリストの中核的ワークフローは、3つの情報の流れをダイナミックかつリアルタイムに混ぜ合せることによって機能します。

3つの流れとは、

  1. 関連性に関するフィードバック(換言すれば、継続的に更新された「最も関連性の高い」文書についての情報)
  2. 文脈多様性(すなわち、「未知の不確定要素」、つまり概ねレビュー担当者の知らないことについて書かれていることがわかっている文書についての情報)
  3. 無作為に選ばれた文書で (1)と(2)の穴を埋める目的のために使われる文書の情報、です。

さらに過去の最良の事例を踏まえて、例えばシニア弁護士かレビューの管理担当者が既に特定の科学捜査情報に関する文書のことを知っている場合、それをブーストラップ標本としてアルゴリズムに適用して、より真っ当な開始地点からランク付けを始めることができるようにするとよいでしょう。

全ての文書を毎回、予測に基づいて順位付け

TARシステムを利用する場合、大抵、最初に500点程度の文書が参照用文書として選ばれます。その参照用文書を使ってシステムの訓練が行われますが、そこには特定の参照用文書一式が文書全体を代表するものだという考えがあります。ほとんどのTARシステムでこうしたことが行われているのは、ハードウェアに何百万点にものぼりうる文書全てを処理させようとした場合、時間がかかりすぎてしまうという理由からです。

Insight Predictのエンジンは、大量の文書を短時間(例えば700,000点の文書なら10分程度)でランク付けすることができます。さらに、効率的なレビューのためにランキングを行えば、全文書の母集団についてより正確に把握することができ、レビュー対象の決定においてより良い結果が得られます。

精度の高いランク付けができれば、レビューすべき文書の数が減り、それに応じて時間と費用が節減できます。

e-max.it: your social media marketing partner

カタリストについて

独自のツールで訴訟や社内調査などのプロセス効率化に力を発揮し、コストと時間を最小限に抑え、万が一に備えるソリューションを提供しています。

お問い合わせ

合同会社日本カタリスト

107-0052 東京都港区赤坂2丁目8番3号
モドマルシェ赤坂3階
代表電話番号 03-6441-2270
FAX番号 03-6441-2271

info-japan@catalystsecure.com |  Privacy Policy

 


RT @J_SachsEsq: Via @Legaltech_news How the FBI Breaks Absolute Encryption, and How It Doesn’t https://t.co/TIyBWIW91q #encryption #FBI #da

CLOC Survey Shows Legal Departments Still Spending More Externally https://t.co/nYppxsILmP via @corpcounsel

Resource Alert: Chinese translation of 2017 DOJ Fraud Section guidance - The FCPA Blog - The FCPA Blog https://t.co/thIOzJM16Z