Insight Predictが他と異なるのは、ビッグデータの取り扱いを念頭に置いて特別に設計されているからです。テクノロジー支援型レビュー(TAR)製品の多くは、特定のハードウェア上で動作するように開発され、Microsoft SQLを使用しています。Insight Predictはデータセンターでの動作を想定して開発され、ビッグデータ用に開発されたNoSQLのグラフ型データベースを使用しています。

Insight Predictはビッグデータ用の構造様式を採用しているため、端末上で動作するシステムに比べて性能が優れていて、より多くの対象文書をより短時間で取り出すことができます。以下に、Insight Predictと標準的なTARシステムの主な違いを10点ご紹介します。

Insight Predictはすべての文書を毎回ランク付け

TARシステムを利用する場合、大抵、最初に500点程度の文書が参照用文書として選ばれます。その参照用文書を使ってシステムの訓練が行われますが、そこには特定の参照用文書一式が文書全体を代表するものだという希望的観測があります。ほとんどのTARシステムでこうしたことが行われているのは、ハードウェアに何百万点にものぼりうる文書全てを処理させようとした場合、時間がかかりすぎてしまうという理由からです。

Insight Predictのエンジンは、大量の文書を短時間(例えば700,000点の文書なら10分程度)でランク付けすることができます。さらに、効率的なレビューのためにランキングを行えば、全文書の母集団についてより正確に把握することができ、レビュー対象の決定においてより良い結果が得られます。 精度の高いランク付けができれば、レビューすべき文書の数が減り、それに応じて時間と費用が節減できます。

Insight Predictは文書を順次アップロードすることを想定した設計

証拠開示手続では、ほとんどの場合、文書が随時収集され複数回にわたってサイトにアップロードされます。第一世代TAR製品を使用する上では、これが問題となります。第一世代TAR製品のほとんどでは、初めに500点ほどの参照用文書を使用してシステムの訓練が行われます。その際、参照用文書はきまって文書全体から無作為に抽出されます。

後からまた別の文書が届いたら何が起こるでしょうか。前回使った参照用文書は文書全体の代表物だとはいえなくなってしまうので、これについて問題提起された場合に抗弁ができません。したがって、もう追加の文書は届きませんようにと願いながら、システムへの訓練をやり直すしかないのです。

Insight Predictを用いた場合は、参照用文書を使用することはありません。その代わりに、システムがランク付けを行う度に全文書を分析し直してくれます。新しく届いた文書を追加しても、システムがそれを既存の文書群に組み込んでくれるので、レビュー担当チームはレビューを続けるだけでよいのです。訓練をやり直す必要も時間をとられることもありません。

Insight Predictは継続能動学習に対応

従来型の第一世代TARシステムでは、訓練が「終わった」後に1回だけランキングを行うという方法しかとれませんでした。最初のステップとしてはそれで十分で、レビュー対象文書の数も減ります。しかし、システムへの訓練を一度きりで終わらせる必要があるでしょうか。

Insight Predictなら、学習プロセスはレビューの進行中も続けられ、レビュー担当者の判断が継続的にフィードバックされ、システムへの訓練を行います。これによりイールドカーブが継続的に改善し、レビューが必要な文書の数が当初の予想より減っていきます。

Insight Predictは、大多数の他のシステムと違ってビッグデータ用のエンジンを備えた構造となっており、どんな時でもすべての文書をランク付けします。レビュー担当者の判断をシステムにフィードバックすると、ランキング処理が引き続き行われます。それに伴ってランキングのアルゴリズムが継続的に改善し、レビューの効率が徐々に高まっていきます。システムの性能が優れているということは、レビューすべき文書の数や所要時間、費用が減少するということなのです。

Insight Predictを使用すると、レビュー担当チームは専門家と同時並行で作業が可能

第一世代TARシステムは、1人の専門家が訓練をすべて行わなければならないという考えに基づいて設計されています。したがって、レビュー担当チームは専門家がシステムの訓練を終えるまで作業を始めることができません。多くの場合、訓練には無作為に選ばれた何千という文書をランダムにクリックするという作業が必要になります。

Insight Predictを利用すると、訴訟案件担当の専門家とレビュー担当チームは同時並行で作業を進めることができます。例えば、公判担当チームには、キーワード検索や参考人へのインタビューなどを通じて関連性のある文書をできるだけ多く探す、といった作業を割り振ることができます。そこで探し出した文書を最初のシード文書としてシステムに読み込ませ、レビュー担当チームにはそのまま作業を始めてもらいます。レビュー担当者の判断は随時システムに自動的にフィードバックされ、継続的能動学習が行われます。そのため、訴訟案件担当の専門家は、品質管理モジュールを使用してチームの作業を検証し、必要に応じて正していくことができます。

こうした手順を踏むと、レビューを直ちに始めることができます(これは多くの案件でクライアントが最も要望していることです)。したがって、専門家がレビュー業務の開始・進行の妨げになることがなくなり、時給の高い専門家に基礎的なレビューを依頼する必要性も減少します。

専門家に品質管理を依頼して成果を改善

弊社が検証を行ったところ、専門家にレビュー担当チームの品質管理を依頼するという手法は、専門家にレビューを進めてもらうという一般的な手法と同等か、あるいはそれより優れていることが判明しました。以下にその一例をご紹介します。上記の手法が最高の成果をあげていることがわかります。

Best Approach Yield Curve

この手法は依頼人のレビュー費用の削減にも寄与しています。下表は、この手法を採用すると文書数が500点の場合に節減幅がどの程度になるかを示したものです。

下段の例では20名のレビュー担当者に5,000点の文書全てにタグ付けをしてもらってから、システムが見直しの必要ありと判断した文書500点の品質管理を専門家に依頼しました。TARプロセスがよく使われる比較的大規模なレビューでは、時間と費用の節減幅がいずれも顕著です。

Insight Predictなら手作業で発見されたシード文書の使用も可能

大多数のTARシステムは、人の手によって抽出されたシード文書の使用(無作為抽出ではなく、人が選ぶもの)を極力しないように設計されています。これは、弁護士がシード文書を選んでシステムに読み込ませるとシステムに偏向が生じるという考えがあるからです。システムは文書を無作為に選ぶので選択はシステムに任せた方がうまくいく、というのがその論拠です。

椅子に座ったまま案件に関連のある文書が見つかることを願いながら何百何千という文書を手あたり次第にクリックしていかなければならないので、この作業を担当したことがある弁護士ならいかに大変な作業かと愚痴をこぼすことでしょう。弁護士は尋ねます。「どうしてこんなにクリックばかりし続けなければならないのですか。レビュー作業を始めるに際し、システムを訓練させるために私の知力を役に立てた方がよいのではないでしょうか?。」

カタリストは上の例とは逆のやり方をします。重要な文書をできる限り多く探して、手作業で集めたシード文書としてシステムに読み込ませるのです。読み込ませる文書の数は、数百、数千、あるいは数万になってもかまいません。多ければ多いほどイールドカーブが改善します。

Insight Predictは継続的に文書のランク付けを行うので、レビュー担当チームがレビューを終えた文書をシステムに戻す度にイールドカーブが改善します。一万点でも十万点でも何点であろうとも、レビュー済みの文書をシステムにフィードバックすると、ほとんどの場合イールドカーブが改善します。

一部のTARシステム提供会社は、専門家がシード文書を選ぶとシステムに偏向が生じる恐れがあると説明するかもしれません。しかし、そういった会社が本当に心配しているのは、手作業で抽出したシード文書が一定数を超えるとシステムが対応できなくなるということなのです。

専門家に起因する偏向の発生を回避

Insight Predictの使用にあたって偏向の可能性を排除するには、以下の2つのステップを踏まれることをおすすめします。

  1. 訓練とレビューの進行中に自動サンプル抽出機能を有効化させます。すると、文書全体の中からランダムかつ多様なサンプル文書が自動的に抽出されます。サンプル抽出は文脈多様性に基づいて行われ、レビュー済みの文書のいずれにも類似していない文書が提示されます。この機能は文書の見落としを防ぐ目的で設計されています。
  2. ールドカーブを作成するには、システマチック・ランダム・サンプル(系統的無作為サンプル抽出)という機能を有効化する必要があります。この機能を使うと、ランキング全体から万遍なく抽出したサンプル文書が提示され、あらゆる種類のシード文書候補をもれなくレビューできるようになります。 イールドカーブの作成が終わった後でも、まだレビューすべき文書の割合を最終的に決定する段階にはないと考えているときに、システムが選んだサンプル文書を追加のシード文書としてシステムに読み込ませることができます。 イほとんどの場合、これでイールドカーブがさらに改善します。このグラフはそうした場合の例です。手作業で抽出したシード文書を多く読み込ませれば読み込ませるほど、最終的にレビューする必要のある文書の数が減っています。


    Yield Curve

PredictはCatalyst Insightと一体化

ほとんどのTARシステムは単独の情報処理装置であり、検索やレビュー用のプラットフォームとは別々に機能しています。したがって、誰かがファイルをデータ処理やレビュー専用のプラットフォームからエクスポートし、メタデータも取り出し、それらをすべてTARシステムに読み込ませなければなりません。専門家はこの作業が終わってから、TARシステム上でシステムへの訓練のためのレビューを開始します。訓練が終わったら、データとタグ情報をレビュー用のプラットフォームにエクスポートします。これでようやくレビューを始めることができます。

完全一体型のeディスカバリ用プラットフォームはほとんど存在せず、Catalyst Insightはそうした数少ないプラットフォームの1つです。一つのシステムの中で、文書の処理、読み込み、検索、分析、レビュー、開示文書の作成が行えます。そのため、短期間で業務を完了することができ、ミスも減少します。

Insight Predictは、Catalyst Insightに組み込まれたプレディクティブ・ランキング用モジュールです。Catalyst Insight内で検索を行って手作業でシード文書を探し、レビュー対象文書の随時アップデート機能を活用して、プレディクティブ・ランキングの進行中に対象文書のレビューを行うことができます。訴訟案件の専門家とレビュー担当チームは両者とも、Insight Predict上であろうとなかろうと、同時並行でタグ付け作業を進めることができます。両者がレビュー用の同じフォームを利用でき、他のユーザーが付加したタグ情報をシステムが随時取り込んで活用します。

弊社の一体型システムをご利用いただくと、レビューの所要時間が短くなり、費用とミスが減少します。

Insight Predictは特に日中韓国語やその他対応が困難な言語の取り扱いを想定して設計

eディスカバリの専門家の多くが、TARはアジアの言語を扱う証拠開示手続では有効に機能しないという誤解をしています。カタリストは、日本語や中国語のような複雑な言語であっても、適正にトークン化されてさえいればTARが有効に機能することを実証済みです。

弊社は、案件の鍵となるある日本人から収集した文書のうち約45%が関連文書であると思われる試験的なプロジェクトにおいて、このことを証明しました。テキストをトークン化し、プレディクティブ・ランキングの処理を施したところ、ランキングの上位48%の文書のレビューが終わった時点で95%の関連文書を発見した、という結果となりました。対象文書の残り52%の中には、関連文書が2%しか残っていないことになります。

日中韓国語の文書をレビューする場合、通常は単価の高い翻訳者や複数言語に堪能なレビュー担当者に作業を依頼する必要があり、とりわけ費用が膨らみがちです。しかし、プレディクティブ・ランキングを使用してレビューすべき日中韓国語の文書に優先順位を設定すれば、費用を大幅に削減できる可能性があります。

Insight Predictは市販製品中で最も柔軟性に富んだシステム

標準的なTARシステムの多くには、一種類の手順しか適用することができません。例えば、一部のシステムではランキングを行う前に専門家に40点ずつの小分けにした文書をレビューしてもらう必要があります。そうしたシステムは、ランキングが終了するとシステムの訓練を中止し、文書の優先順位が変動しない静的なレビューを行うことを想定してつくられています。

Insight Predict は市販製品中で最も柔軟性に富んだシステムの一つです。シード文書の読み込みプロセスは、お客様のお好きなほとんどどんな方法でも開始することができます。最初に専門家や専門家のチームに依頼してシード文書を選んだ方がよければそうすることができますし、何もせずにただレビューを始めることもできます。手作業で選んだシード文書は作業進行中のどの時点でもシステムに読み込ませることができます。作業開始前だけではありません。ランク付けもいつでも実施でき、いつでも好きな時にランキングの上位にある文書をレビュー担当者に振り分けることができます。

Insight Predictを使用して従来型のTARの手順を踏んでも問題はなく、一定のやり方に縛られることは決してありません。こうした柔軟性のおかげで、 Insight Predictは様々なプロセスに適応し、生得的な能力を生かして新しい手法を切り開くことができるのです。

Insight Predictは希望に応じてどんな使い方もできます。作業の進め方は必要に応じて自由に設定してください。

Insight Predictは将来の証言録取に備えてカストディアンごとの文書のランク付けに対応

TARシステムの多くでは、文書のランク付けは実に融通のきかない全て有るか全く無しかの条件提示に基づき行われます。これから行われる証言録取に向けて特定の参考人に注目する必要がある場合、参考人ごとに別々のTARシステムを作成し、さらに各々のシステムに対して追加費用を支払わなければならない場合まであります。

Insight Predictなら、重要参考人ごとに別々のランキングを作成することができ、その際、新たにグラフ型データベースを構築する必要も、追加費用を支払う必要もありません。参考人ごとに開示情報を準備しなければならない証言録取担当チームにとって、これは実にうれしいことです。証拠価値の順にランク付けされた文書のリストを参考人ごとに確認することができれば、証言録取のプロセスを効果的かつ効率的に進めることができます。

Insight Predictなら相手方当事者から開示された文書の中からも短時間で証拠価値の高い文書を探し出すことが可能

TARは開示前にレビューされた文書に対してのみ、効果を発揮するというのが一般的な見方です。しかし、Insight Predictは訴訟の相手方から開示された文書の中から関連文書を探し出す場合にも、当方側からの開示文書の場合と同様に有効に機能します。 単に当方側からの開示文書を準備したときと同じ手順を踏めばよいのです。適切なシード文書を探し、無作為にサンプルを抽出するか、自動サンプル抽出機能を利用して作業を始めてください。あるいは単にレビューを始めるだけでも構いません。 どんな手順を選んでも、Insight Predictを利用すれば、文書全てを手作業でレビューした場合に比べて、重要性の高い文書の探索にかかる時間がより短くなります。ランキングが高い文書からレビュー作業を始め、次の参考人を調査するために必要な文書が見つかるまでそれを続ければよいのです。

以上は、Insight Predictが従来型のTARシステムと異なる点について説明しただけに過ぎません。それでも、弊社の独特な統合型プレディクティブ・ランキング・システムが何故こんなにも世界中から注目を浴びているのか、その理由をご理解いただけたのではないでしょうか。

 

e-max.it: your social media marketing partner

カタリストについて

独自のツールで訴訟や社内調査などのプロセス効率化に力を発揮し、コストと時間を最小限に抑え、万が一に備えるソリューションを提供しています。

お問い合わせ

合同会社日本カタリスト

107-0052 東京都港区赤坂2丁目8番3号
モドマルシェ赤坂3階
代表電話番号 03-6441-2270
FAX番号 03-6441-2271

info-japan@catalystsecure.com |  Privacy Policy

 


RT @J_SachsEsq: Via @Legaltech_news How the FBI Breaks Absolute Encryption, and How It Doesn’t https://t.co/TIyBWIW91q #encryption #FBI #da

CLOC Survey Shows Legal Departments Still Spending More Externally https://t.co/nYppxsILmP via @corpcounsel

Resource Alert: Chinese translation of 2017 DOJ Fraud Section guidance - The FCPA Blog - The FCPA Blog https://t.co/thIOzJM16Z