テクノロジー支援型レビューの最大の弱点はそれを使う人間なのでしょうか?

 alt=

10月中旬に知人のマイケル・クアルタラロが「ABOVE THE LAW」に記事を投稿(原文英語)し、テクノロジー支援型レビュー(TAR)の最大の弱点はそれを使用する人間にあるのではないか、という疑問を投げかけました。マイケルはそれが事実なのか否かについて考えを述べるだけで、明確には答えを示しませんでした。そんなわけで、筆者は以下のような疑問を呈さなければなりません

なぜもっと多くの人がTARを使わないのか

TARの様々な種類とその仕組みがいまだに混同されているから、というのがその一つの答えでしょう。残念ながら、マイケルの投稿には旧弊な第1世代TARと最新の第2世代TARの違いに関する記述がないので、そうした混同にさらに拍車をかけてしまったようです。筆者がこの時考えたのは、この記事に特に反応も修正もしないでおこうということでした。しかし意外なことに、この記事を引用する人、信頼に足る意見だとして再投稿する人が現れたのです。そこでマイケルの指摘の曖昧な点をいくつか明確にしておきたいと考えました。以下太字部分は記事からの引用です。

  1. どのTARソフトウェアまたはアルゴリズムを利用すると、他のものよりレビューの成果が飛躍的に向上するか、何よりも正確性が優位に向上するかということを証明した科学的研究は、私の知る限りでは存在しない。

これには驚きました。TARの各種プロトコルの違いに注目した研究は無数にあります。どの研究でも例外なく継続能動学習(CAL)機能を有する第2世代TARの成果が1回しかシステムを訓練できない第1世代TARを上回っていて、多くの場合、大きな差がついています。業界各社が第1世代TARの売り込みや販促資料への掲載を諦めたのは当然なのです。

まずは代表的な(しかも査読つきの)研究、「“電子的ディスカバリにおけるテクノロジー支援型レビューの機械学習プロトコルの評価」を紹介しましょう。著者のゴードン・コーマック氏とモウラ・グロスマン氏はその中で第1世代TARと第2世代TARのプロトコルをテストし、何度やってもCALのほうが第1世代TARを上回ることを明らかにしました。両氏は後続論文を少なくとも6本発表し、CALを利用したレビューのそれぞれ異なる側面を取り上げています。例えば「 “テクノロジー支援型レビュー向け継続能動学習の多面的捕獲率について」、「TARのための継続能動学習について」などです。(リンクはすべて英語原文)

他にも紹介したい研究はたくさんあります。どのアルゴリズムや手法でも同じ結果が出ると書かれている論文は1本もありません。以下はその例です。(以下リンクはすべて原文英語)

  1. 「つまるところ、TARソフトウェア唯一の深刻な問題は、どのTARソフトウェアについて考えても、それを使う人にあるようだ。」

この記述は様々な種類のTARシステムをひとまとめにして、どれも同じような仕組みで動作し、関係する人もみな同じようにひと括りにした考え方をしています。ところが実際にはそうではありません。第1世代TARを使いこなすには専門知識がたくさん必要ですが、第2世代TARの場合は必要ありません。第2世代TARはシンプルで、使う人が少々間違えても問題なく動作します。第2世代TARについては、人に弱点があるとは言えません。少なくともTARのユーザー自身に弱点があるとは言えないのです。

第1世代TAR:第1世代TARの最大の特徴はシステムの訓練が1度しかできず、しかもその効果が訓練を行う人の技量に左右されるという点にあります。要するに、経験豊富な弁護士か該当分野の専門家が参照用文書群にタグを付加したあと、その文書群を用いて数千点の文書をレビューし、アルゴリズムの訓練を行うのです。アルゴリズムの訓練が終わったら、それを利用して収集文書全体のランク付けを行い、レビュー担当者が関連文書の可能性が高そうだと考えられる文書からレビューします。アルゴリズムをそれ以上訓練することはできず、レビュー担当者のタグづけの結果を活用して、まだレビューしていない文書のランク付けの精度を高めることもできません。

第1世代TARでは対照用文書群がランク付けや分類アルゴリズムをテストする際の「絶対的な基準」として機能します。そこには対照用文書群の中の関連文書には「関連性あり」のタグが、非関連文書には「関連性なし」のタグが正確につけられているという想定があります。その想定がくずれ、タグづけが正確に行われていないと、対照用文書群に偏向が生じる可能性があります。疑わしい想定はこの他にももう一つあります。対照用文書群の内容が収集文書全体の代表であるという想定です。該当分野の専門家は無作為に選定した文書群、あるいはシステムが選定した文書群をレビューすることで、訓練のプロセスを続けます。訓練はたいてい1,500点から5,000点程度の文書群を該当分野の専門家にタグづけしてもらうという形で行われます。時間と労力のかかる作業で、該当分野の専門家が4,000点ほど(対照用文書群500点、訓練用文書3,000点、最終テスト用文書にさらに500点)の文書に目を通してタグをつけるのに65時間もかかることがあります。

いかに正確に作業をしたとしても、やはり第1世代TARシステムには人為的なミスが発生する余地があるのです。

2世代TAR第2世代TARプロトコルの最大の特徴は継続能動学習機能にあります。第2世代TARは初期のTARプロトコルに付きものだった「人間的要素」という問題を解決しました。継続能動学習システムでは訓練のプロセスを個別に行う必要がなく、ミスがあっても後から対処できます。このシステムはレビューの進行中も継続的に学習を行い、自らが学んだ内容に基づいて、恒常的に文書の順位を修正します。したがって、アルゴリズムはどんどん改善し、レビュー担当者が目標に達するまでの時間が短くなり、レビューが必要な文書の数も訓練を1度しかできない場合より少なくなります。

  1. 「私は相当数のTARプロジェクトに携わり、TARの様々な特性、さらに様々なTAR製品の成果を利用し、あるいは観察してきた。はっきり言うと、その中に完璧なものは一つとしてなく、どのような状況でもあらゆる期待を満たしてくれるものも一部でしかなかった。」

これは的外れな指摘です。どういうことかというと、上記はeディスカバリ業界にとって大問題だからです。単純に言ってどのようなTARシステムであれ、何かと比較しない限り、その出来のよさを判断することはできません。ある一つのプロジェクトで、とあるTARシステムがどんな成果を出したかを観察しても、おそらく一つ一つの文書を手作業でレビューするよりはずっとよかったということくらいしか言えません。

研究者たちははるか昔から、テストを通じて何かを明らかにするにはどんな方法がベストなのかを知っています。情報検索の分野では、ほとんどの研究者がクランフィールド・メソッド(原文英語)を使用します。この手法は極端に単純化して言うと、一つの可変定数だけを残しておいて、その成果を多数のテスト結果と比較するというものです。こうした比較テストを筆者らは長年にわたって行っていますが、もしそれを行っていないのなら、上記のような発言をすることはできません。断じてできないのです。

  1. 「ところで、現時点で私は論文の大部分を読んでいると思うが、そのほとんどは法務関係者が書いたものではない。」

eディスカバリで使用するTARに関する研究論文の大多数は法務関係者が執筆したものです。いわゆる「関連性に関するフィードバック」に関する研究論文は30年近く前から書かれていますが、そうしたアルゴリズムが法務文書に適用されるようになったのは比較的最近のことです。そして、論文の多くは弁護士や法務の分野に積極的に関わっている人物が執筆したものです。ラルフ・ロジー、ヘルベルト・ロイトブラット、モウラ・グロスマン、ゴードン・コーマック、ギャレス・エヴァンズ、トム・グリックス、アンドリュー・バイ諸氏、そして法務分野の先駆者、ジョン・トレデニックを思い浮かべてみてください。

  1. TARは人工知能ではない。もちろんTARAI関連ツール全般に属するものだとして十把ひとからげにしている人がいることは承知している。それもわからなくはない。だがそうしたマーケティング上の宣伝文句を度外視すれば、TARは単なる機械学習であり、それ以上でも以下でもないのだ。」

これは興味深い指摘です。なぜなら、まさにその通りだからです。TARは教師あり機械学習に依拠していて、教師あり機械学習は古典的形態の人工知能です。それについては説明の必要はありません。ウィキペディア(原文英語)の以下の記述を見ていただくだけで十分です。

機械学習とは人工知能の研究が始まって以来、その基本的概念であり、コンピュータのアルゴリズムが経験を通して学習し、自動的に改善していくことを指す。教師なし学習というのは人間が先にラベルを付加しなくても一連のデータの中からパターンを探し出せる能力のことであり、教師あり学習というのは人間がデータに事前に付加したラベルを利用して、分類と数値的回帰を実現する能力を指す。

 alt=

マイケルの記事にはさらに、TARは「1960年代から他の業界で文書の分析に使用されていたのと同じ機械学習である」という記述があります。研究者が1960年代初頭から「関連性に関するフィードバック」の実験を行っていたのは本当ですが、弊社のTARアルゴリズムと少なくとも他社の一部のTARアルゴリズムは、明確に法務業界のニーズを満たすために開発されたものです。それどころか、弊社の文脈多様性エンジンや弊社独自の品質検証アルゴリズムはeディスカバリのためだけに開発したものです。

もっと端的に言うなら、機械学習が1960年代からあったということがなぜ問題なのでしょうか。

  1. 「おそらく、TARのあらゆるプロセスの中で唯一にして最も重要な要素は、人間のレビュー担当者がTARに対して注意深く、慎重に、一貫性をもって行う入力作業である。この「訓練」のプロセスに問題があると満足な成果が得られることはない。」

ここで指摘しておかなければいけないことは、これは第1世代TARの話だということです。初期のTARは市場に登場した頃、訓練は1度しかできず、対象文書の点数も数千点に過ぎませんでした。そうした状況で訓練が重要だとみなされたのは当然です。関係者が恐れていたのは、訓練に一貫性がないとプロセス全体が失敗に終わるのではないかということでした。

それを裏づける研究を見たことはありませんが、確かにそういう可能性もありました。しかし第2世代TARではそんなことを気にする必要はありませんし、ほとんどすべての業者が第2世代TARを採用しています。

継続能動学習の世界では、訓練とはつまりレビューであり、レビューとは訓練に他なりません。こうした最新式のアルゴリズムは対照用文書群を使用せず、訓練の対象となる文書を数千点に限定することもありません。それどころか、文書に対して何らかの判断をすれば、その都度その結果が反映されるので、1度判断を誤ったからといって大した問題にはなりません。その点、「群衆の英知」に似ています。

第2世代TARでは、該当分野の専門家に文書の重要度を判断してもらった方が、レビュー担当者に判断してもらうより効果的だということはありません。それどころか、弊社が発表した研究論文にも他の人が発表した研究論文にも、全く反対のことが書いてあります。読者諸氏はなぜだろうと思われるでしょう。推測に過ぎませんが、専門家にはとかく物事を考えすぎ、細かくタグをつける傾向があります。上級弁護士が法廷で弁護をする時ならそれも意味があるでしょうが、アルゴリズムに関連文書を見つける方法を教える時にはあまり意味はないのです。

  1. 「これは単なる偏屈者の意見ではない。事実なのだ。そうでなければこの記事を書こうとは思わなかっただろう。」

これは法務の効率化を目指しTARやその他の手法を使用する際の大きな障害を見事に言い当てています。私たちは法務の専門家で、論理によって仮説を立て、事実を見分け、議論を行う術を身につけています。法律家は自分の発言を真実だと信じており、それは往々にして真実です。しかし必ず真実だとは言い切れません。

法務の専門家が理解を深めるべき言葉の一つに、「トゥルーシネス(Truthiness)」というものがあります。オンライン辞書によると以下のような意味です。

論理的裏付けや実証的証拠のようなものはないが、個人的な直観、見解、感覚に基づくと真実であるように見えること。

私たち法務の専門家は、この見かけ上の真実らしさを好みます。論理的訓練を積んだ人が言うともっともらしく聞こえるからです。しかしテストもしてみないで、何がわかるのでしょうか。法務の世界に必要なのは、真実なのです。もっともらしさは要りません。マーク・トウェインの名言にあるように、llなのです。

人がTARにとっての最大の弱点なのか

結局のところ、‘マイケルの主張とは違う意味で’人はTARの最大の弱点なのかもしれません。ネット上の記事は、それを読む一部読者に真実だとして受け入れられたとしても、新しいテクノロジーがディスカバリの工程全体、さらには法務の仕事に大幅なコスト削減と作業効率の改善をもたらす理由、何よりもその仕組みについて、各種テクノロジーの相違点を明確にしたものでなければ法務の専門家を納得させることはできません。

第2世代TARに関してより詳しく記した記事が読みたい方には、弊社の「スマートな人のためのTAR」第3版(原文英語)を一読されることをおすすめします。

Like this Article? Subscribe to Our Feed!

Leave a Reply

Your email address will not be published. Required fields are marked *