言語処理との相性は◎。質と量を両立するクラウドソーシング活用事例

言語処理との相性は◎。質と量を両立するクラウドソーシング活用事例
首都大学東京大学院に在籍時、自然言語処理分野で対話の生成の研究を行っていた叶内晨さん。自然言語処理というテクノロジー分野において、クラウドソーシングを活用することにより、研究のアウトプットの質の担保を実現しました。

質の高いデータ収集はクラウドソーシングで実現

カスタマーサポートやチャットボットといった様々なサービスにおいて、活用が拡大している自然言語処理分野。機械学習やディープラーニングなど、耳にする機会が増えてきたのではないでしょうか。

最近では、データを収集し活用する事例も多く見られ、企業や大学による研究開発も盛んにおこなわれています。そんな中、クラウドソーシングは自然言語処理の研究に活用される事例も出てきており、海外でもスタンダードなデータの収集方法のひとつとして確立されています。

叶内晨さんは首都大学東京大学院に在籍時、自身の対話の生成に関する研究において、対話データの収集のためランサーズを利用しました。対話の生成は、収集するデータの数だけではなく質もまた重要な要素の一つと叶内さんは言います。言語処理分野において、ランサーズをどのような形で活用したのでしょうか。

対話の生成には大量の教師データが必要

--どのような研究でクラウドソーシングを利用したんですか?
首都大学東京の大学院在籍時に、自然言語処理分野の対話の研究を行っていました。ある発言に対して機械がどのように応答するか、という研究です。発言と応答だけですが、非常に難しい研究です。

グーグル翻訳などの機械翻訳と対話の研究との違いは、翻訳はある発言に対して応答文はほぼ一意なんです。「これはペンです」に対して「This is a pen.」というように、数通りの言い回しがあるにしても、意味的には一つで決まっているためデータを集めやすい。

しかし、対話となると、たとえば「今日は何していたの?」という質問に対して応答の選択肢の幅が広い。こういった処理は機械にはとても難しいものになります。そこで、機械が処理をできるようにするため、正解の応答の元となる教師データが必要になってきます。

対話の生成をおこないたい場合、必要な教師データは100万行(発話と応答のペアが100万件)にものぼります。そのくらいのデータがあればリアルな対話になってきます。

アメリカだと、企業も含めデータを一般に公開していくという流れがあり、英語の対話データはたくさん存在しています。しかし、日本語の対話データとなると圧倒的に数が少ないのが現状です。国内企業のなかには自社で対話データを保有しているケースもあるのですが。著作権の問題などを理由にほとんど一般公開されていません。

日本語における対話を研究するにあたり、自分たちで必要な質と量のデータを集める必要がありました。データの収集には人を雇って書き起こす方法もありますが、それでは非常に効率が悪い。数人雇っても1か月で数千~数万くらいしか集められません。

そこで私は、クラウドソーシングを利用して対話データを集めることにしました。ランサーズは周りの研究者も利用していましたし、言語処理分野を研究している人たちのなかでは、クラウドソーシングを活用してデータを収集するのはスタンダードな選択でした。

事例集ダウンロード

収集したデータをもとに対話コーパスを作成

--ランサーズを使ってデータを収集する際に注意した点はありますか?
まず、収集したデータ数万行分で選択して答えられる最低限で応答ができるシステムを作りました。そして、システムとは別に利用者自身が自由に応答するプラットホームを提供することで、そのログを自身で収集し、最終的には対話ログを公開できるようなライセンスにしました。

本来であれば、対話の総合的なコーパスを作りたかったのでドメイン(テーマ)で絞りたくはなかったというのが本音です。しかし様々な事情もあり、制作するドメインは「グルメ」にしました。

対話のデータを作るうえでは、多くの人になじみがあって、かつデータが集めやすいドメインは何かを考える必要がありました。ドメインの選定は、実は研究におけるデータ収集のなかでも重要な要素でした。

「グルメ」の場合は、キーワードを入れるとそれだけで食事に関するデータが収集できるんです。つまり、ドメインに対するシードの判断が容易です。かつクラウドソーシングで応えてくれる側(データ入力してくれる人)の方にも馴染みがあり、発言に対して応答しやすいという意味で、一番選びやすかった「グルメ」をドメインに設定しました。

ランサーズでデータ入力をしてくれた方々が、みなさんまじめに考えて答えてくれたので、当初想定していたよりも良い応答がたくさん集まりました。注意したのは、一人にたくさんの応答文の作成をお願いするのではなく、分散して聞くようにしたところ。対話の応答は、いくらでも答えられるんです。応答文の作成を100個お願いしたら、誰でも途中で適当になってきてしまいますよね。

また、クラウドソーシングを利用して収集したデータは、基本的には著作権を譲渡してもらえば公開することができます。ですが、著作権が譲渡されているからと言って、まったくチェックをせずにデータを公開することはできません。Web上で拾ったものが、そのまま入力されているといったことも決してないとは言い切れないので。こういった部分は常に注意深くおこなう必要があります。

クラウドソーシングと言語処理の相性は良好

--言語処理においてクラウドソーシングを活用するポイントは?
対話の生成には大量のデータが必要と言いましたが、もちろんデータ数は多いに越したことはありません。ただ一方で、どれだけきれいなデータを作ったかというのも重要になります。対話の研究だと、ツイッターのデータで学習させるのか、それともデータを選定して学習させるのかでアウトプットの精度がものすごく変わります。

クラウドソーシングを利用して、よりきれいなデータを作ろうと思えば作ることもできます。数と質どちらも重要ですが、加えてクラウドソーシングであれば自分が作りたいドメインで作れるというのも良いですね。

クラウドソーシングを自然言語処理研究に活用するのは英語圏ではメジャーですし、調べればいろいろな事例が出てきます。研究に必要な資源をどう作るかというところが重視されている部分もあり、クラウドソーシングを利用して大量のデータ集めをする、いかにきれいなデータを作るかというのが一つのタスクとして確立されていると思います。それに、対話だと幅広い応答が必要になるので、いろいろな層がいたほうがいい。多種多様な人にお願いできるクラウドソーシングはぴったりですね。

今後、日本語でももっと自然な対話ができるようになる日が来ると思います。言語情報が理解できるようになってしまえば、Q&Aなど、機械が応えられるようになるのは間違いありません。たとえば、web上で質問を投稿して応えてもらうものなどは、実はネットから探して来れば答えは基本的にあるものが多いと思います。そういうものはすべて置き換わると思います。

集めにくいデータを収集するというのは、クラウドソーシングには向いています。人でしか作れない情報というのが、たくさんあるからです。特に自然言語処理の領域における機械学習とは相性が良いので今後も利用は増えていくと思います。

事例集ダウンロード