• TOP
  • ブログ
  • ≪初・テックブログ≫「第9回テキストマイニング・シンポジウム」レポート

ホットリンク 公式ブログ

データから見えてくる注目のトピックスをとりあげます。

テック

≪初・テックブログ≫「第9回テキストマイニング・シンポジウム」レポート ~R&Dチームマネージャーの榊が行く!~

20160916_shutterstock_458469088

本日のブログは、開発本部研究開発グループ(R&Dチーム)マネージャーの榊が担当します!

榊の紹介はこちらのブログをご覧ください。

先日、渋谷にて開催された「第9回テキストマイニング・シンポジウム」に参加し、そちらで弊社の開発内容について発表してきました。本記事では、そちらの参加報告とともに、簡単に発表内容についてご紹介したいと思います。 

 テキストマイニング・シンポジウムは、電子通信情報学会の「言語理解とコミュニケーション研究会」が年2回(関東、関西各1回)開催しているテキストマイニングに関するシンポジウムです。アカデミックな自然言語処理の基礎研究、実際のビジネス現場でのテキストマイニングの応用事例の双方を扱うことで、学術界・産業界の人材がコラボレーションしたり、お互いに新たな知見を得ることを目的としています。実際に、シンポジウムから誕生した共同研究などもあります。(著者が副委員長をしているので、ちょっとした宣伝も兼ねていますすみません。) 

 まず、シンポジウム全体について報告しますと、シンポジウム本体には200名以上の方が、懇親会にも40名近い方が参加され、大盛況でした。 

 1日目の講演では、みずほ銀行様が金融に関するTwitterデータのビジネス活用について、JR西日本様が北陸新幹線に関するツイートから得られた知見をもとにサービス向上・営業推進を行った事例について、それぞれ講演されていました。両社ともに自社でTwitter分析を行っており、ソーシャルメディア活用の市場がますます広がっていることを実感させられました。また、音声認識して電子化したテキストのマイニングするサービスや、IBMワトソンの性格分析の紹介などもあり、非常にリッチな講演内容だったと思います。 

 2日目の講演では、自然言語処理のトップの国際会議で発表された研究者の方からそれぞれの会議での概要やトレンドについて講演されていました。Deep Learningを用いた研究が全体の4割以上を占めているとのことで、近年のDeep Learningブームを実感させられましたが、自然言語処理特有のDeep Learning技術についての特徴や傾向、今後の出てくるであろう技術についてなどの鋭い洞察もされていました。 

 シンポジウムの全体の内容については、下記のページにまとめられていますので、そちらもご参照ください。 

http://www.ieice.org/~nlc/tm_main.html 

さて、弊社の発表ですが、今回は「レポート作成業務支援のための中国語ソーシャルメディア投稿分類システムの構築」というタイトルで発表しました。詳細は下記のスライドをご覧いただきたいですが、一言でいえば「人手で行っていた文書の分類作業を、人工知能技術(機械学習)を用いて自動化した」という研究です。文書の分類とは、たとえばメールのスパムフィルタのようなものです。あらかじめ定められた分類(例の場合は、スパムか非スパムかの2分類)に入力された文書を割り振っていく作業です。 

試行錯誤の結果、実用的な精度で中国語投稿の自動分類ができるようになりました。ただ、個人的にはそのようなメインテーマよりもサブに設定した2つのテーマの方がアピールポイントです。 

1つ目のサブテーマは「機械学習を用いて文書自動分類を実現する際に、どの工夫を優先的に行うべきか?」です。業務でシステムを開発するには開発期間が限られており、すべての工夫をトライすることは難しいため、どういう工夫を優先すべきかを考えなければなりません。結論としては、「下手な工夫をするよりも、事前学習用のデータを大規模化することで精度が高くなる」という結果が得られました。まさに「量が質を駆逐する」ビッグデータの特性が如実に出て、個人的には満足な結果でした。 

2つ目のサブテーマは「中国語に詳しくない研究者が、実用的な精度で文書の自動分類実現できるのか?」です。結論としては「YES」です。弊社で本業務を担当したのは日本人とタイ人であり、どちらも中国語は初心者に毛の生えたレベルでした。(脚注:タイ人が日本の会社で中国語分析をするというのも不思議な状態ですが。。。)それでも、正解と評価尺度を適切に定めて、それが高くなるように機械学習の条件を調整することで、実用的な精度で文書の自動分類を実現することができました。またあらかじめ自社内で中国語分析基盤エンジンを開発し、整備していたのも大きかったと思います。 

 

今回、突然このような技術的な記事がブログに出現したことで、驚かれた方もいるかもしれません。今後、ホットリンクでは、技術的な内容について、皆様の役に立つような情報を積極的に発信していきたいと考えています。今後は「テック」の項目についてもぜひよろしくお願いします。