• TOP
  • ブログ
  • 【参加報告】言語処理学会の一大イベント「言語処理学会第24回年次大会(NLP2018)」

ホットリンク 公式ブログ

データから見えてくる注目のトピックスをとりあげます。

テック

【参加報告】言語処理学会の一大イベント「言語処理学会第24回年次大会(NLP2018)」

R&D部部長のです。今回は、学術イベントへの参加報告をお届けします。

 

3月12~16日に、岡山にて「言語処理学会第24回年次大会(以下、NLP2018)」という学術イベントが開催されました。今回、当社R&D部メンバー2名で、聴講という形で本イベントに参加させて頂きました。

以下、イベントの雑感、イベントにて行われた発表の一部、発表論文の実装についてご紹介します。

 

 概要

言語処理学会年次大会とは、自然言語処理および関連領域に携わる、研究者・企業技術者・学生が一同に集う言語処理学会の一大イベントです。

本イベントの内容は多岐にわたります。研究者・企業人・学生による研究発表はもちろん、チュートリアルや若手による企画、テーマを絞ったワークショップ、スポンサーとの交流会など、様々な企画が行われます。

参加される方々の動機もさまざまです。研究動向の把握、研究実績の公開およびフィードバックの獲得、交流および人脈構築など、いろいろな目的の方がいらっしゃいます。

当社は、自然言語処理技術をビジネスに活用しております。このため研究動向の把握や共同研究の可能性などを求めて、本イベントに参加させて頂きました。主催いただいた実行委員会の皆様には、改めてお礼申し上げます。

 

発表に関する所感

NLP2018で発表を聴講した所感について述べたいと思います。今回様々な研究発表を聴講し、大きく2つの所感を持ちました。

1点目はDeep Learining(ニューラルネットワーク)によるアプローチが主流になってきたな、という印象を受けました。

10年くらい前の機械学習・自然言語処理の分野では、「とりあえずSVM※1(を試してみる)」ということがよく言われました。それだけ有力な手法だったということです。今はこれが「とりあえずDeep Learning」に取って代わられたといえます。ことほど左様に、Deep Learningを用いる研究が多く見受けられました。
※1 Support Vector Machine、 教師有り学習の代表的な手法の一つ。

 こうした動向の背景としては、ふたつの要因が指摘できそうです。一つは性能の優位性、もうひとつは実装の容易さです。後者の原動力は、開発環境、いわゆるフレームワークの進展もさることながら、ニューラルネットワークを学習する際の仕組みが汎用的であることも寄与していそうです。すなわち、単純なコンポーネントを組み合わせて、自動微分により勾配を算出し、確率的勾配降下法により最適化を行う…という一連の仕組みです。

研究者・エンジニアの方々の中には、アルゴリズムの実装に要する時間が桁違いに減少した、という感想をお持ちの方も多いのではないでしょうか。

2点目は、論文に用いたデータセットやソースコードを公開する方が増加してきたことです。

以前は、論文のみが公開されることが一般的でした。従って、論文で提案されている手法を使う場合は、独自に実装するか、著者に問い合わせる必要がありました。つまり、提案手法の有効性を他のタスクやデータセットで検証したくても、容易ではなかったということです。しかし、論文に用いたデータセットやソースコードが公開されることにより、提案手法を容易に試すことができるようになりました。

これは、研究の再現性を担保する意味でも、また提案手法の活用の幅を広げる意味でも、大変素晴らしいことだと思います。今後も、このような傾向が維持・拡大されることを期待しています※2
※2 近年、言語処理を含めたデータ解析・人工知能技術の分野では、論文に用いたソースコードとデータセットを公開することが、国際的に一般的になりつつあります。

 

発表メモ

筆者が聴講させていただいた一般発表のうち、個人的に興味をひかれたものを、以下にいくつか挙げます。(あくまで個人的なリストです)今後の学会等で、研究の進展をお見せいただけるのを楽しみにしています。

  D4-3    サンプリング戦略に基づく単語ベクトルの意味成分とスタイル成分の分離

 発話には「何を伝えるか:意味表現」、「それをどう表現するか:スタイル」の2側面を持つという点に着目し、意味的類似性をスタイル類似性を分離することを試みた研究です。研究の着想も面白かったですが、比較的シンプルな仮説で妥当な結果が得られており、今後の発展が感じられる内容でした。

 

  C6-1    深層コード学習による単語分散表現の圧縮

 応用タスク(例:機械翻訳)においては、単語分散表現の利用が一般的です。しかしモデルの容量が増大するため、従来から容量を圧縮する手法が研究されてきました。本研究では、タスクの性能を損なうことなく、90%超の圧縮率を実現する手法を提案しています。提案手法の定式化では Gumbel-Softmax Trick を用いることにより Denoising Auto-Encoder の枠組みで簡潔に記述されています。このため、実装の容易さおよび、拡張のしやすさに大変すぐれています。

 

  A7-4    関連記事判定のためのニュース記事キーフレーズ抽出

「あるニュースを読んだときに、関連情報を効率良く見つけるサポートしたい」という目的のもと、キーワード抽出によく使われるTF-IDFを改良したNF-IDF、BiGRU-CRFという手法を提案した研究です。実用的かつ具体的なよい問題設定であり、弊社でも機会があれば使いたいと思える内容でした。

 

  C7-1    カーネル法に基づく疎な言語表現のための共起尺度

表現ペアの類似性を評価するには、共起頻度を手がかりするのが一般的です。しかし複雑な表現ペア(例:発話・応答ペア)では観測が疎であるため、正確な評価が困難です。本研究では、各表現における(既存の)カーネル関数を用いることにより、いわばソフトな共起頻度を評価する手法を提案しています。「似ているものが似ているもの同士は似ている」という直感が、簡潔な形で定式化されています。このため、汎用性・応用の幅広さに優れています。原理的には異なるモダリティの表現ペアに対しても適用可能であり、非常に興味深く拝聴しました。

ソースコードの公開

今回、特に興味を持ち、かつ実用性も高いと考えた「C6-1 深層コード学習による単語分散表現の圧縮」について、R&D部のメンバーがコードを実装いたしました。弊社のgithubにて公開しております。どうぞご自由にお使い下さい。

https://github.com/hottolink/compress_word_embedding

 ※なお、著者による実装も公開されております。
https://github.com/zomux/neuralcompressor

 

 発表以外のイベントに関する所感

ワークショップについて

最終日(16日)に2つのワークショップ「形態素解析の今とこれから」「言語処理研究者・技術者の育成と未来への連携」2つが行われました。それぞれNLPの実用性・人材活用という点から見るに、きわめて興味深いテーマです。

自分(榊)は役職上の理由により「言語処理研究者・技術者の育成と未来への連携」の方に参加しました。活発な議論が行われましたが、自分は特に「若手研究者の育成」および「NLPに興味を持ってきてくれる企業の期待と、学会で提供されるコンテンツとの乖離」という点について興味深く聞かせて頂きました。

 その他全般

今回のNLP2018では、託児サポートが準備されていた点に感銘を受けました。また、NLP女子会、NLPパパ会などの個別交流会も開催されていました。

これまでの学会イベントにおいては、どうしても男性社会の側面が強く現出する傾向がありました。しかし、NLP2018では、子連れの研究者(男性・女性問わず)でも参加を容易にしたいという意図が端々に感じられ、非常によい雰囲気のイベントになっていたと思います。

蛇足ながら、自分もNLPパパ会に参加して、「どうやって子育てにコミットしながらパフォーマンスを出すか(そして奥さんの機嫌を損ねないか)」について会話できたのは非常に役立ちました(笑)

 

おわりに

当社R&D部では、自社のための研究開発を行うだけではなく、学術イベントのスポンサー・大学との共同研究の遂行・研究成果の対外発表/論文誌への投稿など、学術コミュニティへの貢献を積極的に行っています。

▼当社R&D部のアカデミックとの協力体制について▼
http://www.hottolink.co.jp/company/lab/

▼ホットリンク では一緒に働く仲間を募集しています!
フロントエンジニアWanted!!次世代コンテンツマーケティングツール開発
AIを活用したビッグデータ解析プロジェクトのエンジニアをWanted!!