• TOP
  • ブログ
  • ソーシャルビッグデータからの社会課題抽出に成功

ホットリンク 公式ブログ

データから見えてくる注目のトピックスをとりあげます。

テック

ソーシャルビッグデータからの社会課題抽出に成功

R&D部のです。
先⽇、当社と電通PR・東京⼤学との共同研究成果についてプレスリリースが発表されました。

東大・電通PR・ホットリンクがAIでビッグデータから社会課題を抽出し議員に調査

今⽇のブログでは、こちらの成果内容について簡単にご紹介したいと思います。 詳細はリンク先をご覧ください。

概要

背景

本共同研究では、ソーシャルビッグデータからの社会課題抽出に取り組みました。
最近、政治の分野では、エビデンスに基づく政策形成(Evidence-Based Policy Making、 以下EBPM) の重要性が指摘されています。EBPM とは科学的な⼿法による客観的根拠(エビデンス)に基づいて、政策の企画⽴案やその評価及び政策への反映などを⾏なって⾏くべきだ、という考え⽅です。政策研究⼤学院⼤学によるSciRex(政策のための科学)推進事業などが代表的な事例です。
⼀⽅、弊社が蓄積するソーシャルビッグデータには、個々⼈の⽇々の関⼼事や意⾒などに関するデータが含まれています。⾔い換えれば、ソーシャルビッグデータには⼈々の興味や関⼼が多く埋もれていると考えられます。それらの情報をうまく抽出・分析することでEBPMなど政策分野へのエビデンスとしての活⽤への可能性が⼗分秘められていると考えられます。

そこで本共同研究では、ソーシャルビッグデータから社会課題を発見し、その語られ方によって4つのタイプに分類することを試みました。
そして、それぞれの社会課題について、政策立案の役割も担っている国会議員がどの程度認知しているかをアンケート調査で検証しました。

本共同研究の成果を簡単にまとめると以下のとおりです。

・そもそも社会課題をソーシャルビッグデータから推定することは可能なのか
・どういう⼈々がどのような社会課題を議論しているのか  

全体の仕組みは下図のようになっています。

本共同研究は⼤きく分けて3つのパートに分かれます。

・ソーシャルビッグデータからの社会課題を抽出する
・抽出した社会課題について、Twitter上でのコミュニティを⽤いて4種類に分類する
・国会議員へのアンケート結果から、4種類の社会課題の特徴を分析する

1.社会課題の抽出

ここではTwitterデータから社会課題となり得る固有名詞を抽出します。 具体的には、⾃然⾔語処理における固有表現抽出のアプローチを取ります。

 

  1. 専⾨家により「未来投資戦略2017」から、社会課題を抽出する
  2. 抽出した社会課題について、それを含むツイートに⼈⼿でアノテーションを⾏い、訓練データとする
  3. 訓練データに固有表現抽出のアプローチを⽤いて、社会課題抽出モデルを構築する
  4. 学習した社会課題抽出モデルに多量のツイートを⼊⼒し、社会課題の候補を抽出する

機械学習には、抽出したい固有表現の品詞情報や係り受けなど、下図のようなテキストに関する特徴量、固有表現を含む投稿を⾏ったユーザの社会ネットワークに関する特徴量を⽤いました。

結果として、テキストに関する特徴量に加え、投稿ユーザの社会ネットワークに関する特徴量を追加することで、より⾼い精度で社会課題を推定することできました。

2.抽出した社会課題の分類

次に抽出した社会課題を、ソーシャルメディア上の語られ⽅に基づいて4つに分類を⾏います。 ここでは、Twitter上での⾔及数と⾔及していたコミュニティの偏り度で下表のような4つに分類しました。

ここでのコミュニティの偏り度は、過去にブログ記事でも紹介した「トピックエントロピー」という⼿法を⽤いています。

下図が抽出した社会課題を4つに分類した結果となります。

国会議員に対するアンケート調査

最後に、1.で抽出した社会課題について、国会議員に認識度と必要性に関するアンケートを⾏い、2.で提案した分類ごとになんらかの特徴が⾒られるかどうかの分析を⾏いました。
抽出した社会課題に対する国会議員の認識度は下図です。

また、抽出した社会課題に対する国会議員にとっての必要度は下図です。

結果として、「特定のコミュニティが話題にしている課題」や「特定のコミュニティにとっての潜在的な課題」について国会議員の認識度が⾼いことがわかりました。⼀⽅、「全体に広く分布している潜在的な課題」については国会議員の認識度が低い、つまり声が届きにくいことがわかりました。 必要度についても同様の傾向が⾒られました。

国会議員に対する情報収集に関するアンケート調査

今回の分析の補⾜情報として、国会議員がイノベーションを考える際に求めている情報/⽤いている情報源についてのアンケートも⾏いましたので、合わせて掲載します。
下図は国会議員がイノベーションを考える際に必要な情報とその充⾜度を表した図です。

図より、国会議員の⽅々は、「基礎情報・データ・統計」「科学的な分析・解説」「経済効果等の試算結果」などのエビエンスとなり得る情報を必要としていますが、それらが充⾜されていないことが明らかになりました。
また下図は国会議員がイノベーションを考える際に利⽤している情報源とそれに対する信頼度を表した図です。

図より、国会議員の⽅々がよく利⽤している情報源は、「新聞・テレビ・ラジオ・雑誌等の報道」「関係省庁、「勉強会・研究会」であり、また、信頼している情報源はは「国会図書館」「勉強会・研究会」「関係省庁」等であることがわかりました。

まとめ

再掲ですが、本共同研究を通じて、下記のような成果が得られました。

・AI技術を⽤いて、ソーシャルビッグデータから社会課題を抽出することに成功した
・ツイッターデータ分析と国会議員への調査の結果,ある特徴を持つ社会課題については、国会議員に⼗分に認識されていないことが明らかになった
・国会議員への調査の結果、データに基づくエビデンスが不⾜していることが明らかになった

今後は、国会議員への情報提供の⼀つとして、ソーシャルメディアからAIを活⽤して、顕在化する前の社会課題を抽出していく仕組みをつくっていきたいと考えています。

おわりに

当社R&D部では,⾃社のための研究開発を⾏うだけではなく、学術イベントのスポンサー・⼤学との共同研究の遂⾏・研究成果の対外発表/論⽂誌への投稿など、学術コミュニティへの貢献を積極的に⾏っています。


当社R&D部のアカデミックとの協⼒体制について
http://www.hottolink.co.jp/company/lab/