• TOP
  • ブログ
  • そば打ちが趣味になり、健康の話題が増えるのは〇〇歳以上??

ホットリンク 公式ブログ

データから見えてくる注目のトピックスをとりあげます。

テック

そば打ちが趣味になり、健康の話題が増えるのは〇〇歳以上?? 〜ユーザの属性推定こぼれ話〜

20161129_shutterstock_520580149

開発本部研究開発グループR&Dチーム マネージャーの榊です。

前回前々回と真面目な技術的な話をしてきましたが、今回は嗜好を変えて、ソーシャルメディア研究から見えるユニークな分析結果の話を紹介したいと思います。

弊社では、ソーシャルメディア分析のための「クチコミ@係長」をSaaS提供していますが、その中のウリの機能の一つとして、「Twitterユーザ属性分析機能」というものがあります。これは、ある話題について、性別(男女)、地域(地方)、年代(10代〜60代)のそれぞれの分布を定量評価する機能です。これらのユーザ属性は、デモグラフィクスとも呼ばれ、既存の社会調査やマーケティングなどでも一般的な人の属性情報です。このように既存の調査手法で使われてきた属性情報を用いることで、ソーシャルメディア分析の結果を他の調査による結果と比較することが可能になります。

しかし、匿名性の高いソーシャルメディアであるTwitterは、ユーザ毎にそのような属性情報が明示されているわけではありません。では、どのように各ユーザの性別や地域、年代を判別しているのでしょうか?

答えは、「機械学習手法を用いて、各ユーザの発言内容やプロフィール情報からユーザ属性を推定している」です。実は、ソーシャルメディアの投稿内容から書き手の性別や年代を一定の精度で推定できることは、学術界では10年近く前から知られています。最近は、IBMのWatsonが書き手の性格を推定する技術まで発表しています。「名は体を表す」ではないですが、投稿者が想像している以上に、人がソーシャルメディアに書く内容には書き手の特徴が現れているのです。

学習用データと文書分類手法を組み合わせ、ユーザ属性を推測

では、この技術についてごく簡単に説明します。まずユーザ属性推定では、「属性の推定」を「分類問題」と捉え直します。たとえば、性別推定であれば、書き手を「男性」か「女性」の2つのカテゴリに分類する問題だと考えられます。具体的な推定の手法は下の図の通りです。

20161130_blog1

まず事前学習フェーズでは、学習用データとして、「男性と女性」「それぞれのTwitterの投稿」「プロフィール文」を一定人数分集めます。これらに教師あり学習手法の一つであるSupport Vector Machineと呼ばれる手法を適用し、それぞれから男性らしい文書の特徴、女性らしい文書の特徴を学習させて、男女分類器を作成します。

次に推定フェーズでは、性別がわからないユーザの投稿とプロフィール文を男女分類器に入力すると、より男性らしいか、もしくは女性らしいかが出力されます。この出力をユーザの性別として用いています。

このように学習用データと文書分類手法を組み合わせることで、様々なユーザ属性の推定を実現することができます。

※なお、Support Vector Machineは「とりあえずSVM」と呼ばれるくらい安定して高精度が出るデフェクトスタンダードな教師あり分類手法です。

実例紹介、自分を“おじさん”“おばさん”と呼び出すのは50代から!

さて、では実際に、どのような文書的な特徴からユーザ属性が推定できるのでしょうか?本ブログでは、各ユーザの属性の推定に強く影響している文書の特徴の中から、興味深いものをピックアップして紹介します。

下記は男女推定で、それぞれ文書の男性的な特徴と女性的な特徴です。「自己紹介」はプロフィール文に出現した単語、「発言」は投稿内に出現した単語を表しています。

まず、下記の表から、自己紹介で男性は「男子」、女性は「女の子」「女性」などと名乗っていることがわかります。次に投稿内で「女子高生」と発言するのはもっぱら男性であることがわかります。またそれぞれ、男性は「腐女子」とは言いますが「腐男子」とは言わず、逆に女性は「腐男子」とは言いますが「腐女子」とは言わないことがわかります。男性の方、女性の方はそれぞれ思い当たりがあるのではないでしょうか?

20161130_blog2

次に同じ方法で、大学生と大学生以外を表した文書の特徴を下記に示します。つまり、「大学生」には大学生が言いそうな表現、「それ以外」には大学生が言わなさそうな表現が含まれていると考えられます。まず、「大学生」に着目すると、「回生」「レポート」「サークル」「履修登録」などまさに大学生らしい単語が並んでいます。大学生の方はわからないかもしれませんが、社会人からしてみると確かにそれらの言葉は使わないですね。次に「それ以外」に着目しますと、「遠足」「職場」など確かに大学生が発言しなさそうな内容であります。また自己紹介に「海外旅行」があるのも、おそらく“趣味が海外旅行”のような内容かと思いますので、確かに大学生が趣味にするのは経済的に難しいのかもしれません。

20161130_blog3

最後に、50代の年代推定で有効だった特徴を紹介します。まず、自己紹介に「おじさん」「おばさん」と書くのは、50代の方のようです。また自己紹介に「自己紹介:蕎麦」とあるのは、“趣味がそば打ち”ということだと推測されます。確かに、年配の方になるとそば打ちを始められる方が多いようです(実際、執筆者の親も50代でそば打ちを始めました(笑))。また、ちょっとショッキングなのが「発言:膝」であり、確かに執筆者の周囲も年々健康の話題が増えていますが、健康に関する話題をとりあげることも50歳の特徴なのかもしれません。

20161130_blog4

今回は、実際に弊社のサービスで用いている機械学習の分析結果から、興味深い事例を紹介しました。ソーシャルメディア分析というと、得てしてビジネス的な活用の方が着目されがちですが、このようにデータの分析結果自体からユニークな結果が得られたりします。実際、ソーシャルメディアというのは人の行動や思考の蓄積ですので、それを分析することで人間自身の特徴や日々の営みが見え隠れしてきて、個人的には非常に面白く、かつポテンシャルのあるデータだと考えています。

このような分析の面白さもソーシャルメディアの特徴の一つですので、データ分析に取り組んだことがない方もぜひ一度分析してみてはいかがでしょうか?

▼これまでの榊さんに関するテックブログ▼

知られざる顔文字の世界

≪初・テックブログ≫「第9回テキストマイニング・シンポジウム」レポート

≪社員紹介≫ホットリンクで博士と呼ばれている男