機械学習で次に声がつきそうなモバマスアイドルを予測できるのか？（準備編）

ご無沙汰しております。烏龍茶です。

最近いろいろあって機械学習のイロハのイぐらいをべんきょうしたので、なんかモバマスで応用して面白いことできないもんかな～と思っておりました。しかしゲームのユーザー数は公称500万（本家）＋1200万ダウンロード（デレステ）のモバマス、プロデューサーさんの中にエンジニアは少なからずいるでしょうし、中には既に機械学習でなんかしようと考えた（もしくは既になんかした）人もいるでしょう。そこでまず私は「モバマス　機械学習」でググってみました。するとこんなツイートが……

モバマスは機械学習してトレードで利益出すゲームだから。あれはリアルタイムトレードゲームだから。
— chokudai(高橋直大) (@chokudai) 2014年9月28日

あっやばい（両方の意味で）本職の人や……

しかしながら私にはフリトレの相場はよくわかりませんし、あとフリトレの相場をスクレイピングする技術もよく知りません（あとBANされそう）。また、最近デレステのイベント等で心がささくれ立っていたこともあり、早く次に声がつくアイドルが知りたい！というか俺の担当アイドルに声をつけろ！というお気持ちもありました。そこで、今回はフリトレよりももうちょっとピュアな題材として、「次に声がつきそうなアイドル」を選んでみることにしました。

※この記事と以降の記事では仰々しく説明していますが、今回やることは少しパソコンに詳しい人なら誰でもできます。
※機械学習等にあまり詳しくない方にも分かりやすいように説明するつもりですが、分からない点があればコメント等で質問してもらえれば答えます。
※筆者はほとんど素人なので、本職の統計屋さんや人工知能屋さんから見て不正確である・誤っている部分があればそれとなく指摘していただけると非常に有り難いです。

予測の流れ

今回の予測は以下のような流れになります。

モバマスアイドルについてのいろんな情報を集めてまとめる
そのデータが声がつくかどうかに本当に関係があるのか確かめる
教師あり学習を用いて、あるモバマスアイドルに声がついているのかどうか判別する分類器を作る
ボイス未実装のアイドルについての情報を分類器に渡して、ボイスがついているのかどうか判別してもらう
分類器が「このアイドルはボイスがついています！！」と言ったアイドルは近々声がつくと思われる（おわり）

今後のブログで以上の流れについて逐一説明・報告していくことになりますが、今回は「教師あり学習」について説明してみたいと思います。

教師あり学習とは？

教師あり学習とは、人間が機械の先生となって学習例となるデータを渡し、あるものごとについて判断できるような機械を作るという手法のことです。機械学習の手法の中でも特に有力な分野の1つです。この説明ではちょっと抽象的ですし、あまりむずかしいことを言ってもしょうがないので、例としてモバマスアイドルを用いて教師あり学習について説明してみることにします。

例えば、モバマスには前川みくと多田李衣菜というアイドルがいます。

彼女たちを見慣れている我々からすれば、どちらが前川みくでどちらが多田李衣菜かは簡単に見分けることができるでしょう。これは2人の新しいカードが出てもそうですし、二次創作で2人を描いたイラストであっても同じで、かなり高い確率で描かれている女の子がみくか李衣菜かを言い当てることができます。

なぜこのようなことが可能なのかというと、それはこれまでに我々が2人のイラストを多く見てきたからです。いろいろなイラストを見てきた結果、前川みくという女の子の特徴、そして多田李衣菜という女の子の特徴も同様に「なんとなく」頭の中に叩き込まれてきたわけです。

では、コンピュータにも同じようにたくさんのみくと李衣菜のイラストを見せて2人の特徴を学習させれば、コンピュータも我々と同様に2人を判別できるようになるのではないでしょうか。これが「教師あり学習」の原理です。

例えば、

この画像は前川みくです。これに対して、

この画像は多田李衣菜です。この画像を比べると、

みくは頭にネコミミをつけているが、李衣菜はつけていない
みくはヘッドホンを首にかけていないが、李衣菜はかけている
みくよりも李衣菜の髪の色の方が明るい

などの特徴があることがわかります。ここでは2枚しか画像を挙げませんでしたが、同じようにコンピュータに対して大量に画像を見せれば、我々が「なんとなく」把握しているみくと李衣菜の特徴をコンピュータも同様に把握でき、新しくみくか李衣菜が写った画像を見せればどちらの画像なのか判別できるようになるというのが教師あり学習の理屈です。*1

ちなみに、これからやろうとしている予測では数値で表された情報をコンピュータに渡すので、画像を渡して学習させる上の例よりも遥かに楽です。

以降の流れ

ということで、今回はまず教師あり学習について簡単に説明してみました。以降は先に述べた「予測の流れ」に沿っていろいろとやるわけですが、次はExcelを用いてモバマスアイドルについてのデータを集計・分析するところから説明しようかと思います。その後は実際にPythonというプログラミング言語を用いて分類器を作っていきます。

夏休みの間にある程度形になればいいなぁと思っていますが、何らかのアクシデント等が発生する可能性も考えられるので、あまり期待せずに見守っていただければ幸いです。

*1:ここでは学習した情報を元に新しく渡されたデータがみくか李衣菜かを判別する「分類」について説明しましたが、学習した情報を元に新しく渡されたデータから何らかの数値を算出する「回帰」というのもあります。例えばイベントの事情やアイドルの人気から上位報酬アイドルの相場を算出するみたいな話は「回帰」です。これからやろうとしていることは「分類」です