自分は競争みたいのが好きで結構空いてるときをみてコンペにでてみたりすることは多いです。基本は遊びなのでガッチガチで1位狙っていくぜーって感じでもないんですが、いろいろな形のコンペに触るのは、それぞれの難しさがあって面白いなーと思います。
2019年7月ごろ「薬物動態パラメータの予測」 SIGNATEのページ 自分がほぼ初めて参加したコンペです。テーブルデータで、化学物質の記述子から「薬物動態パラメータ」という薬として使えるかどうかが数値としてだせるらしく、そのパラメータを予測します。 特徴は、データセットのカラム名がわからないこと。つまり「その列が何を意味しているか」はわからず、ただ列名IDのようなものだけが見えています。 このような形だと、意味を考えて新しい特徴量を生成することはできません なので、効きそうな特徴を残したり組み合わせたりして行うコンペティションでした。 基本的に知識があまりにもなさすぎて、NN組んだり、決定木のモデルが強いんだ〜など知ったりって感じでした。 xgboostやlgboost、catboostあたりをこの辺で知りました。
2019年11月ごろ「マイナビ × SIGNATE Student Cup 2019: 賃貸物件の家賃予測」 SIGNATEのページ 多分2回目です。部屋の間取りや住所などの情報から、部屋の家賃を予測しましょうってコンペです。
このコンペ、1番の特徴は ・外部データを勝手に使用可能 ・外部データを使用してもフォーラムで共有の義務なし という点です。学生だけがでれるとかどうとかってそんなにですね。 個人的には、こういったコンペの「平等さ」がいいなーと思ってたんですが、外部データ使用可能にされると、それも誰がどのデータ使っているかもわからないってなると、正直「自分のスコアが悪い理由の分析」が機能しなくなるんですよね。スコアが悪いのがモデルのせいなのか、特徴量のせいなのか、自分の知らないデータを使われているせいなのかわかりません。運ゲーに思えて来ちゃうんですよね 結果的には「住所を外部データを用いてGPS座標に変換した上でターゲットエンコーディング」をすることで大体正確な家賃が得られたみたいです。この特徴量が見つけられなかったのは残念でした。
2020年5月ごろ「ひろしまQuest2020#stayhome【球種予測部門】」 SIGNATEのページ 3回目のコンペではないですw これはちょっと暇だったから出てみたくらいですが、特徴としては 2017年のデータを使って2019年のある試合のある投手のある投球の球種を予測してください、という無茶振りですw そんなん未来予知なんでできるかーいって話なんですが、そのため、評価関数はMulti-log-lossという、いわばクロスエントロピーのロスの数字ですね。つまり、一般のロスが評価関数として用いられているんですね。当たらないのは仕方ないから確率的に出力せよって感じです。
2019年あたまくらい「写真の撮影年予測」 これは学生対象のクローズドコンペでインターンみたいな感じですね。 1980年くらいから2010年くらいの写真があって、何年に撮影されたかを予測するコンペです。 年単位であてるのは難しいので、正解年±1年で当たってればいいよってことです。 そもそもそんなこと可能なのかな〜っていう興味があって参加しました。 古い写真だと画質が低かったり、色のバリエーションがなかったりします。
2020年8~9月ごろ「splatoon勝敗予測コンペ」 ProbSpaseのページ splatoonの武器などのデータからどちらのチームが勝つかを予測するコンペです。自分はsplatoonプレイヤーとして参戦しましたが、なかなかに無茶なことで、そもそも編成だけでは勝敗は決まらないのがこのゲームの醍醐味ではあるので、ほぼわからないという中でヒントをみつけていくことになります。 元々あまりカラムが多いわけではないので特徴量これ以上何をつくっていいかわからなくなってしまったので、そのまま降参。でもおもしろかった。
2020年8-10月 は広告クリック系などのログデータ系もたくさんさわって、target encodingやcount encodingなどをよく使った。実務系で評価も結構難しいと感じた
逐次更新(8/2)