Numer.ai已经存在了一段时间,并且在网络上似乎只有很少的帖子或其他讨论。
系统不时更改,今天的设置如下:
- 训练(N = 96K)和测试(N = 33K)具有21个特征的数据,这些特征具有[0,1]中的连续值和二进制目标。
- 数据是干净的(无缺失值),每2周更新一次。您可以上传预测(在测试集上)并查看对数损失。测试数据的一部分甚至是实时数据,您都会获得良好预测的报酬。
我想讨论的是:
由于功能完全是匿名的,我认为我们无法进行太多的功能工程。所以我的方法很机械:
- 灵感来自于这个我使用的分类算法过滤掉哪些适合我的测试数据最好的训练数据。
- 找出一些不错的预处理
- 训练好的分类算法
- 建立他们的合奏(堆叠,..)。
具体问题:
关于步骤1:您有使用这种方法的经验吗?假设我对火车样本属于测试的概率(通常低于0.5)进行排序,然后取最大的K概率。您将如何选择K?我尝试使用15K ..但主要是为了在第3步中加快训练速度而设置了一个小的训练数据集。
关于步骤2:数据已经为0,1比例。如果我应用任何(类似于PCA的)线性变换,那么我将打破这一规模。如果您有这样的数值数据并且不知道实际上是什么,那么您将在预处理中尝试什么。
PS:我知道,因为numer.ai付钱给人们讨论这可以帮助我赚钱。但这是公开的,这将对那里的所有人有所帮助...
PPS:当今的排行榜有一个有趣的模式:对数损失为0.64xx的前两名,然后是0.66xx的第三名,然后大多数预测指标达到0.6888x。
因此,似乎只有很小的顶尖领域,并且有很多中等成功的人(包括我)。