我可以访问非常大的数据集。数据来自四种类型之一的人们在听音乐摘录时的MEG录音。数据如下:
- 6个科目
- 3次实验重复(时期)
- 每个时期120次试用
- 275个MEG通道在500Hz(= 4000个样本)下每次试验8秒的数据
因此,这里的每个“示例”都是一个大小为[4000x275]的矩阵,并且有2160个此类示例,并且在进行任何特征提取之前。目的是根据大脑信号(4类分类)预测类型。
显然,这里存在一些具有挑战性的问题,即:
- 数据集不适合内存
- 数据中将存在很强的时间相关性,并且受试者间的差异将很大。结果,如何分割数据并不明显
- 信噪比非常低
- 目前尚不清楚分类器的正确功能是什么
依次进行以下操作:
一个人可以做很多事情。首先,我们可以安全地将采样频率从500Hz降低到200Hz,因为即使考虑到奈奎斯特极限,大脑活动也不会真正发生在100Hz以上。我们也可以从一组渠道中进行抽样(例如,在听觉区域上方居中),但我们不愿先验,因为在其他区域(额叶等)可能会有一些有趣的活动。我们可能还可以删除一部分时间窗口。也许只有前2个对任务很重要?这不是真的。当然每个人都会大喊“ 降维!”,但这也不是一件容易的事。首先,我们必须非常小心地进行训练/测试拆分(请参阅2.),并且在生成特征之前还是之后也不很明显。其次,除了昂贵之外交叉验证或艰苦的视觉检查,没有明显的方法来选择合适的方法或合适的尺寸,我们当然可以仅使用PCA,ICA或随机投影,并希望获得最好的结果。
这很棘手。如果我们在训练集中有连续的样本,我们可能会过度拟合训练集,而如果我们将连续的样本分成训练和测试集,则我们可能会不足以适应训练集,但仍然可能会过度拟合测试集。这里似乎有多种选择:
- 单科目分类。各个科目各取所需,并根据时代划分。这应该是最简单的任务,因为我们没有试图跨大脑进行预测。在这个范围内,可以使用两个剩余的时期进行交叉验证。为了完整性,应该旋转所有组合。我们只报告所有主题的平均准确性。当然,我们不会期望这些模型能很好地推广。
- 学科内分类。将所有主题放在一起,并根据时代划分。实际上,这可能是最简单的任务,因为我们将看到所有受训的对象。但是,我们可能不会期望这些模型能很好地推广到新主题。在这个范围内,可以使用两个剩余的时期进行交叉验证。为了完整性,应该旋转所有组合。
- 学科间分类。也称为“留一法”,其中将单个科目作为测试数据,其余的用于训练。然后,我们将轮流浏览所有主题。然后将对主题执行交叉验证。我们希望这将是一个更加困难的任务,因为我们每次都试图在一个“新大脑”上进行预测。尽管存在重测信度(即时间相关性导致多少过度拟合)的问题,但我们希望模型能够很好地推广到更大的人群。
这是一个典型的“大海捞针”问题-与音乐体裁或任何体裁特定处理有关的实际信号与大脑活动的“汤”相比可能微不足道。还有一些伪造品,只能被部分去除(主要与移动有关)。我们从数据中得出的任何特征以及处理数据的任何方式都应避免破坏部分感兴趣的信号。
在这里可以想象做各种事情。第一种是简单地将原始数据(连接到向量中)用作特征向量。我不确定这会带来多大的收获-我认为这些向量本质上可能是统一随机的。这确实是一个信号处理问题,但是可以遵循一些一般准则。一种方法是在滑动窗口上进行标准傅里叶分析,从中可以将分量分成不同的频带(α/β/γ等),并将这些统计量(平均值,标准偏差)用作特征。或者可以使用小波,希尔伯特变换,甚至尝试寻找混沌吸引子。当然,我们可以选择内核(线性,多项式,RBF等),以乘以排列的数量。也许最好的做法是生成尽可能多的不同功能集,然后使用MKL或增强方法将它们组合在一起。
您将如何处理这种数据集(如果不是专门的话)?一路上我有什么想念的吗?如果不花费大量的研究时间和计算资源,最可能成功的策略是什么?