处理非常大的时间序列数据集


10

我可以访问非常大的数据集。数据来自四种类型之一的人们在听音乐摘录时的MEG录音。数据如下:

  • 6个科目
  • 3次实验重复(时期)
  • 每个时期120次试用
  • 275个MEG通道在500Hz(= 4000个样本)下每次试验8秒的数据

因此,这里的每个“示例”都是一个大小为[4000x275]的矩阵,并且有2160个此类示例,并且在进行任何特征提取之前。目的是根据大脑信号(4类分类)预测类型。

显然,这里存在一些具有挑战性的问题,即:

  1. 数据集不适合内存
  2. 数据中将存在很强的时间相关性,并且受试者间的差异将很大。结果,如何分割数据并不明显
  3. 信噪比非常低
  4. 目前尚不清楚分类器的正确功能是什么

依次进行以下操作:

  1. 一个人可以做很多事情。首先,我们可以安全地将采样频率从500Hz降低到200Hz,因为即使考虑到奈奎斯特极限,大脑活动也不会真正发生在100Hz以上。我们也可以从一组渠道中进行抽样(例如,在听觉区域上方居中),但我们不愿先验,因为在其他区域(额叶等)可能会有一些有趣的活动。我们可能还可以删除一部分时间窗口。也许只有前2个对任务很重要?这不是真的。当然每个人都会大喊“ 降维!”,但这也不是一件容易的事。首先,我们必须非常小心地进行训练/测试拆分(请参阅2.),并且在生成特征之前还是之后也不很明显。其次,除了昂贵之外交叉验证或艰苦的视觉检查,没有明显的方法来选择合适的方法或合适的尺寸,我们当然可以仅使用PCA,ICA或随机投影,并希望获得最好的结果。

  2. 这很棘手。如果我们在训练集中有连续的样本,我们可能会过度拟合训练集,而如果我们将连续的样本分成训练和测试集,则我们可能会不足以适应训练集,但仍然可能会过度拟合测试集。这里似乎有多种选择:

    • 单科目分类。各个科目各取所需,并根据时代划分。这应该是最简单的任务,因为我们没有试图跨大脑进行预测。在这个范围内,可以使用两个剩余的时期进行交叉验证。为了完整性,应该旋转所有组合。我们只报告所有主题的平均准确性。当然,我们不会期望这些模型能很好地推广。
    • 学科内分类。将所有主题放在一起,并根据时代划分。实际上,这可能是最简单的任务,因为我们将看到所有受训的对象。但是,我们可能不会期望这些模型能很好地推广到新主题。在这个范围内,可以使用两个剩余的时期进行交叉验证。为了完整性,应该旋转所有组合。
    • 学科间分类。也称为“留一法”,其中将单个科目作为测试数据,其余的用于训练。然后,我们将轮流浏览所有主题。然后将对主题执行交叉验证。我们希望这将是一个更加困难的任务,因为我们每次都试图在一个“新大脑”上进行预测。尽管存在重测信度(即时间相关性导致多少过度拟合)的问题,但我们希望模型能够很好地推广到更大的人群。
  3. 这是一个典型的“大海捞针”问题-与音乐体裁或任何体裁特定处理有关的实际信号与大脑活动的“汤”相比可能微不足道。还有一些伪造品,只能被部分去除(主要与移动有关)。我们从数据中得出的任何特征以及处理数据的任何方式都应避免破坏部分感兴趣的信号。

  4. 在这里可以想象做各种事情。第一种是简单地将原始数据(连接到向量中)用作特征向量。我不确定这会带来多大的收获-我认为这些向量本质上可能是统一随机的。这确实是一个信号处理问题,但是可以遵循一些一般准则。一种方法是在滑动窗口上进行标准傅里叶分析,从中可以将分量分成不同的频带(α/β/γ等),并将这些统计量(平均值,标准偏差)用作特征。或者可以使用小波,希尔伯特变换,甚至尝试寻找混沌吸引子。当然,我们可以选择内核(线性,多项式,RBF等),以乘以排列的数量。也许最好的做法是生成尽可能多的不同功能集,然后使用MKL或增强方法将它们组合在一起。

您将如何处理这种数据集(如果不是专门的话)?一路上我有什么想念的吗?如果不花费大量的研究时间和计算资源,最可能成功的策略是什么?

Answers:


4

@tdc。您在此处提到的有关神经科学数据分析的所有其他问题,包括:降维,对象分类内/之间,信噪比等,均由EEGLAB工具箱处理,这些工具箱是专门设计的用于处理这类神经科学数据:

EEGLAB是一个交互式Matlab工具箱,用于处理连续的和事件相关的EEG,MEG和其他电生理数据,并结合了独立成分分析(ICA),时间/频率分析,伪影排除,事件相关的统计数据以及几种有用的平均值可视化模式和单次试验数据。

因此,关于您的问题“在没有花费大量研究时间的情况下最成功的策略是什么?”我想鼓励您观看EEGLAB在线研讨会,然后从那里继续。

更新:有关更多机器学习的知识,请看一下(新的)BCILAB模型


1
过去,我实际上已经使用过EEGLAB,尽管主要是它的基础功能,而不是完整的GUI(它往往有点慢且不稳定)。尽管我承认我已经有一段时间没看过了,但是它主要是针对质量单变量分析而不是多变量分析。你有经验吗?
tdc 2012年

我认为他们在过去两年中取得了长足的进步...而且我同时使用了GUI和matlab函数。从2010年开始的这个研讨会非常有用,并且修复了许多错误,添加了许多模型,例如RESEARCHDE和其他。我为它节省了时间和金钱感到非常满意,但是请注意,我主要处理的是EEG数据,而不是MEG。
2012年

1
好有趣。原则上,我看不出EEG和MEG之间有什么区别,因为除了假象的类型和传感器的数量外,它们实际上都是在测量脑电活动。您是否将EEGLAB与机器学习相结合?
tdc 2012年

当然。每时每刻。一切都在matlab中...因此,一旦将数据加载到EEGLAB中。您可以使用PCA / ICA(这就是我的专长),然后训练您喜欢的分类器/群集SVM,费舍尔或k-均值。
2012年

1
这是一个很好的答案,但是很高兴看到关于如何独立于依赖专有系统的工具箱来处理这些问题的摘要。
明亮的星星
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.