使用智能手机数据集问题的人类活动识别


9

我是这个社区的新手,希望我的问题很适合这里。作为我的本科数据分析课程的一部分,我选择使用智能手机数据集进行有关人类活动识别的项目。就我而言,这个主题与机器学习和支持向量机有关。我对这种技术还不太熟悉,因此我需要一些帮助。

我已决定遵循此项目构想http://www.inf.ed.ac.uk/teaching/courses/dme/2014/datasets.html(顶部的第一个项目)该项目的目标是确定一个人的活动根据智能手机(三星Galaxy S II)在对象腰部记录的数据进行(例如,行走,行走,向上,行走,下坐,坐着,站立,躺着)。使用其嵌入式加速度计和陀螺仪,数据包括以50Hz恒定速率的3轴线性加速度和3轴角速度。

所有数据集在一个文件夹中给出,带有一些描述和功能标签。数据分为“测试”和“训练”文件,其中数据以这种格式表示:

  2.5717778e-001 -2.3285230e-002 -1.4653762e-002 -9.3840400e-001 -9.2009078e-001 -6.6768331e-001 -9.5250112e-001 -9.2524867e-001 -6.7430222e-001 -8.9408755e-001 -5.5457721e-001 -4.6622295e-001  7.1720847e-001  6.3550240e-001  7.8949666e-001 -8.7776423e-001 -9.9776606e-001 -9.9841381e-001 -9.3434525e-001 -9.7566897e-001 -9.4982365e-001 -8.3047780e-001 -1.6808416e-001 -3.7899553e-001  2.4621698e-001  5.2120364e-001 -4.8779311e-001  4.8228047e-001 -4.5462113e-002  2.1195505e-001 -1.3489443e-001  1.3085848e-001 -1.4176313e-002 -1.0597085e-001  7.3544013e-002 -1.7151642e-001  4.0062978e-002  7.6988933e-002 -4.9054573e-001 -7.0900265e-001

这只是文件包含内容的很小一部分。

我真的不知道这些数据代表什么以及如何解释。另外,对于数据的分析,分类和聚类,我需要使用哪些工具?有什么办法可以将包含标签的数据放入excel,例如使用R或python提取示例数据并进行处理?

任何提示/技巧将不胜感激。

Answers:


8

数据集定义在以下页面上:

底部的属性信息

或者您可以在ZIP文件夹中看到名为activity_labels的文件,该文件中包含列标题,请确保您仔细阅读自述文件,其中包含一些不错的信息。您可以.csv使用read.csv命令轻松地在R中引入文件。

例如,如果您命名文件samsungdata,则可以打开R并运行以下命令:

data <- read.csv("directory/where/file/is/located/samsungdata.csv", header = TRUE)

或者,如果您已经在R中的工作目录中,则可以运行以下命令

data <- read.csv("samsungdata.csv", header = TRUE)

data可以将名称更改为您要调用数据集的名称。


我知道了。我确实研究了README文件,但是仍然无法弄清楚如何读取其自身的数据。例如,train / X_train.txt'文件代表训练集(我在帖子中显示的样本数据来自该文件)。
Jakubee 2014年

在我看来,数据集相当广泛,features.txt文件中列出了每行561个变量。我相信这就是您所指的。
MCP_infiltrator 2014年

因此,“功能”文件中的每个变量对应于“ x-test.txt”文件中的每一列,或者我错了吗?
Jakubee 2014年

这就是我的看法。从自述文件中可以得出的是文件包含的内容。
MCP_infiltrator 2014年

@Jakubee是的。文件中有561行/变量名,features.txt文件中有561列,X_train.txt每个变量一列。
Marco13,2014年

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.