数据科学 bigdata

3

我正在研究欺诈检测系统。在此领域中，经常会出现新的欺诈行为，因此必须不断向模型中添加新功能。我想知道（从开发过程的角度来看）处理它的最佳方法是什么？仅将新特征添加到特征向量中并重新训练分类器似乎是一种幼稚的方法，因为将花费太多时间来重新学习旧特征。我正在考虑为每个功能（或几个相关功能）训练一个分类器，然后将这些分类器的结果与一个整体分类器组合在一起。这种方法有什么缺点吗？如何为整体分类器选择算法？

10 machine-learning bigdata

4

为什么在使用库时很难授予效率？

任何小型数据库处理都可以通过Python / Perl / ...脚本轻松解决，该脚本使用该语言本身的库和/或实用程序。但是，在性能方面，人们倾向于使用C / C ++ /低级语言。根据需求量身定制代码的可能性似乎就是这些语言吸引BigData的原因-涉及内存管理，并行性，磁盘访问甚至低级优化（通过C / C ++级别的汇编构造）。当然，这样的好处是没有代价的：编写代码，有时甚至是重新发明轮子，可能是非常昂贵/累赘的。尽管有很多可用的库，但是人们倾向于在需要授予性能时自行编写代码。是什么使性能断言在处理大型数据库时无法使用库？例如，考虑一个企业，该企业会不断爬网网页并解析收集到的数据。对于每个滑动窗口，对提取的数据运行不同的数据挖掘算法。为什么开发人员会放弃使用可用的库/框架（用于爬网，文本处理和数据挖掘）？使用已经实现的东西不仅可以减轻对整个过程进行编码的负担，还可以节省大量时间。一次拍摄：是什么使自己编写代码成为性能的保证？为什么在必须确保高性能的情况下依赖框架/库会有风险吗？

10 bigdata efficiency performance

1

避免在不同的python内核之间重新加载DataFrame

有没有一种方法可以在内存中保留变量（大表/数据框）并在多个ipython笔记本之间共享？我会寻找某种在概念上类似于MATLAB的持久变量的东西。可以从多个单独的编辑器（笔记本）中调用自定义函数/库，并使该外部函数缓存某些结果（或大表）。通常，我想避免重新加载使用频繁的表（该表是通过从笔记本调用的自定义库加载的），因为每当我开始新的分析时，读取它大约需要2-3分钟。

10 python bigdata matlab jupyter ipython

2

使用智能手机数据集问题的人类活动识别

我是这个社区的新手，希望我的问题很适合这里。作为我的本科数据分析课程的一部分，我选择使用智能手机数据集进行有关人类活动识别的项目。就我而言，这个主题与机器学习和支持向量机有关。我对这种技术还不太熟悉，因此我需要一些帮助。我已决定遵循此项目构想http://www.inf.ed.ac.uk/teaching/courses/dme/2014/datasets.html（顶部的第一个项目）该项目的目标是确定一个人的活动根据智能手机（三星Galaxy S II）在对象腰部记录的数据进行（例如，行走，行走，向上，行走，下坐，坐着，站立，躺着）。使用其嵌入式加速度计和陀螺仪，数据包括以50Hz恒定速率的3轴线性加速度和3轴角速度。所有数据集在一个文件夹中给出，带有一些描述和功能标签。数据分为“测试”和“训练”文件，其中数据以这种格式表示： 2.5717778e-001 -2.3285230e-002 -1.4653762e-002 -9.3840400e-001 -9.2009078e-001 -6.6768331e-001 -9.5250112e-001 -9.2524867e-001 -6.7430222e-001 -8.9408755e-001 -5.5457721e-001 -4.6622295e-001 7.1720847e-001 6.3550240e-001 7.8949666e-001 -8.7776423e-001 -9.9776606e-001 -9.9841381e-001 -9.3434525e-001 -9.7566897e-001 -9.4982365e-001 -8.3047780e-001 -1.6808416e-001 -3.7899553e-001 2.4621698e-001 5.2120364e-001 -4.8779311e-001 4.8228047e-001 -4.5462113e-002 2.1195505e-001 -1.3489443e-001 1.3085848e-001 -1.4176313e-002 -1.0597085e-001 7.3544013e-002 -1.7151642e-001 4.0062978e-002 7.6988933e-002 -4.9054573e-001 -7.0900265e-001 这只是文件包含内容的很小一部分。我真的不知道这些数据代表什么以及如何解释。另外，对于数据的分析，分类和聚类，我需要使用哪些工具？有什么办法可以将包含标签的数据放入excel，例如使用R或python提取示例数据并进行处理？任何提示/技巧将不胜感激。

9 bigdata machine-learning databases clustering data-mining

Questions tagged «bigdata»