数据科学

数据科学专业人员,机器学习专家以及有兴趣了解该领域的人员的问答

4
将TensorFlow与Intel GPU结合使用
我是深度学习的新手。 现在有什么办法可以将TensorFlow与Intel GPU一起使用吗?如果是,请指出正确的方向。 如果没有,请让我知道我的英特尔公司Xeon E3-1200 v3 / 4th Gen Core Processor Integrated Graphics Controller可以使用哪个框架(Keras,Theano等)。
20 tensorflow  keras  theano  gpu 

3
拆分数据前后的StandardScaler
当我阅读有关使用的内容时StandardScaler,大多数建议都说您应该在使用StandardScaler 之前将数据分成训练/测试,但是当我检查一些在线发布的代码(使用sklearn)时,有两个主要用途。 1-使用StandardScaler所有数据。例如 from sklearn.preprocessing import StandardScaler sc = StandardScaler() X_fit = sc.fit(X) X_std = X_fit.transform(X) 要么 from sklearn.preprocessing import StandardScaler sc = StandardScaler() X = sc.fit(X) X = sc.transform(X) 或者简单地 from sklearn.preprocessing import StandardScaler sc = StandardScaler() X_std = sc.fit_transform(X) 2- StandardScaler在分割数据上使用。 from sklearn.preprocessing import StandardScaler sc = StandardScaler() …







3
如何对未知特征执行特征工程?
我正在参加kaggle比赛。数据集包含约100个要素,所有要素都是未知的(就其实际表示而言)。基本上,它们只是数字。 人们正在对这些功能执行许多功能工程。我想知道一个人究竟能对未知的特征执行特征工程吗?有人可以帮助我理解这一点,以及一些有关如何对未知特征执行特征工程的提示吗?


2
文字分类:结合不同种类的功能
我要解决的问题是将短文本分为多个类别。我目前的方法是使用tf-idf加权词频,并学习一个简单的线性分类器(逻辑回归)。这相当有效(测试集上的宏F-1约为90%,训练集上接近100%)。一个大问题是看不见的单词/ n-gram。 我正在尝试通过添加其他功能(例如,使用分布相似性(由word2vec计算)计算出的固定大小的矢量)或示例中的其他分类功能来改进分类器。我的想法是仅从单词袋中将功能添加到稀疏输入功能中。但是,这会导致测试和训练集的性能变差。附加功能本身可以在测试装置上提供大约80%的F-1,因此它们不是垃圾。扩展功能也没有帮助。我目前的想法是,这类功能与(稀疏的)单词功能组合得不太好。 所以问题是:假设附加功能提供了附加信息,那么将它们合并的最佳方法是什么?是否可以训练单独的分类器并将它们组合在一起以进行某种整体工作(这可能会有一个缺点,即无法捕获不同分类器的特征之间的交互)?我还应该考虑其他更复杂的模型吗?

2
您可以在scikit-learn中解释SVC和LinearSVC之间的区别吗?
我最近开始学习与之合作,sklearn并且刚刚遇到了这种奇怪的结果。 我使用digits可用的数据集sklearn尝试不同的模型和估计方法。 当我在数据上测试支持向量机模型时,我发现sklearnSVM分类中有两种不同的类:SVC和LinearSVC,其中前者使用一种反对一种方法,而另一种则使用一种反对其他方法。 我不知道会对结果产生什么影响,因此我尝试了两者。我进行了蒙特卡洛(Monte Carlo)风格的估计,我对这两个模型都运行了500次,每次将样本随机分为60%训练和40%测试,并在测试集上计算预测误差。 常规SVC估计器产生以下误差直方图: 线性SVC估计器产生以下直方图: 造成这种明显差异的原因是什么?为什么线性模型大多数时候都具有如此高的精度? 并且,与此相关的是,什么可能导致结果出现明显的极化?精度接近1或精度接近0,两者之间什么也没有。 为了进行比较,决策树分类产生的正态分布错误率更高,准确度约为0.85。
19 svm  scikit-learn 

3
如何创建复杂的雷达图?
因此,我想创建一个球员资料雷达图,如下所示: 不仅每个变量的标度都不同,而且我还希望某些统计数据(例如“ dispossed”统计)的标度要倒置,“少”实际上意味着好。 每个统计数据的可变标度的一种解决方案可能是设置基准,然后计算100分的分数? 但是,如何在图表上显示实际数字呢?另外,如何获得某些统计数字的倒数比例。 当前在Excel中工作。创建像这样的复杂图表的最强大的工具是什么?

3
如何根据初始关键字来增加相关单词的列表?
我最近看到了一个很棒的功能,该功能曾经在Google表格中提供:您可以在连续的单元格中编写一些相关的关键字,例如:“蓝色”,“绿色”,“黄色”,它会自动生成类似的关键字(在这种情况下, ,其他颜色)。观看此YouTube视频中的更多示例。 我想在自己的程序中重现此内容。我正在考虑使用Freebase,并且它可以像这样直观地工作: 检索Freebase中给定单词的列表; 找到他们的“公分母”,并以此为基础构建距离度量; 根据与原始关键字的“距离”对其他概念进行排名; 显示下一个最接近的概念。 由于我不熟悉该领域,因此我的问题是: 有一个更好的方法吗? 每个步骤都有哪些工具可用?

4
我应该使用哪种统计模型来分析单个事件影响纵向数据的可能性
我试图找到一种公式,方法或模型来分析特定事件影响某些纵向数据的可能性。我很难弄清楚在Google上搜索什么。 这是一个示例方案: 您拥有一家每天平均有100个客户的公司。有一天,您决定要增加每天到达商店的客源客户的数量,因此您会在商店外进行疯狂的表演以引起注意。在下一周,您平均每天会看到125位客户。 在接下来的几个月中,您再次决定要获得更多的业务,也许还要维持更长的时间,因此您尝试其他一些随机的事情来在商店中吸引更多的客户。不幸的是,您不是最佳的营销人员,您的某些策略几乎没有效果,甚至没有效果,有些甚至产生了负面影响。 我可以使用哪种方法来确定任何一个单独事件正面或负面地影响到门顾客数量的可能性?我完全意识到关联并不一定等于因果关系,但是在特定事件发生之后,我可以使用哪些方法来确定您的业务在客户日常活动中可能增加或减少? 我不希望分析您尝试增加无障碍顾客数量之间是否存在关联,而是要分析一个事件是否独立于其他事件是否具有影响力。 我意识到这个示例是非常人为的和简单的,因此,我还将简要介绍一下我正在使用的实际数据: 我正在尝试确定特定的市场营销代理商在发布新内容,进行社交媒体宣传等活动时对其客户的网站的影响。对于任何一个特定的代理商,他们可能拥有1至500个客户。每个客户拥有的网站范围从5页到超过一百万个不等。在过去的5年中,每个代理商都为每个客户注释了他们的所有工作,包括已完成的工作类型,受影响的网站页面数量,花费的时间等。 使用我已经组装到数据仓库中的上述数据(放入一堆星型/雪花模式),我需要确定任何一件工作(及时发生的任何事件)对以下项目产生影响的可能性:流量触及受特定作品影响的任何/所有页面。我已经为网站上找到的40种不同类型的内容创建了模型,这些模型描述了从发布日期到现在,具有所述内容类型的页面可能遇到的典型流量模式。相对于适当的模型进行规范化之后,我需要确定由于特定工作而获得的特定页面所增加或减少的访问者的最高和最低数量。 虽然我有基本数据分析(线性和多元回归,相关性等)的经验,但我对如何解决这个问题一无所知。过去,我通常使用给定轴的多次测量数据来分析数据(例如,温度,口渴和动物之间的关系,并确定温度升高对动物的口渴的影响),但我觉得上面我正在尝试分析影响非线性但可预测(或至少可建模)的纵向数据集在某个时间点的单个事件的统计。我很沮丧:( 任何帮助,提示,指示,建议或指示都将非常有帮助,我将永远感激不已!

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.