统计和大数据 python

2

我有一个主要包含财务变量（120个特征，4k个示例）的数据集，这些变量大多具有高度相关性且非常嘈杂（例如技术指标），因此我想选择最多约20-30个模型，供以后用于模型训练（二进制分类） - 增加减少）。我当时正在考虑使用随机森林进行特征排名。递归使用它们是一个好主意吗？例如，假设在第一轮中，我丢掉最差的20％，第二次也丢掉，依此类推，直到获得所需数量的功能。我应该对RF使用交叉验证吗？（对我来说，不使用CV是很直观的，因为那已经是RF所做的事情了。）另外，如果我使用随机森林，是否应该将它们用作二进制的分类器或实际增加/减少的回归变量，以获得功能的重要性？顺便说一下，在特征选择之后，我想尝试的模型是：SVM，神经网络，局部加权回归和随机森林。我主要在Python中工作。

16 feature-selection random-forest python

3

多类LDA训练中的共线变量

我正在训练具有8类数据的多类LDA分类器。进行培训时，我收到以下警告：“ 变量是共线的 ” 我的训练准确率超过90％。我在Python中使用scikits-learn库来训练和测试Multi-class数据。我也得到了不错的测试准确性（大约85％-95％）。我不明白错误/警告的意思。请帮帮我。

16 machine-learning classification python scikit-learn discriminant-analysis

1

lmer模型使用哪种多重比较方法：lsmeans或glht？

我正在使用具有一个固定效果（条件）和两个随机效果（由于主题设计和配对而导致的参与者）的混合效果模型分析数据集。该模型是使用lme4包生成的exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp)。接下来，我针对没有固定效果（条件）的模型对该模型进行了似然比检验，结果有显着差异。我的数据集中有3个条件，因此我想进行多重比较，但不确定使用哪种方法。我在CrossValidated和其他论坛上发现了许多类似的问题，但我仍然很困惑。据我所见，人们建议使用 1.该lsmeans包- lsmeans(exp.model,pairwise~condition)这给了我下面的输出： condition lsmean SE df lower.CL upper.CL Condition1 0.6538060 0.03272705 47.98 0.5880030 0.7196089 Condition2 0.7027413 0.03272705 47.98 0.6369384 0.7685443 Condition3 0.7580522 0.03272705 47.98 0.6922493 0.8238552 Confidence level used: 0.95 $contrasts contrast estimate SE df t.ratio p.value Condition1 - Condition2 -0.04893538 0.03813262 62.07 -1.283 0.4099 Condition1 - …

16 r repeated-measures multiple-comparisons post-hoc lsmeans bayesian posterior marginal integral anova time-series regularization machine-learning pca computational-statistics references inference regression cross-validation python random-forest chi-squared spearman-rho r machine-learning confidence-interval bagging clustering feature-selection model-selection bic hypothesis-testing kurtosis r regression residuals terminology

3

statsmodel OLS和scikit线性回归之间的差异

我有一个关于来自不同库的两种不同方法的问题，这些方法似乎做同样的工作。我正在尝试建立线性回归模型。这是我将statsmodel库与OLS一起使用的代码： X_train, X_test, y_train, y_test = cross_validation.train_test_split(x, y, test_size=0.3, random_state=1) x_train = sm.add_constant(X_train) model = sm.OLS(y_train, x_train) results = model.fit() print "GFT + Wiki / GT R-squared", results.rsquared 打印输出GFT + Wiki / GT R平方0.981434611923 第二个是scikit学习库线性模型方法： model = LinearRegression() model.fit(X_train, y_train) predictions = model.predict(X_test) print 'GFT + Wiki / GT …

16 regression python scikit-learn statsmodels

2

在箱线图中显示平均值而不是中位数[关闭]

关闭。这个问题是题外话。它当前不接受答案。想改善这个问题吗？更新问题，使它成为交叉验证的主题。 4个月前关闭。当使用python matplotblib绘制箱形图时，图中一半的线是分布的中位数。是否有可能代替平均线。或者以其他样式将其绘制在其旁边。另外，由于通常以中线为中位数，如果我将其设为平均值，会不会真的使我的读者感到困惑（当然，我会加注中间的线是什么）？

15 data-visualization python matplotlib boxplot

3

逻辑回归：Scikit Learn与glmnet

我正在尝试sklearn使用glmnetR中的包复制逻辑回归库的结果。 sklearn分w ^ ，Ç1个2wŤw + C∑我= 1ñ日志（exp（- ÿ一世（XŤ一世w + c ））+ 1 ）分w，C1个2wŤw+C∑一世=1个ñ日志⁡（经验值⁡（-ÿ一世（X一世Ťw+C））+1个）\min_{w,c} \frac12 w^Tw + C\sum_{i=1}^N \log(\exp(-y_i(X_i^Tw+c)) + 1) 从的渐近点来看glmnet，它的实现将成本函数分β，β0− [ 1ñ∑我= 1ñÿ一世（β0+ xŤ一世β）- 日志（1 + e（β0+ xŤ一世β））] + λ [ （α - 1 ）| | β| |22/ 2+α | | β| |1个]分β，β0-[1个ñ∑一世=1个ñÿ一世（β0+X一世Ťβ）-日志⁡（1个+Ë（β0+X一世Ťβ））]+λ[（α-1个）||β||22/2+α||β||1个]\min_{\beta, \beta_0} -\left[\frac1N \sum_{i=1}^N y_i(\beta_0+x_i^T\beta)-\log(1+e^{(\beta_0+x_i^T\beta)})\right] + …

15 r logistic python scikit-learn glmnet

1

如何从曲线拟合中解释协方差矩阵？

我不太擅长统计，因此很抱歉，这是一个简单的问题。我以曲线拟合的一些数据，有时候我的数据最适合的形式负指数，有时配合是更接近于一个* é （- b * X 2） + c。但是，有时两者都失败了，我想回到线性拟合中。我的问题是，如何根据从模型返回的结果方差-协方差矩阵确定哪种模型最适合特定数据集一个* ê（- b * X ）+ c一种∗Ë（-b∗X）+Ca * e^{(-b * x)} + c一个* ê（- b * X2）+ c一种∗Ë（-b∗X2）+Ca * e^{(-b * x^2)} + cscipy.optimize.curve_fit（）函数？我相信方差在此矩阵的对角线之一上，但我不确定如何解释。更新：基于类似的问题，我希望方差-协方差矩阵可以告诉我我正在尝试的三个模型中的哪个最适合数据（我正在尝试将许多数据集适合这三个模型之一）。对于给定的示例，结果矩阵如下所示： pcov_lin [[ 2.02186921e-05 -2.02186920e-04] [ -2.02186920e-04 2.76322124e-03]] pcov_exp [[ 9.05390292e+00 -7.76201283e-02 -9.20475334e+00] [ -7.76201283e-02 6.69727245e-04 7.90218415e-02] …

15 variance model-selection python curve-fitting covariance-matrix

3

如何绘制聚类的数据输出？

我尝试对一组数据（一组标记）进行聚类，并得到2个聚类。我想用图形表示它。由于我没有（x，y）坐标，因此对表示有点困惑。还要寻找这样做的MATLAB / Python函数。编辑我认为发布数据使问题更清晰。我有两个使用Python中的kmeans集群（不使用scipy）创建的集群。他们是 class 1: a=[3222403552.0, 3222493472.0, 3222491808.0, 3222489152.0, 3222413632.0, 3222394528.0, 3222414976.0, 3222522768.0, 3222403552.0, 3222498896.0, 3222541408.0, 3222403552.0, 3222402816.0, 3222588192.0, 3222403552.0, 3222410272.0, 3222394560.0, 3222402704.0, 3222298192.0, 3222409264.0, 3222414688.0, 3222522512.0, 3222404096.0, 3222486720.0, 3222403968.0, 3222486368.0, 3222376320.0, 3222522896.0, 3222403552.0, 3222374480.0, 3222491648.0, 3222543024.0, 3222376848.0, 3222403552.0, 3222591616.0, 3222376944.0, 3222325568.0, 3222488864.0, 3222548416.0, 3222424176.0, 3222415024.0, 3222403552.0, …

15 clustering data-visualization python

3

测试多维分布是否相同

可以说我有两个或多个n维连续值向量样本。有没有一种非参数的方法来测试这些样本是否来自相同的分布？如果是这样，R或python中是否有此功能？

15 r distributions nonparametric python

2

基于“ F回归”和基于

比较特征是否与将特征分别F-regression与标签关联并观察值相同？[R2R2R^2 我经常看到我的同事F regression在他们的机器学习管道中使用进行特征选择sklearn： sklearn.feature_selection.SelectKBest(score_func=sklearn.feature_selection.f_regression...)` 有些人请告诉我-为什么它给出与将其与label / depedendent变量相关联时相同的结果？对我来说，尚不清楚F_regression在特征选择中使用优势。这是我的代码：我正在使用mtcars来自的数据集R： import pandas as pd import numpy as np from sklearn import feature_selection from sklearn.linear_model import LinearRegression #....load mtcars dataset into a pandas dataframe called "df", not shown here for conciseness # only using these numerical columns as features ['mpg', 'disp', 'drat', …

15 feature-selection python scikit-learn r-squared f-test

2

从von Mises-Fisher发行版的Python中采样吗？

我正在寻找一种简单的方法来从Python中的多元von Mises-Fisher分布中采样。我在scipy和numpy模块中查看了stats模块，但只发现了单变量von Mises分布。有没有可用的代码？我还没找到。显然，Wood（1994）根据该链接设计了一种从vMF分布进行采样的算法，但我找不到该论文。 -对于精度，我对在文献中很难找到的算法很感兴趣（大多数论文都集中在）。据我所知，开创性的文章（Wood，1994年）无法免费找到。小号2小号2S^2

14 distributions sampling python

1

Beta安装在Scipy中

根据维基百科，β概率分布具有两个形状参数：和β。αα\alphaββ\beta 当我打电话scipy.stats.beta.fit(x)在Python，其中x是在范围内的一串数字，则返回4个值。这让我感到奇怪。[0,1][0,1][0,1] 谷歌搜索后，我发现返回值之一必须是“位置”，因为如果我调用，第三个变量为0 scipy.stats.beta.fit(x, floc=0)。有谁知道第四个变量是什么，并且前两个变量是和β吗？αα\alphaββ\beta

14 python scipy beta-distribution

1

深度神经网络中的灵敏度分析

在回答一个已经回答的问题之后（从单层前馈网络提取权重重要性），我正在寻找关于神经网络中输入相关性的推论。考虑到一个深层网络，通过从感兴趣的输出节点向后遍历各层来重建输入的重要性可能很困难或很耗时，我想知道在进行神经网络的敏感性分析时是否存在一些理论框架，基本上改变了一个输入并考虑感兴趣的输出节点如何变化。在神经网络中是否存在执行某种敏感性分析的规范方法？如果有的话，我真的很欢迎一些Python代码这样做

14 neural-networks python feature-selection sensitivity-analysis

1

使用iloc设置值

关闭。这个问题是题外话。它当前不接受答案。想改善这个问题吗？更新问题，使它成为交叉验证的主题。 2年前关闭。这条线在数据帧返回第4行combined对feature_a combined.iloc[0:4]["feature_a"] 如预期的那样，下一行将在数据帧中返回column的第2、4和16行feature_a： combined.iloc[[1,3,15]]["feature_a"] 这条线设置在数据帧的第一4行用于feature_a给77。 combined.iloc[0:4]["feature_a"] = 77 这条线有作用。正在发生某种计算，因为将其应用于更长的列表时会花费更长的时间。 combined.iloc[[1,3,15]]["feature_a"] = 88 使用此检查时，未将第二，第四和第十六行设置为88： combined.iloc[[1,3,15]]["feature_a"] 如何在不进行大量编码绕行的情况下将数据帧的列的行的任意列表设置为一个值？这种情况似乎应该非常简单和普遍。

13 python pandas

2

使用随机森林模型时何时记录/扩展变量？

我正在使用随机森林进行回归，以基于多个属性预测价格。使用Scikit-learn用Python编写代码。在如何使用变量来拟合回归模型之前，您如何决定是否应使用exp/ 变换变量log？使用诸如随机森林之类的集成方法时是否有必要？

13 regression machine-learning predictive-models python random-forest

Questions tagged «python»