统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

4
在R中复制Stata的“健壮”选项
我一直在尝试robust在R中复制Stata选项的结果。我使用了rlm来自MASS包的命令lmrob以及来自“ robustbase”包的命令。在这两种情况下,结果都与Stata中的“ robust”选项完全不同。在这种情况下,有人可以提出建议吗? 这是我在Stata中运行稳健选项时获得的结果: . reg yb7 buildsqb7 no_bed no_bath rain_harv swim_pl pr_terrace, robust Linear regression Number of obs = 4451 F( 6, 4444) = 101.12 Prob > F = 0.0000 R-squared = 0.3682 Root MSE = .5721 ------------------------------------------------------------------------------ | Robust yb7 | Coef. Std. Err. t P>|t| [95% Conf. …

3
使用交叉验证时针对一种标准错误规则的经验论证
是否有任何经验研究证明使用一个标准误差规则来支持简约?显然,这取决于数据的数据生成过程,但是任何分析大量数据集的内容都会非常有趣。 通过交叉验证(或更普遍地通过任何基于随机化的过程)选择模型时,将应用“一个标准错误规则”。 假设我们考虑由复杂性参数索引的模型,使得恰好在时比 “复杂” 。进一步假设我们通过某种随机化过程(例如,交叉验证)评估模型的质量。让表示的“平均”质量,例如,在许多交叉验证运行,平均出球袋预测误差。我们希望最小化此数量。 τ ∈ [R 中号τ 中号τ ' τ > τ '中号q (中号)中号MτMτM_\tauτ∈Rτ∈R\tau\in\mathbb{R}MτMτM_\tauMτ′Mτ′M_{\tau'}τ>τ′τ>τ′\tau>\tau'MMMq(M)q(M)q(M)MMM 但是,由于我们的质量度量来自某种随机化程序,因此具有可变性。令表示随机试验中的质量标准误差,例如,交叉验证试验中的袋外预测误差的标准偏差。M Ms(M)s(M)s(M)MMMMMM 然后我们选择模型,其中是最小的使得 τ τMτMτM_\tauττ\tauττ\tau q(Mτ)≤q(Mτ′)+s(Mτ′),q(Mτ)≤q(Mτ′)+s(Mτ′),q(M_\tau)\leq q(M_{\tau'})+s(M_{\tau'}), 其中索引(平均)最佳模型。τ′τ′\tau'q(Mτ′)=minτq(Mτ)q(Mτ′)=minτq(Mτ)q(M_{\tau'})=\min_\tau q(M_\tau) 也就是说,我们选择最简单的模型(最小的 ττ\tau),在随机化过程中,该模型的误差不超过最佳模型Mτ′Mτ′M_{\tau'}。 我已经在以下地方找到了这种“一个标准错误规则”,但是从来没有任何明确的理由: Breiman,Friedman,Stone&Olshen(1984)的分类树和回归树中的第80页 Tibshirani,Walther和Hastie的《通过间隙统计估计数据集中的簇数》中的第415页(JRSS B,2001年)(参考Breiman等人)。 Hastie,Tibshirani和Friedman在2009年的《统计学习要素》中的第61和244页 Hastie,Tibshirani和Wainwright(2015)在《稀疏的统计学习》中的第13页

3
在进行逻辑回归之前需要标准化吗?
我的问题是,在拟合逻辑回归之前,我们是否需要标准化数据集以确保所有变量在[0,1]之间具有相同的标度。公式为: xi−min(xi)max(xi)−min(xi)xi−min(xi)max(xi)−min(xi)\frac{x_i-\min(x_i)}{\max(x_i)-\min(x_i)} 我的数据集有2个变量,它们针对两个通道描述相同的事物,但是数量不同。假设这是两家商店的顾客拜访次数,这里是顾客是否购物。因为客户可以在购物之前访问两个商店,或者两次访问第一家商店,所以第二次访问一次。但是第一家商店的客户访问总次数是第二家商店的10倍。当我适合这个逻辑回归,没有标准化, coef(store1)=37, coef(store2)=13; 如果我将数据标准化,则coef(store1)=133, coef(store2)=11。这样的事情。哪种方法更有意义? 如果我适合决策树模型怎么办?我知道树结构模型不需要标准化,因为模型本身会以某种方式对其进行调整。但是请与大家一起检查。

1
R中的排名-降序[关闭]
我希望对某些情况下的数据进行排名,在某些情况下,较大的值具有1的排名。我对R还是比较陌生,但是我看不到如何在等级函数中调整此设置。 x <- c(23,45,12,67,34,89) rank(x) 产生: [1] 2 4 1 5 3 6 当我希望它是: [1] 5 3 6 2 4 1 我认为这是非常基本的,但是您可以提供的任何帮助将不胜感激。
39 r 



6
为什么我会得到100%准确性的决策树?
我的决策树准确性达到100%。我究竟做错了什么? 这是我的代码: import pandas as pd import json import numpy as np import sklearn import matplotlib.pyplot as plt data = np.loadtxt("/Users/Nadjla/Downloads/allInteractionsnum.csv", delimiter=',') x = data[0:14] y = data[-1] from sklearn.cross_validation import train_test_split x_train = x[0:2635] x_test = x[0:658] y_train = y[0:2635] y_test = y[0:658] from sklearn.tree import DecisionTreeClassifier tree = …

3
为什么决策树在计算上不昂贵?
在《 R语言中的统计学习及其应用入门》中,作者写道,拟合决策树非常快,但这对我来说没有意义。该算法必须遍历每个特征,并以各种可能的方式对其进行划分,以找到最佳分割。对于具有观测值的数字特征,这可能会导致每个特征有n个分区。nnnnnn 我是否误解了二进制拆分的工作原理?还是有一种理由认为该算法不会花费很长时间?
38 cart 


5
最小化平方误差等于最小化绝对误差吗?为什么平方误差比后者更受欢迎?
当我们进行线性回归,以适应一组数据点(X 1,ÿ 1),(X 2,ÿ 2),。。。,(x n,y n),经典方法将平方误差最小化。我一直对一个问题感到困惑,该问题将最小化平方误差会产生与最小化绝对误差相同的结果ÿ= a x + by=ax+by=ax+b(x1个,ÿ1个),(X2,ÿ2),。。。,(xñ,ÿñ)(x1,y1),(x2,y2),...,(xn,yn)(x_1,y_1),(x_2,y_2),...,(x_n,y_n)?如果没有,为什么最小化平方误差更好?除了“目标函数是可微的”之外,还有其他原因吗? 平方误差也广泛用于评估模型性能,但是绝对误差不那么受欢迎。为什么平方误差比绝对误差更常用?如果不考虑求导数,则计算绝对误差与计算平方误差一样容易,那么为什么平方误差如此普遍?有什么独特的优势可以解释其盛行吗? 谢谢。


3
从引导式重采样中获得的置信区间是什么意思?
我一直在这个站点上查看有关自举和置信区间的许多问题,但我仍然感到困惑。我感到困惑的部分原因可能是我的统计学知识不够先进,无法理解很多答案。我正在学习统计学入门课程,但是我的数学水平仅是中代数II,因此超出该水平的任何内容都会使我感到困惑。如果该站点上的一位知识渊博的人可以在我一级上解释此问题,那将非常有帮助。 我们在课堂上学习如何使用bootstrap方法进行重采样,并使用它们为我们要测量的某些统计数据建立置信区间。因此,举例来说,假设我们从大量人口中抽样,发现40%的人表示将投票给候选人A。我们假设此样本是对原始人口的准确反映,在这种情况下,我们可以从发现有关人口的信息。因此,我们进行了重新抽样,发现(使用95%的置信度)所得的置信区间为35%至45%。 我的问题是,这个置信区间实际上是什么意思? 我一直在读,(频率)置信区间和(贝叶斯)可信区间是有区别的。如果我理解正确,可信区间将表示在我们的情况下,真实参数有95%的机会在给定区间内(35%-45%),而置信区间将表示在此区间中有95%情况类型(但不一定是我们的情况),我们使用的方法将准确地报告true参数在给定间隔内。 假设这个定义是正确的,我的问题是:使用引导程序方法建立的置信区间时,我们所说的“真实参数”是什么?我们是指(a)原始种群的真实参数,还是(b)样本的真实参数?如果是(a),那么我们可以说95%的时间引导方法将准确报告有关原始人口的真实陈述。但是我们怎么可能知道呢?整个引导程序方法不是基于这样的假设吗原始样本是否准确反映了其来源?如果是(b),那么我完全不了解置信区间的含义。我们是否不知道样本的真实参数?这是一个简单的测量! 我与老师讨论了这个问题,她很有帮助。但是我还是很困惑。

3
为什么多项式回归被视为多元线性回归的特例?
如果多项式回归建模非线性关系,那么如何将其视为多元线性回归的特殊情况? Wikipedia指出:“尽管多项式回归将非线性模型拟合到数据中,但作为统计估计问题,它是线性的,这是因为在估计的未知参数中回归函数是线性的从数据中。”E(y|x)E(y|x)\mathbb{E}(y | x) 如果参数是 2 阶项的系数,则多项式回归如何在未知参数中线性化?≥≥\ge

2
有条件分位数回归与无条件分位数回归有什么区别?
Koenker和Basset(1978)针对分位数的条件分位数回归估计器定义为 其中\ rho_ \ tau = u_i \ cdot(\ tau-1(u_i &lt;0))是重新加权功能(称为“检查”功能)残差u_i。τthτth\tau^{th} βˆQR=minb∑i=1nρτ(yi−X′ibτ)β^QR=minb∑i=1nρτ(yi−Xi′bτ) \widehat{\beta}_{QR} = \min_{b} \sum^{n}_{i=1} \rho_\tau (y_i - X'_i b_\tau) ρτ=ui⋅(τ−1(ui&lt;0))ρτ=ui⋅(τ−1(ui&lt;0))\rho_\tau = u_i\cdot (\tau - 1(u_i<0))uiuiu_i 在Firpo等人的论文中。(2009年),作者指出条件分位数回归不会产生有趣的效果。他们说,有条件的结果不能推广到总体(在OLS中,我们始终可以通过迭代期望定律从有条件变为无条件,但这不适用于分位数)。这是因为τthτth\tau^{th}无条件分位数yiyiy_i可能与τthτth\tau^{th}有条件分位数yi|Xiyi|Xiy_i |X_i。 如果我理解正确,那么问题的一部分就是X_i中包含哪些协XiXiX_i变量会对排名变量u_i产生影响,uiuiu_i因为包含协变量会将误差分为观察到的分量和未观察到的分量。我只是不太明白为什么会引起问题。 这是我的问题: 是什么使有条件和无条件分位数效应彼此不同? 如何解释条件分位数回归的系数? 条件分位数回归是否有偏差? 参考文献: Koenker,R。和Bassett,G。(1978)“回归分位数”,《计量经济学》,第1卷。46(1),第33-50页。 Firpo,S。等。(2009)“无条件分位数回归”,《计量经济学》,第1卷。77(3),第953-973页。

2
泊松和负二项式回归何时拟合相同的系数?
我已经注意到,在R中,泊松和负二项式(NB)回归似乎总是适合相同的系数,以用于分类但非连续的预测变量。 例如,这是带有分类预测变量的回归: data(warpbreaks) library(MASS) rs1 = glm(breaks ~ tension, data=warpbreaks, family="poisson") rs2 = glm.nb(breaks ~ tension, data=warpbreaks) #compare coefficients cbind("Poisson"=coef(rs1), "NB"=coef(rs2)) 这是一个连续预测变量的示例,其中泊松和NB拟合不同的系数: data(cars) rs1 = glm(dist ~ speed, data=cars, family="poisson") rs2 = glm.nb(dist ~ speed, data=cars) #compare coefficients cbind("Poisson"=coef(rs1), "NB"=coef(rs2)) (当然,这些不是计数数据,模型也没有意义...) 然后,将预测变量重新编码为一个因子,然后两个模型再次拟合相同的系数: library(Hmisc) speedCat = cut2(cars$speed, g=5) #you can change …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.