统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

3
什么是歧管?
在降维技术(例如主成分分析,LDA等)中,经常使用术语歧管。非技术术语是什么?如果点属于我要减小尺寸的球体,并且存在噪声且和不相关,则实际点会由于噪声而彼此分离。因此,将需要噪声过滤。因此,将在上执行尺寸缩减。因此,在这里和属于不同的流形吗?xxxyyyxxxyyyxxxz=x+yz=x+yz = x+yxxxyyy 我正在处理机器人视觉中经常使用的点云数据;由于采集中的噪声,点云很吵,我需要在减小尺寸之前减小噪声。否则,我会得到不正确的尺寸缩小。那么,这里的流形是什么?噪声是属于同一流形的一部分吗?xxx

1
是否有针对序数或二进制数据的因子分析或PCA?
我已经完成了主成分分析(PCA),探索性因素分析(EFA)和确认性因素分析(CFA),并用李克特量表(5级答复:无,有,有..)将数据视为连续数据。变量。然后,使用Lavaan,我重复了CFA,将变量定义为分类变量。 我想知道当数据本质上是序数时,什么类型的分析适用于PCA和EFA?而当二进制。 我也将对可以轻松实现此类分析的特定软件包或软件提出建议。

4
许多p值的均匀分布是否提供H0为真的统计证据?
单个统计检验可以证明无效假设(H0)为假,因此替代假设(H1)为真。但这不能用来表明H0为真,因为未能拒绝H0并不意味着H0为真。 但是,让我们假设您有可能进行多次统计检验,因为您有许多彼此独立的数据集。所有数据集都是同一过程的结果,您想对过程本身做出一些声明(H0 / H1),并且对每个测试的结果都不感兴趣。然后,您收集所有得到的p值,并通过直方图碰巧看到p值明显均匀地分布。 我现在的推理是,只有在H0为true时才会发生这种情况,否则p值的分布将有所不同。因此,这是否足以证明H0为真?还是我在这里缺少一些重要的东西,因为我花了很多心血来写“得出H0为真”的结论,这在我看来真是太过错误了。

1
当不满足假设时,回归模型有多不正确?
在拟合回归模型时,如果不满足输出的假设,将会发生什么,特别是: 如果残差不均等会怎样?如果残差在残差与拟合图中显示出增加或减少的模式。 如果残差不是正态分布并且未通过Shapiro-Wilk检验,会发生什么?Shapiro-Wilk正态性检验是一个非常严格的检验,有时,即使Normal-QQ图看起来有些合理,数据也无法通过检验。 如果一个或多个预测变量不是正态分布,在正态QQ图上看起来不正确,或者数据未通过Shapiro-Wilk检验,该怎么办? 我知道没有硬的黑白划分,0.94是正确的,而0.95是错误的,在这个问题上,我想知道: 未能通过正态性意味着对于根据R-Squared值而言非常合适的模型。它变得不那么可靠,还是完全没有用? 偏差在多大程度上可以接受,或者完全可以接受? 当对数据应用转换以满足正态性标准时,如果数据更正常(Shapiro-Wilk测试中的P值较高,正常QQ图上的外观更好),或者该模型无用(等效值或比原始版本差),直到数据通过正常性测试?



1
R中秒/分钟间隔数据的“频率”值
我正在使用R(3.1.1)和ARIMA模型进行预测。我想知道什么是“频率”参数ts(),如果im使用时间序列数据,则该参数应在函数中分配: 以分钟为单位,并持续180天(每天1440分钟) 相隔数秒,分布在180天(86,400秒/天)中。 如果我没记错的话,R中以ts为单位的“频率”是每个“季节”的观测次数。 问题部分1: 在我的情况下,“季节”是什么? 如果季节是“日”,那么分钟的“频率”是1440,秒是86400? 问题第二部分: “频率”是否还取决于我要达到/预测的目标? 例如,就我而言,我想要一个非常短期的预测。每次比10分钟领先一步。 然后可以将季节视为一个小时而不是一天吗? 在那种情况下,频率= 60分钟,而频率= 3600秒? 例如,我尝试使用频率= 60作为分钟数据,与频率= 1440相比,得到了更好的结果(用于fourier查看Hyndman的以下链接) http://robjhyndman.com/hyndsight/forecasting-weekly-data/ (使用MAPE进行预测准确性的比较) 如果结果完全是任意的,并且无法更改频率。在我的数据上使用freq = 60的实际解释是什么? 我也认为值得一提的是,我的数据每隔两个小时包含一次季节性变化(通过观察原始数据和自相关函数)

2
统计中的白噪声
在阅读有关不同统计模型的信息时,我经常会看到“白噪声”一词出现。但是,我必须承认,我不确定这意味着什么。通常缩写为。这是否意味着它是正态分布的还是可以遵循任何分布?w ^ñ(0 ,σ2)w ^ñ(0,σ2)WN(0,σ^2)

1
XGBoost损失函数与泰勒展开式的近似
例如,以第次迭代的XGBoost模型的目标函数为例:ttt L(t)=∑i=1nℓ(yi,y^(t−1)i+ft(xi))+Ω(ft)L(t)=∑i=1nℓ(yi,y^i(t−1)+ft(xi))+Ω(ft)\mathcal{L}^{(t)}=\sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)}+f_t(\mathbf{x}_i))+\Omega(f_t) 其中是损失函数,是第个树的输出,是正则化。近似值是快速计算的(许多)关键步骤之一:ℓℓ\ellftftf_ttttΩΩ\Omega L(t)≈∑i=1nℓ(yi,y^(t−1)i)+gtft(xi)+12hif2t(xi)+Ω(ft),L(t)≈∑i=1nℓ(yi,y^i(t−1))+gtft(xi)+12hift2(xi)+Ω(ft),\mathcal{L}^{(t)}\approx \sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)})+g_tf_t(\mathbf{x}_i)+\frac{1}{2}h_if_t^2(\mathbf{x}_i)+\Omega(f_t), 其中和是损失函数的一阶和二阶导数。gigig_ihih一世h_i 我要问的是令人信服的论点,以揭开上述近似为何起作用的神秘色彩: 1)具有上述近似值的XGBoost与具有完整目标函数的XGBoost相比如何?近似中丢失了哪些潜在的有趣的高阶行为? 2)很难形象化(并取决于损失函数),但是,如果损失函数具有较大的三次方分量,则逼近可能会失败。怎么不给XGBoost造成问题?

3
挑逗:从统一的[0,1]分布得出的iid序列的预期长度是单调增加的吗?
这是定量分析师职位的面试问题,在此报告。假设我们从均匀的分布绘制并且绘制为iid,则单调递增分布的预期长度是多少?即,如果当前绘制小于或等于上一个绘制,我们将停止绘制。[0,1][0,1][0,1] 我得到了前几个: \ Pr (\ text {length} = 2)= \ int_0 ^ 1 \ int_ {x_1} ^ 1 \ int_0 ^ {x_2} \ mathrm {d} x_3 \,\ mathrm {d} x_2 \,\ mathrm {d} x_1 = 1/3 \ Pr(\ text {length} = 3)= \ int_0 ^ 1 \ int_ {x_1} ^ …

7
统计谬误的名称是什么,以前的硬币抛售的结果会影响有关后续硬币抛售的信念?
众所周知,如果掷硬币时正面和反面都有相等的机会落地,那么如果您多次抛硬币,一半的时间会正面,一半的时间会反面。 在与朋友讨论这个问题时,他们说,如果您将硬币抛掷1000次,并说头100次抛硬币落在正面,那么抛尾的机会就增加了(逻辑是,如果硬币没有偏斜,那么当您将其翻转1000次时,您将大约拥有500个头和500个尾巴,因此必须更有可能出现尾巴)。 我知道这是一个谬论,因为过去的结果不会影响未来的结果。那个谬论有名字吗?另外,对于为什么这是谬误,有更好的解释吗?

2
为什么glmnet岭回归给我的答案与手动计算不同?
我正在使用glmnet计算岭回归估计值。我得到了一些结果,使我对glmnet确实在做我认为做的事情感到怀疑。为了验证这一点,我编写了一个简单的R脚本,在其中比较了Solve和glmnet中进行的岭回归的结果,两者之间的区别非常明显: n <- 1000 p. <- 100 X. <- matrix(rnorm(n*p,0,1),n,p) beta <- rnorm(p,0,1) Y <- X%*%beta+rnorm(n,0,0.5) beta1 <- solve(t(X)%*%X+5*diag(p),t(X)%*%Y) beta2 <- glmnet(X,Y, alpha=0, lambda=10, intercept=FALSE, standardize=FALSE, family="gaussian")$beta@x beta1-beta2 差异的范数通常约为20,这不可能是由于数值算法不同而引起的,我一定做错了。glmnet为了获得与ridge相同的结果,我必须设置哪些设置?

7
统计概念可以解释为什么随着翻转次数的增加,您翻转头部和尾部的次数变少的可能性为何?
我正在通过阅读几本书并编写一些代码来学习概率和统计数据,并且在模拟硬币翻转时,我发现有些东西使我感到有些惊讶,这与个人的天真直觉有些相反。如果您翻转公平的硬币次首脑尾巴朝着收敛为1的比例增加,正如你所期望的。但在另一方面,由于nnnnnnnnn增加,您似乎不太可能翻转正好相同的头数,而不会翻转尾数,从而获得正好为 1 的比率。 例如(我程序的一些输出) For 100 flips, it took 27 experiments until we got an exact match (50 HEADS, 50 TAILS) For 500 flips, it took 27 experiments until we got an exact match (250 HEADS, 250 TAILS) For 1000 flips, it took 11 experiments until we got an exact …

1
为什么我得出的封闭套索解决方案不正确?
套索问题具有封闭形式的解决方案:\ beta_j ^ {\ text {lasso}} = \ mathrm {sgn}(\ beta ^ {\ text {LS}} _ j)(| \ beta_j ^ {\ text {LS }} |-\\ alpha)^ +( 如果X具有正交列)。这在以下线程中得到了证明:封闭形式套索解决方案的派生。β 套索 Ĵ = 小号克Ñ(β LS Ĵ)(| β LS Ĵ | - α )+ Xβlasso=argminβ∥y−Xβ∥22+α∥β∥1βlasso=argminβ⁡‖y−Xβ‖22+α‖β‖1\beta^{\text{lasso}}= \operatorname*{argmin}_\beta \| y-X\beta\|^2_2 + \alpha \| \beta\|_1βlassoj=sgn(βLSj)(|βLSj|−α)+βjlasso=sgn(βjLS)(|βjLS|−α)+ \beta_j^{\text{lasso}}= …

2
作为示例/教学/测试数据集,“虹膜”数据集的哪些方面使其如此成功
在“IRIS”的数据集是很熟悉这里大多数人-这是规范的测试数据集和一个去到例如数据集,一切从数据可视化机器学习。例如,这个问题中的每个人最终都将其用于讨论按处理分开的散点图。 是什么使Iris数据集如此有用?只是它首先在那儿?如果有人试图创建有用的示例/测试数据集,他们可以从中学到什么?
28 dataset 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.