统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

5
为什么要素工程有效?
最近,我了解到,为机器学习问题找到更好解决方案的方法之一是创建功能。例如,可以通过汇总两个功能来做到这一点。 例如,我们拥有某种英雄的“攻击”和“防御”两个特征。然后,我们创建一个称为“总计”的附加功能,这是“攻击”和“防御”的总和。现在让我感到奇怪的是,即使是强硬的“攻击”和“防御”也几乎与“总数”紧密相关,我们仍然可以获得有用的信息。 这背后的数学是什么?还是我推理错了? 另外,对于像kNN这样的分类器来说,“总数”总是大于“攻击”或“防御”,这不是问题吗?因此,即使经过标准化处理,我们仍将具有包含不同范围值的特征?


2
选择LASSO变量后进行OLS有何意义?
最近,我发现在应用的计量经济学文献中,当处理特征选择问题时,通常会执行LASSO,然后使用所选变量进行OLS回归。 我想知道如何才能证明这种程序的有效性。会引起诸如变量遗漏之类的麻烦吗?有没有证据表明它更有效,或者结果更容易解释? 这里是一些相关的讨论: LASSO进行变量选择 使用套索/随机变量选择变量后使用树 如前所述,如果这样的程序总体上是不正确的,那么为什么还有如此多的研究呢?我可以说由于LASSO估算器的某些不可靠特性以及人们对OLS的偏爱,这只是一个经验法则,一个折衷的解决方案?

2
numpy和sklearn中的PCA产生不同的结果
我误会了吗。这是我的代码 使用sklearn import numpy as np import matplotlib.pyplot as plt from mpl_toolkits.mplot3d import Axes3D from sklearn import decomposition from sklearn import datasets from sklearn.preprocessing import StandardScaler pca = decomposition.PCA(n_components=3) x = np.array([ [0.387,4878, 5.42], [0.723,12104,5.25], [1,12756,5.52], [1.524,6787,3.94], ]) pca.fit_transform(x) 输出: array([[ -4.25324997e+03, -8.41288672e-01, -8.37858943e-03], [ 2.97275001e+03, -1.25977271e-01, 1.82476780e-01], [ 3.62475003e+03, …




2
了解偏差方差折衷推导
我正在阅读《统计学习的要素》一书中的偏方差权衡一章,并对第29页的公式感到怀疑。让数据来自模型,使得Y=f(x)+ϵY=f(x)+ϵ Y = f(x)+\epsilon,其中ϵϵ\epsilon是具有期望值ε = ë [ ε ] = 0和方差。让该模型的误差的期望值是 其中是预测ϵ^=E[ϵ]=0ϵ^=E[ϵ]=0\hat{\epsilon} = E[\epsilon]=0E[(ϵ−ϵ^)2]=E[ϵ2]=σ2E[(ϵ−ϵ^)2]=E[ϵ2]=σ2E[(\epsilon - \hat\epsilon)^2]=E[\epsilon^2]=\sigma^2E[(Y−fk(x))2]E[(Y−fk(x))2] E[(Y-f_k(x))^2] fk(x)fk(x)f_k(x)xxx我们的学习者。根据这本书,误差为 E[(Y−fk(x))2]=σ2+Bias(fk)2+Var(fk(x)).E[(Y−fk(x))2]=σ2+Bias(fk)2+Var(fk(x)). E[(Y-f_k(x))^2]=\sigma^2+Bias(f_k)^2+Var(f_k(x)). 我的问题是为什么偏项不是0?开发错误的公式,我看到 E[(Y−fk(x))2]=E[(f(x)+ϵ−fk(x))2]=E[(f(x)−fk(x))2]+2E[(f(x)−fk(x))ϵ]+E[ϵ2]=Var(fk(x))+2E[(f(x)−fk(x))ϵ]+σ2E[(Y−fk(x))2]=E[(f(x)+ϵ−fk(x))2]=E[(f(x)−fk(x))2]+2E[(f(x)−fk(x))ϵ]+E[ϵ2]=Var(fk(x))+2E[(f(x)−fk(x))ϵ]+σ2 E[(Y-f_k(x))^2]=\\ E[(f(x)+\epsilon-f_k(x))^2]=\\ E[(f(x)-f_k(x))^2]+2E[(f(x)-f_k(x))\epsilon]+E[\epsilon^2]=\\ Var(f_k(x))+2E[(f(x)-f_k(x))\epsilon]+\sigma^2 因为是一个独立的随机数ϵϵ\epsilon2E[(f(x)−fk(x))ϵ]=2E[(f(x)−fk(x))]E[ϵ]=02E[(f(x)−fk(x))ϵ]=2E[(f(x)−fk(x))]E[ϵ]=02E[(f(x)-f_k(x))\epsilon]=2E[(f(x)-f_k(x))]E[\epsilon]=0 我哪里错了?

2
残差图:为什么要比较拟合值而不是观测到的
在OLS回归的背景下,我了解到,通常会查看残差图(相对于拟合值)来测试常数方差并评估模型规格。为什么针对拟合而不是值绘制残差?信息与这两个图有何不同?YYY 我正在研究产生以下残差图的模型: 因此,该图与拟合值的关系一目了然,但是针对值的第二个图具有模式。我想知道为什么这样的明显模式也不会在残差vs拟合图中显示出来....YYY YYY 22^2

4
聚类相关矩阵
我有一个相关矩阵,该矩阵说明每个项目如何与另一个项目相关。因此,对于N个项目,我已经具有N * N个相关矩阵。使用此相关矩阵,如何将N个项目聚类在M个仓中,以便可以说第k个仓中的Nk个项目表现相同。请帮我。所有项目值都是分类的。 谢谢。请让我知道是否需要更多信息。我需要使用Python解决方案,但是任何将我推向要求的帮助都会有很大帮助。

3
为什么在贝叶斯定理中需要归一化因子?
贝叶斯定理变为 P(模型| 数据)= P(型号)× P(数据| 型号)P(数据)P(模型|数据)=P(模型)×P(数据|模型)P(数据) P(\textrm{model}|\textrm{data}) = \frac{P(\textrm{model}) \times P(\textrm{data}|\textrm{model})}{P(\textrm{data})} 一切都很好。但是,我在某处读过: 基本上,P(data)只是归一化常数,即使后验密度积分为一个常数的常数。 我们知道和。 0 ≤ P (数据| 模型)≤ 10 ≤ P(模型)≤ 10≤P(模型)≤1个0 \leq P(\textrm{model}) \leq 10 ≤ P(数据| 模型)≤ 10≤P(数据|模型)≤1个 0 \leq P(\textrm{data}|\textrm{model}) \leq 1 因此,必须介于0和1之间。在这种情况下,为什么我们需要归一化常数以使后验积分到一个?P(型号)× P(数据| 型号)P(模型)×P(数据|模型)P(\textrm{model}) \times P(\textrm{data}|\textrm{model})

4
“概率密度函数下面的总面积为1”-相对于什么?
从概念上讲,我理解短语“ PDF下的总面积为1”的含义。这应该意味着结果出现在可能性的总间隔中的机会是100%。 但我不能真正从“几何”的角度理解它。例如,如果在PDF中,x轴表示长度,那么如果x以毫米而不是公里来测量,曲线下方的总面积是否不会变大? 我总是尝试描绘如果函数展平为一条直线,曲线下方的区域将如何显示。对于任何PDF,该行的高度(在y轴上的位置)是否相同,或者它的值取决于定义该函数的x轴上的间隔?

2
在检验和检验之间选择
背景:我正在向工作中的同事进行假设检验的介绍,并且对它的大部分内容都了解得很好,但是有一个方面是我将自己束之高阁,试图理解并向他人解释。 这就是我想知道的(如果错误,请更正!) 如果方差已知,则统计量将是正常的;如果方差未知,则遵循分布ttt CLT(中心极限定理):样本平均值的采样分布对于足够大的大约是(对于高度偏斜的分布,可能是,最大可能是)nnn303030300300300 该 -配送可以认为是正常的自由度ttt&gt;30&gt;30> 30 如果满足以下条件,则使用 -test:zzz 已知总体正态和方差(对于任何样本量) 总体正常,方差未知且(由于CLT)n&gt;30n&gt;30n>30 人口二项式,,np&gt;10np&gt;10np>10nq&gt;10nq&gt;10nq>10 如果满足以下条件,则使用检验:ttt 总体正常,方差未知,n&lt;30n&lt;30n<30 不了解总体或方差且,但样本数据看起来正常/通过测试等,因此可以认为总体正常n&lt;30n&lt;30n<30 所以我剩下: 对于样本和(?),不知道有关总体和方差的已知/未知信息。&gt;30&gt;30>30&lt;≈300&lt;≈300<\approx 300 所以我的问题是: 当抽样分布看起来非正态时,您可以假设在什么样本量下(对总体分布或方差一无所知)均值的抽样分布是正态的(即CLT已经加入)?我知道有些发行版需要,但是有些资源似乎说每当时就使用 -test 。n&gt;300n&gt;300n>300zzzn&gt;30n&gt;30n>30 对于我不确定的情况,我想我看一下数据是否正常。现在,如果样本数据看起来正常,我是否应该使用 -test(因为假设总体正常,并且因为)?zzzn&gt;30n&gt;30n>30 我不确定的案例样本数据在哪里看起来不正常呢?在任何情况下,您仍然会使用检验或检验,还是总是希望转换/使用非参数检验?我知道,由于CLT,在的某个值处,均值的采样分布将近似于正态,但是样本数据不会告诉我值是多少。样本数据可能是非正态的,而样本均值遵循正态/。在某些情况下,您会进行转换/使用非参数检验,而实际上均值的采样分布是正态/但您无法分辨吗? tttzzznnnnnntttttt

2
指定具有多个时间段的差异模型中的差异
当我估算两个时间段的差异模型的差异时,等效回归模型为 一种。 Yist=α+γs∗Treatment+λdt+δ∗(Treatment∗dt)+ϵistYist=α+γs∗Treatment+λdt+δ∗(Treatment∗dt)+ϵistY_{ist} = \alpha +\gamma_s*Treatment + \lambda d_t + \delta*(Treatment*d_t)+ \epsilon_{ist} 其中TreatmentTreatmentTreatment是一个虚设它等于1,如果观察是从治疗组 和 ddd是伪,其等于1的时间段发生处理后 因此,该公式采用以下值。 对照组,治疗前:αα\alpha 对照组,治疗后:α+λα+λ\alpha +\lambda 治疗组,治疗前:α+γα+γ\alpha +\gamma 治疗组,治疗后: α+γ+λ+δα+γ+λ+δ\alpha+ \gamma+ \lambda+ \delta 因此,在两周期模型中,差异估计的差异为δδ\delta。 但是,如果我有多个治疗前后,关于d_t会发生什么dtdtd_t?我仍然使用假人来指示一年是在治疗之前还是之后? 还是在不指定每年是否属于治疗前或治疗后期间的情况下添加年份假人?像这样: b。Yist=α+γs∗Treatment+yeardummy+δ∗(Treatment∗dt)+ϵistYist=α+γs∗Treatment+yeardummy+δ∗(Treatment∗dt)+ϵistY_{ist} = \alpha +\gamma_s*Treatment + yeardummy + \delta*(Treatment*d_t)+ \epsilon_{ist} 还是可以同时包含两者(即ÿË 一个[R dü 中号米ÿ+ λ dŤyeardummy+λdtyeardummy +\lambda d_t)? C。ÿ我小号Ť= α + γs* …

4
从正态分布的混合中生成随机变量
如何从中的混合分布,尤其是正态分布的混合中采样R?例如,如果我想从以下位置取样: 0.3×N(0,1)+0.5×N(10,1)+0.2×N(3,.1)0.3×N(0,1)+0.5×N(10,1)+0.2×N(3,.1) 0.3\!\times\mathcal{N}(0,1)\; + \;0.5\!\times\mathcal{N}(10,1)\; + \;0.2\!\times\mathcal{N}(3,.1) 我该怎么办?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.