统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

6
最小二乘估计量方差中
如果XXX是满秩,逆X Ť XXTXX^TX存在并且我们得到的最小二乘估计:β = (X Ť X )- 1 X ÿβ^=(XTX)−1XY\hat\beta = (X^TX)^{-1}XY 和VAR (β)= σ 2(X Ť X )- 1Var(β^)=σ2(XTX)−1\operatorname{Var}(\hat\beta) = \sigma^2(X^TX)^{-1} 我们如何在方差公式中直观地解释?推导技术对我来说很清楚。(X T X )− 1(XTX)−1(X^TX)^{-1}

3
为什么β分布密度函数为-1?
Beta分布出现在两个参数设置下(或在此处) f(x)∝xα(1−x)βf(x)∝xα(1−x)β(1) f(x) \propto x^{\alpha} (1-x)^{\beta} \tag{1} 或似乎更常用的一种 f(x)∝xα−1(1−x)β−1f(x)∝xα−1(1−x)β−1(2) f(x) \propto x^{\alpha-1} (1-x)^{\beta-1} \tag{2} 但是,为什么第二个公式中确切有“ ”呢?−1−1-1 第一个公式在直观上似乎更直接对应于二项式分布 g (k )∝ p k(1 - p )n - kg(k)∝pk(1−p)n−k(3) g(k) \propto p^k (1-p)^{n-k} \tag{3} 但是从的角度来看“可见”ppp。这在beta二项式模型中尤其明显,其中可理解为先前的成功次数,是先前的失败次数。αα\alphaββ\beta 那么,为什么第二种形式确切地受到欢迎,其背后的原理是什么?使用任何一种参数化(例如,用于与二项分布的连接)有什么后果? 如果有人可以另外指出这种选择的起源和最初的论点,那就太好了,但这对我来说不是必需的。

2
是否存在逻辑回归的iid假设?
是否存在逻辑回归的响应变量的iid假设? 例如,假设我们有数据点。响应似乎来自具有的伯努利分布。因此,我们应该有具有不同参数伯努利分布。100010001000YiYiY_ipi=logit(β0+β1xi)pi=logit(β0+β1xi)p_i=\text{logit}(\beta_0+\beta_1 x_i)100010001000ppp 因此,它们是“独立的”,但不是“相同的”。 我对吗? PS。我从“机器学习”文献中学到了逻辑回归,在该文献中我们优化了目标函数并检查了它是否适合测试数据,而没有过多地讨论假设。 我的问题从这篇文章开始理解广义线性模型中的链接函数,在这里我尝试了解有关统计假设的更多信息。



5
贝叶斯统计量是否会使过分析变得过时?
我只是想知道,如果这样会使荟萃分析过时,那么从第一次研究到最后一次研究是否都可以应用贝叶斯统计方法。 例如,假设在不同时间点进行了20项研究。第一次研究的估计或分布是在没有先验信息的情况下进行的。第二项研究使用后验分布作为先验分布。现在将新的后验分布用作第三项研究的先验分布,依此类推。 最后,我们有一个估计,其中包含之前完成的所有估计或数据。进行荟萃分析是否有意义? 有趣的是,我想改变这种分析的顺序也会相应地改变最后的后验分布。

5
统计学家为什么要定义随机矩阵?
我十年前学习数学,所以我有数学和统计学背景,但是这个问题使我丧命。 这个问题对我来说仍然有点哲学。为什么统计学家开发各种技术以处理随机矩阵?我的意思是,随机向量不能解决问题吗?如果不是,那么随机矩阵的不同列的平均值是多少?Anderson(2003,Wiley)认为随机向量是只有一列的随机矩阵的特例。 我看不到具有随机矩阵的意义(而且我敢肯定那是因为我很无知)。但是,忍受我。想象一下,我有一个包含20个随机变量的模型。如果要计算联合概率函数,为什么要将它们描绘成矩阵而不是向量? 我想念什么? ps:很抱歉,您对这个问题的标签打的不好,但是没有随机矩阵的标签,我还不能创建一个! 编辑:将矩阵更改为标题中的矩阵

1
普遍关于过采样的观点,尤其是关于SMOTE算法的观点[关闭]
已关闭。这个问题是基于观点的。它当前不接受答案。 想改善这个问题吗?更新问题,以便通过编辑此帖子以事实和引用的形式回答。 2年前关闭。 您总体上对分类过采样,特别是对SMOTE算法有何看法?为什么我们不仅仅应用成本/罚金来调整类数据的不平衡和任何不平衡的错误成本?就我的目的而言,对未来一组实验单位的预测准确性是最终的衡量标准。 作为参考,SMOTE论文:http : //www.jair.org/papers/paper953.html

3
是什么使神经网络成为非线性分类模型?
我正在尝试了解非线性分类模型的数学含义: 我刚刚读了一篇文章,谈论神经网络是一种非线性分类模型。 但是我才意识到: 第一层: h1=x1∗wx1h1+x2∗wx1h2h1=x1∗wx1h1+x2∗wx1h2h_1=x_1∗w_{x1h1}+x_2∗w_{x1h2} h2=x1∗wx2h1+x2∗wx2h2h2=x1∗wx2h1+x2∗wx2h2h_2=x_1∗w_{x2h1}+x_2∗w_{x2h2} 后续层 y=b∗wby+h1∗wh1y+h2∗wh2yy=b∗wby+h1∗wh1y+h2∗wh2yy=b∗w_{by}+h_1∗w_{h1y}+h_2∗w_{h2y} 可以简化为 =b'+(x1∗wx1h1+x2∗wx1h2)∗wh1y+(x1∗wx2h1+x2∗wx2h2)∗wh2y=b′+(x1∗wx1h1+x2∗wx1h2)∗wh1y+(x1∗wx2h1+x2∗wx2h2)∗wh2y=b′+(x_1∗w_{x1h1}+x_2∗w_{x1h2})∗w_{h1y}+(x_1∗w_{x2h1}+x_2∗w_{x2h2})∗w_{h2y} =b'+x1(wh1y∗wx1h1+wx2h1∗wh2y)+x2(wh1y∗wx1h1+wx2h2∗wh2y)=b′+x1(wh1y∗wx1h1+wx2h1∗wh2y)+x2(wh1y∗wx1h1+wx2h2∗wh2y)=b′+x_1(w_{h1y}∗w_{x1h1}+w_{x2h1}∗w_{h2y})+x_2(w_{h1y}∗w_{x1h1}+w_{x2h2}∗w_{h2y}) 两层神经网络只是简单的线性回归 =b′+x1∗W′1+x2∗W′2=b′+x1∗W1′+x2∗W2′=b^′+x_1∗W_1^′+x_2∗W_2^′ 这可以显示在任意数量的层上,因为任意数量的权重的线性组合还是线性的。 是什么使神经网络真正成为非线性分类模型? 激活函数将如何影响模型的非线性? 你能解释一下吗?

4
方差比标准差更基本的概念吗?
在这个心理测量学网站上,我读到了 [A]深水平方差是比标准差更基本的概念。 该站点并没有真正进一步解释为什么方差比标准偏差更根本,但是它提醒我我在该站点上已经阅读了一些类似的内容。 例如,@ kjetil-b-halvorsen 在此评论中写道:“标准差有助于解释和报告。对于发展该理论,方差更好。” 我认为这些声明是相关的,但我并不真正理解它们。我知道样本方差的平方根并不是总体标准偏差的无偏估计量,但是肯定有更多的东西。 对于这个网站,“基本”一词也许含糊不清。在那种情况下,也许我们可以从发展统计理论的角度出发,问问方差是否比标准差更重要?为什么/为什么不呢?


4
为什么普通最小二乘法的性能优于泊松回归?
我试图通过回归分析来解释城市每个地区的凶杀案数量。尽管我知道我的数据遵循泊松分布,但我尝试像这样拟合OLS: log(y+1)=α+βX+ϵlog(y+1)=α+βX+ϵlog(y+1) = \alpha + \beta X + \epsilon 然后,我也尝试了(当然!)泊松回归。问题是我在OLS回归中有更好的结果:伪较高(0.71对0.57),RMSE也较高(3.8对8.88。标准化以具有相同的单位)。R2R2R^2 为什么?正常吗 无论数据分布如何,使用OLS都有什么问题? 编辑 根据kjetil b halvorsen等人的建议,我通过两个模型拟合了数据:OLS和负二项式GLM(NB)。我从拥有的所有功能开始,然后递归地逐一删除了不重要的功能。OLS是 crimearea−−−−√=α+βX+ϵcrimearea=α+βX+ϵ\sqrt{\frac{crime}{area}} = \alpha + \beta X + \epsilon 权重=。areaareaarea summary(w <- lm(sqrt(num/area) ~ RNR_nres_non_daily + RNR_nres_daily + hType_mix_std + area_filtr + num_community_places+ num_intersect + pop_rat_num + employed + emp_rat_pop + nden_daily + nden_non_daily+ bld_rat_area …

1
我们真的用*百万*系数/独立变量执行多元回归分析吗?
我花了一些时间学习机器学习(对于递归很抱歉:),在多变量线性回归的情况下,我选择选择梯度下降而不是直接方程求解来计算回归系数的经验法则使我很感兴趣。 经验法则:如果特征数目(读出的系数/自变量)是间或以上一百万,去与梯度下降,否则矩阵求逆运算是在商用硬件相当可控,从而计算系数直接应该足够好。10 ,000 - 1 ,000 ,00010,000-1个,000,00010,000 - 1,000,000 从计算上来说,我得到了权衡/限制。但是从统计学的角度来看,我们真的可以计算出具有这么多系数的模型吗?如果我还记得我在研究生院的多元线性回归课,我们被警告不要使用过多的自变量,因为它们对因变量的影响可能微乎其微,否则它们的分布将不服从我们对数据所做的假设。即使我确实开阔了思维以考虑“许多IV”,我仍然不会想成千上万。 问题: 这是真的发生还是理论上的问题? 分析一百万个静脉注射有什么意义?相对于无视它们,这是否真的使我们获得的信息价值大大增加了? 还是因为一开始我们不知道什么是有用的,所以我们只是运行该死的回归来看看什么是有用的,然后从那里去并可能删减IV组? 我仍然相信,仅仅因为我们可以分析“一切”,并不意味着我们应该将其扔到求解器中(或者这样做),而我过去的一些问题也反映了类似的POV。 我尚未完成课程,我可能会很快提这个问题,但是我只是想不出这个“为什么”的想法,而是想尽我所能来理解它。

4
使用卡方距离比较两个直方图
我想比较两张面孔的图像。我计算了他们的LBP直方图。因此,现在我需要比较这两个直方图,并获得可以说明这些直方图相等(0-100%)的信息。 解决此任务的方法有很多,但是LBP方法的作者强调(带有局部二进制模式的面部描述:应用于面部识别。2004年),卡方距离比直方图交点和对数似然统计更好。 作者还显示了卡方距离的公式: ∑i=1n(xi−yi)2(xi+yi)∑i=1n(xi−yi)2(xi+yi) \sum_{i=1}^{n} \cfrac{(x_i - y_i)^2} {(x_i + y_i)} 其中是多个bin,是第一个bin 的值,是第二个bin的值。X 我ÿ 我nnnxixix_iyiyiy_i 在一些研究中(例如二次方卡尺直方图距离族),我看到卡方距离的公式为: 12∑i=1n(xi−yi)2(xi+yi)12∑i=1n(xi−yi)2(xi+yi) \cfrac{1}{2}\sum_{i=1}^{n} \cfrac{(x_i - y_i)^2} {(x_i + y_i)} 在http://www.itl.nist.gov/div898/handbook/eda/section3/eda35f.htm中,我看到卡方距离的公式为: ∑i=1n(xi−yi)2yi∑i=1n(xi−yi)2yi \sum_{i=1}^{n} \cfrac{(x_i - y_i)^2} {y_i} 我坚持下去。我有几个问题: 我应该使用什么表情? 我应该如何解释差异的结果?我知道等于0的差意味着两个直方图都相等,但是如何知道两个直方图完全不同?我需要使用卡方表吗?还是我需要使用阈值?基本上,我想将差异映射到百分比。 为什么这三个表达式不同?

5
什么是效果大小…为什么它甚至有用?
我具有研究生水平的统计学背景(假设我知道本科水平的数学统计学和概率论(例如,Wackerly等人,Ross'Probability),并且对度量理论有所了解)。 我最近开始从事教育统计方面的实验设计和统计报告工作,并被安排在一个项目上,该项目主要是在评估学校的问责制指标,并且必须分析数据,提出更改建议等。请注意,我是唯一的我部门有数学统计学背景的一位。 在我的位置上,人们强烈建议使用效果大小来衡量程序的有效性。我唯一一次听说过效应大小是从我的朋友那里学习的,心理学。我的印象是影响大小= 均值差标准偏差。规模效应=均值差标准偏差。\text{Effect Size} = \dfrac{\text{Difference of Means}}{\text{Standard Deviation}}\text{.} 与传统的假设检验相比,该指标有什么用处?为什么我要关心它?在我看来,这不过是两样本检验的检验统计量而已。除了将所有内容放到相同的规模(这就是为什么任何人真正地“规范化”任何东西的原因)之外,我认为这一点都没有用,但是我认为测试统计数据(这对我来说是效果大小)已经过时了和是首选。ŤŤtppp

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.