统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

2
了解p值
我知道有很多材料可以解释p值。但是,如果不进一步澄清,很难轻易牢牢把握这个概念。 这是Wikipedia中p值的定义: p值是假设零假设为真,则获得至少与实际观察到的极端一样的检验统计量的概率。(http://en.wikipedia.org/wiki/P-value) 分钟[ P(X&lt; x),P( x &lt; X)]min[P(X&lt;x),P(x&lt;X)]\min[P(X<x),P(x<X)],如果统计量的PDF是单峰的,则是检验统计量,而是其从观察中获得的值。这是正确的吗?如果正确,使用统计的双峰PDF是否仍然适用?如果PDF的两个峰很好地分开,并且观测值在两个峰之间的低概率密度区域中的某个位置,则p值给出哪个概率?XXXXXxx 的第二个问题是关于从钨MathWorld p值的另一种定义: 变量严格地偶然采用大于或等于观察值的概率。(http://mathworld.wolfram.com/P-Value.html) 我了解到“严格地偶然”一词应解释为“假设无效假设”。那正确吗? 在第三个问题关于使用“零假设”的。假设有人要坚持认为硬币是公平的。他表达了这样的假设,即头部的相对频率为0.5。那么零假设是“磁头的相对频率不是0.5”。在这种情况下,尽管难以计算原假设的p值,但对于替代假设而言,计算却很容易。当然,可以通过互换两个假设的作用来解决问题。我的问题是,直接基于原始替代假设的p值(不引入无效假设)的拒绝或接受是可以的。如果还不行,那么在计算原假设的p值时针对此类困难的通常解决方法是什么? 我发布了一个新问题,该问题根据该主题中的讨论得到进一步阐明。

4
在粒子物理学中接受证据的“ 5 ”阈值的由来?
新闻报道称,欧洲核子研究中心将在明天宣布,希格斯玻色子已通过5个证据得到了实验检测。根据该文章:σσ\sigma 5表示CMS和ATLAS检测器看到的数据不仅仅是随机噪声,而且有99.99994%的概率,并且有0.00006%的概率被蒙蔽了;5是被正式标记为科学“发现”的必要确定性。σσ\sigmaσσ\sigma 这不是很严格,但是似乎可以说物理学家使用标准的“假设检验”统计方法,将设置为,它对应于(两尾)?还是还有其他含义?αα\alpha0.00000060.00000060.0000006z=5z=5z=5 当然,在许多科学中,通常将alpha设置为0.05。这将等效于“ two- ”证据,尽管我从未听说过这种说法。是否有其他领域(除了粒子物理学之外)对α的定义更为严格?有人知道规则如何被粒子物理学所接受的参考吗?σσ\sigmaσσ\sigma 更新:我问这个问题的原因很简单。我的《直觉生物统计学》一书(与大多数统计书籍一样)的一节解释了通常的“ P &lt;0.05”规则的任意性。我想添加一个科学领域的例子,其中值要小得多。但是,如果使用贝叶斯方法(如下面的一些注释所示)实际上使示例更加复杂,那么它就不太合适或需要更多解释。αα\alpha




3
如何用R拟合ARIMAX模型?
我有四个不同的每小时测量时间序列: 房屋内部的热量消耗 屋外温度 太阳辐射 风速 我希望能够预测房屋内部的热量消耗。每年和每天都有明显的季节性趋势。由于不同系列之间存在明显的相关性,因此我想使用ARIMAX模型拟合它们。可以使用包TSA中的arimax函数在R中完成。 我试图阅读有关此函数的文档,并阅读传递函数,但到目前为止,我的代码是: regParams = ts.union(ts(dayy)) transferParams = ts.union(ts(temp)) model10 = arimax(heat,order=c(2,1,1),seasonal=list(order=c(0,1,1),period=24),xreg=regParams,xtransf=transferParams,transfer=list(c(1,1)) pred10 = predict(model10, newxreg=regParams) 给我: 黑线是实际测量的数据,绿线是我的比较模型。这不仅不是一个好的模型,而且显然有些错误。 我承认我对ARIMAX模型和传递函数的了解有限。在函数arimax()中(据我了解),xtransf是我要使用(使用传递函数)来预测我的主要时间序列的外生时间序列。但是xreg和xtransf到底有什么区别? 一般来说,我做错了什么?我希望能够获得比从lm(热〜临时辐射风*时间)获得的更好的拟合度。 编辑: 基于一些评论,我删除了transfer,并添加了xreg: regParams = ts.union(ts(dayy), ts(temp), ts(time)) model10 = arimax(heat,order=c(2,1,1),seasonal=list(order=c(0,1,1),period=24),xreg=regParams) 其中dayy是“一年中的第几天”,而时间是一天中的小时。温度再次是外界温度。这给了我以下结果: 更好,但远不及我所期望的。

3
确定物体颜色的最准确方法是什么?
我编写了一个计算机程序,可以使用一些计算机视觉标准技术(高斯模糊,阈值,霍夫变换等)来检测静态图像(.jpeg,.png等)中的硬币。使用从给定图像中拾取的硬币的比率,我可以确定地确定哪些硬币。但是,我希望增加我的置信度,并确定我推断出的A型硬币(根据半径比)是否也具有正确的颜色。问题是对于英国硬币等。(铜,银,金),各自的颜色(尤其是铜到金)非常相似。 我有一个例程根据RedGreenBlue(RGB)“颜色空间”提取给定硬币的平均颜色,并将该颜色转换为HueSaturationBrightness(HSB或HSV)“颜色空间”的例程。 在尝试区分三种硬币颜色时,RGB并不是很好用(示例请参见所附的[基本]图像)。对于不同硬币类型的颜色,我具有以下范围和典型值: 注意:此处的典型值是使用实际图像的“像素级”平均值选择的一个。 **Copper RGB/HSB:** typicalRGB = (153, 117, 89)/(26, 0.42, 0.60). **Silver RGB/HSB:** typicalRGB = (174, 176, 180)/(220, 0.03, 0.71). **Gold RGB/HSB:** typicalRGB = (220, 205, 160)/(45, 0.27, 0.86) 我首先尝试使用给定的平均硬币颜色(使用RGB)与上面给定的每种硬币类型的典型值之间的“欧氏距离”,将RGB值视为矢量;对于铜,我们将有: dÇ ø p p Ë ř= (√(RŤ ÿp è− RÇ ø p p Ë ř)2+ (GŤ ÿp è− …


2
有Poisson分布式数据的箱线图变体吗?
我想知道是否有适合于Poisson分布式数据(或其他分布)的boxplot变量? 对于高斯分布,晶须位于L = Q1-1.5 IQR和U = Q3 + 1.5 IQR的情况下,箱线图的属性是低异常值(L下方的点)与高异常值(U上方的点)一样多)。 但是,如果数据是泊松分布,则由于正偏度而不再成立,我们得到Pr(X &lt;L)&lt;Pr(X&gt; U)。是否有其他方法放置晶须,使其“适合”泊松分布?

4
R中的标准错误聚类(手动或plm)
我试图理解标准错误“聚类”以及如何在R中执行(在Stata中是微不足道的)。在RI中使用plm或编写我自己的函数均未成功。我将使用包装中的diamonds数据ggplot2。 我可以使用任一虚拟变量进行固定效果 &gt; library(plyr) &gt; library(ggplot2) &gt; library(lmtest) &gt; library(sandwich) &gt; # with dummies to create fixed effects &gt; fe.lsdv &lt;- lm(price ~ carat + factor(cut) + 0, data = diamonds) &gt; ct.lsdv &lt;- coeftest(fe.lsdv, vcov. = vcovHC) &gt; ct.lsdv t test of coefficients: Estimate Std. Error t value Pr(&gt;|t|) …

2
一个随机变量的函数的方差
假设我们有随机变量XXX,其方差和均值已知。问题是:对于给定的函数f ,的方差是多少f(X)f(X)f(X)。我知道的唯一通用方法是增量方法,但它仅提供近似值。现在我对f (x )= √感兴趣f(x)=x−−√f(x)=xf(x)=\sqrt{x},但是了解一些通用方法也很高兴。 编辑29.12.2010 我已经使用泰勒级数进行了一些计算,但是我不确定它们是否正确,因此如果有人可以确认它们,我将非常高兴。 首先,我们需要近似E[f(X)]E[f(X)]E[f(X)] E[f(X)]≈E[f(μ)+f′(μ)(X−μ)+12⋅f′′(μ)(X−μ)2]=f(μ)+12⋅f′′(μ)⋅Var[X]E[f(X)]≈E[f(μ)+f′(μ)(X−μ)+12⋅f″(μ)(X−μ)2]=f(μ)+12⋅f″(μ)⋅Var[X]E[f(X)] \approx E[f(\mu)+f'(\mu)(X-\mu)+\frac{1}{2}\cdot f''(\mu)(X-\mu)^2]=f(\mu)+\frac{1}{2}\cdot f''(\mu)\cdot Var[X] 现在我们可以近似D2[f(X)]D2[f(X)]D^2 [f(X)] E[(f(X)−E[f(X)])2]≈E[(f(μ)+f′(μ)(X−μ)+12⋅f′′(μ)(X−μ)2−E[f(X)])2]E[(f(X)−E[f(X)])2]≈E[(f(μ)+f′(μ)(X−μ)+12⋅f″(μ)(X−μ)2−E[f(X)])2]E[(f(X)-E[f(X)])^2] \approx E[(f(\mu)+f'(\mu)(X-\mu)+\frac{1}{2}\cdot f''(\mu)(X-\mu)^2 -E[f(X)])^2] 使用的近似我们知道˚F (μ )- ë ˚F (X )≈ - 1E[f(X)]E[f(X)]E[f(X)]f(μ)−Ef(x)≈−12⋅f′′(μ)⋅Var[X]f(μ)−Ef(x)≈−12⋅f″(μ)⋅Var[X]f(\mu)-Ef(x) \approx -\frac{1}{2}\cdot f''(\mu)\cdot Var[X] 使用此,我们得到: D2[f(X)]≈14⋅f′′(μ)2⋅Var[X]2−12⋅f′′(μ)2⋅Var[X]2+f′(μ)2⋅Var[X]+14f′′(μ)2⋅E[(X−μ)4]+12f′(μ)f′′(μ)E[(X−μ)3]D2[f(X)]≈14⋅f″(μ)2⋅Var[X]2−12⋅f″(μ)2⋅Var[X]2+f′(μ)2⋅Var[X]+14f″(μ)2⋅E[(X−μ)4]+12f′(μ)f″(μ)E[(X−μ)3]D^2[f(X)] \approx \frac{1}{4}\cdot f''(\mu)^2\cdot Var[X]^2-\frac{1}{2}\cdot f''(\mu)^2\cdot Var[X]^2 + f'(\mu)^2\cdot Var[X]+\frac{1}{4}f''(\mu)^2\cdot E[(X-\mu)^4] +\frac{1}{2}f'(\mu)f''(\mu)E[(X-\mu)^3] D2[f(X)]≈14⋅f′′(μ)2⋅[D4X−(D2X)2]+f′(μ)⋅D2X+12f′(μ)f′′(μ)D3XD2[f(X)]≈14⋅f″(μ)2⋅[D4X−(D2X)2]+f′(μ)⋅D2X+12f′(μ)f″(μ)D3XD^2 [f(X)] \approx …

10
如何教那些担心统计学的学生?
我将在本学期帮助医学生教授统计学。 我听到过许多恐怖的故事,这些故事使学习统计资料的学生感到恐惧。 有人可以建议如何应对这种恐惧吗?(要么链接到正在讨论此问题的人,要么根据您的经验提供建议)
33 teaching 

6
如何评估两个直方图的相似性?
给定两个直方图,我们如何评估它们是否相似? 仅看两个直方图就足够了吗?简单的一对一映射存在以下问题:如果直方图略有不同并且略有偏移,那么我们将无法获得所需的结果。 有什么建议么?


1
GBM,XGBoost,LightGBM,CatBoost之间的数学差异?
GBDT系列模型有几种实现,例如: GBM XGBoost LightGBM Catboost。 这些不同实现之间的数学区别是什么? 即使根据此基准测试仅使用Catboost的默认参数,Catboost似乎也胜过其他实现,但它仍然非常慢。 我的猜测是,catboost不使用虚拟变量,因此与其他实现相比,赋予每个(分类)变量的权重更加均衡,因此高基数变量的权重不会超过其他实现。它允许弱分类(具有低基数)进入某些树,因此性能更好。除此之外,我没有进一步的解释。
33 boosting  xgboost 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.