统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答




2
熵告诉我们什么?
我正在阅读有关熵的信息,并且在概念上很难理解连续情况下的含义。Wiki页面指出以下内容: 事件的概率分布与每个事件的信息量一起形成一个随机变量,其期望值为该分布生成的平均信息量或熵。 因此,如果我计算出与连续概率分布相关的熵,那到底能告诉我什么?他们给出了一个有关抛硬币的例子,所以是离散情况,但是如果有一种直观的方式来解释一个连续的例子,那就太好了! 如果有帮助,则连续随机变量的熵定义如下:XXX H(X)=−∫P(x)logbP(x)dxH(X)=−∫P(x)logb⁡P(x)dxH(X)=-\int P(x)\log_b P(x)dx where P(x)P(x)P(x) is a probability distribution function. To try and make this more concrete, consider the case of X∼Gamma(α,β)X∼Gamma(α,β)X\sim \text{Gamma}(\alpha,\beta), then, according to Wikipedia, the entropy is H(X)=E[−ln(P(X))]=E[−αln(β)+ln(Γ(α))+ln(Γ(α))−(α−1)ln(X)+βX]=α−ln(β)+ln(Γ(α))+(1−α)(ddαln(Γ(α)))H(X)=E[−ln⁡(P(X))]=E[−αln⁡(β)+ln⁡(Γ(α))+ln⁡(Γ(α))−(α−1)ln⁡(X)+βX]=α−ln⁡(β)+ln⁡(Γ(α))+(1−α)(ddαln⁡(Γ(α)))\begin{align} H(X)&=\mathbb{E}[-\ln(P(X))]\\ &=\mathbb{E}[-\alpha\ln(\beta)+\ln(\Gamma(\alpha))+\ln(\Gamma(\alpha))-(\alpha-1)\ln(X)+\beta X]\\ &=\alpha-\ln(\beta)+\ln(\Gamma(\alpha))+(1-\alpha)\left(\frac{d}{d\alpha}\ln(\Gamma(\alpha))\right) \end{align} And so now we have calculated the entropy for a …
32 entropy 

3
是否可以更改假设以匹配观察到的数据(又称捕鱼探险)并避免I型错误增加?
众所周知,研究人员应该花时间观察和探索现有数据并进行研究,然后再形成假设,然后收集数据以检验该假设(指零假设重要性检验)。许多基础统计书籍警告说,假设必须先验形成,并且在数据收集后不能更改,否则该方法将无效。 我了解更改假设以适合观察到的数据存在问题的一个原因是,由于虚假数据而导致发生I类错误的可能性更大,但是我的问题是:这是唯一的原因,或者是否还有其他基本问题参加钓鱼探险? 作为一个额外的问题,是否有办法在不使自己暴露于潜在陷阱的情况下进行钓鱼?例如,如果您有足够的数据,是否可以从一半的数据生成假设,然后使用另一半进行检验? 更新 我很感激我对这个问题的兴趣,但是答案和评论主要针对的是我认为我作为背景信息确定的内容。我想知道是否还有其他原因导致它比伪造结果的可能性更高,并且是否有其他方法(例如先拆分数据)事后更改假设,但又避免了I类错误的增加。 我已经更新标题以希望反映出我的问题的重点。 谢谢,对不起您的困惑!

5
AIC选型指南
我通常使用BIC,因为我的理解是与AIC相比,它更重视简约。但是,我现在决定使用一种更全面的方法,并且也希望使用AIC。我知道Raftery(1995)为BIC差异提出了很好的指导原则:0-2弱,2-4是一个模型更好的积极证据,依此类推。 我在教科书上看过,它们在AIC上似乎很奇怪(看起来差异较大,AIC差异较小意味着一个模型更好)。这违背了我所学的知识。我的理解是您希望降低AIC。 有谁知道Raftery的指南是否也适用于AIC,或者我会在哪里引用某个模型相对于另一个模型的“证据强度”指南? 是的,临界值并不是很好(我觉得它们很恼人),但是在比较不同种类的证据时它们很有用。

2
逻辑回归:伯努利与二项式响应变量
我想使用以下二项式响应并以和作为预测因子进行逻辑回归。 X1个X1个X_1X2X2X_2 我可以采用以下格式提供与伯努利回复相同的数据。 逻辑回归输出用于这2个数据集是大多相同的。偏差残差和AIC不同。(两种情况下零偏差和残余偏差之间的差异相同,为0.228。) 以下是R的回归输出。这些数据集称为binom.data和bern.data。 这是二项式输出。 Call: glm(formula = cbind(Successes, Trials - Successes) ~ X1 + X2, family = binomial, data = binom.data) Deviance Residuals: [1] 0 0 0 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -2.9649 21.6072 -0.137 0.891 X1Yes -0.1897 2.5290 -0.075 0.940 X2 0.3596 1.9094 0.188 …

1
时态网络中的链路异常检测
我碰到了一篇使用链接异常检测来预测趋势主题的论文,并且发现它非常有趣:该论文是“通过链接异常检测在社交流中发现新兴主题”。 我想将其复制到不同的数据集上,但是我对如何使用它们的方法并不熟悉。假设我有六个月的一系列节点网络快照。节点具有长尾度分布,大多数节点只有几个连接,而有些则有很多。新节点将在此时间段内出现。 我如何实现本文中使用的顺序折算归一化的最大似然计算来检测我认为可能是爆发的先兆的异常链接?还有其他更合适的方法吗? 我在理论上和实践上都在问。如果有人可以指出我用python或R实现该方法的方法,那将非常有帮助。 任何人?我知道你们那里的聪明人有一些开始思考的答案,


1
在R中使用anova()函数比较两个模型
从文档中anova(): 给定一系列对象后,“ anova”将按照指定的顺序对模型进行测试... 相互测试这些模型意味着什么?为什么顺序很重要? 这是GenABEL教程中的示例: > modelAdd = lm(qt~as.numeric(snp1)) > modelDom = lm(qt~I(as.numeric(snp1)>=2)) > modelRec = lm(qt~I(as.numeric(snp1)>=3)) anova(modelAdd, modelGen, test="Chisq") Analysis of Variance Table Model 1: qt ~ as.numeric(snp1) Model 2: qt ~ snp1 Res.Df RSS Df Sum of Sq Pr(>Chi) 1 2372 2320 2 2371 2320 1 0.0489 0.82 …
32 r  anova 

3
是否可以找到组合的标准偏差?
假设我有2套: 设置A:项目数,,n=10n=10n= 10μ=2.4μ=2.4\mu = 2.4σ=0.8σ=0.8\sigma = 0.8 集合B:项目数,,n=5n=5n= 5μ=2μ=2\mu = 2σ=1.2σ=1.2\sigma = 1.2 我可以轻松找到组合平均值(),但是应该如何找到组合标准偏差?μμ\mu

1
为什么R返回NA作为lm()系数?
我正在lm()为包含财务季度指标(第一季度,第二季度,第三季度,使第四季度成为默认指标)的数据集拟合模型。使用lm(Y~., data = data),我得到a NA作为Q3的系数,并警告说一个变量由于奇异而被排除。 我是否需要添加Q4列?
32 r  regression 

3
内核逻辑回归与SVM
众所周知,SVM可以使用内核方法将数据点投影到较高的空间中,以便可以用线性空间分隔这些点。但是我们也可以使用逻辑回归在内核空间中选择此边界,那么SVM有何优势?由于SVM使用的稀疏模型在预测时仅由那些支持向量做出贡献,因此这会使SVM的预测速度更快吗?
32 svm 


2
单边切比雪夫不等式的样本版本是否存在?
我对以下单方面的Cantelli版本的Chebyshev不等式感兴趣: P(X−E(X)≥t)≤Var(X)Var(X)+t2.P(X−E(X)≥t)≤Var(X)Var(X)+t2。 \mathbb P(X - \mathbb E (X) \geq t) \leq \frac{\mathrm{Var}(X)}{\mathrm{Var}(X) + t^2} \,. 基本上,如果您知道总体均值和方差,则可以计算观察到某个值的概率的上限。(至少这是我的理解。) 但是,我想使用样本均值和样本方差,而不是实际总体均值和方差。 我猜想,由于这会带来更多不确定性,因此上限会增加。 是否存在类似于上述的不等式,但是使用样本均值和方差? 编辑:Chebyshev不等式(不是单面)的“样本”类似物,已经制定出来。在维基百科页面有一些细节。但是,我不确定它将如何转化为我上面提到的单面案例。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.