统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

5
在实践中,“仅根据比例的乘法常数来定义可能性”是什么意思?
我正在阅读一篇论文,作者从最大似然估计的讨论到贝叶斯定理,似乎是对初学者的介绍。 作为一个可能性示例,它们从二项分布开始: p(x|n,θ)=(nx)θx(1−θ)n−xp(x|n,θ)=(nx)θx(1−θ)n−xp(x|n,\theta) = \binom{n}{x}\theta^x(1-\theta)^{n-x} 然后登录双方 ℓ(θ|x,n)=xln(θ)+(n−x)ln(1−θ)ℓ(θ|x,n)=xln⁡(θ)+(n−x)ln⁡(1−θ)\ell(\theta|x, n) = x \ln (\theta) + (n-x)\ln (1-\theta) 具有以下基本原理: “因为可能性仅被定义为比例的乘性常数(或对数似然的加性常数),所以我们可以通过降低二项式系数并写出对数似然来代替似然来重新定标。” 数学上是有道理的,但我不明白“似然仅定义为比例乘性常数”的含义,以及这如何使二项式系数下降并从变为\ ell(\ theta | x,n)。p(x|n,θ)p(x|n,θ)p(x|n,\theta)ℓ(θ|x,n)ℓ(θ|x,n)\ell(\theta|x,n) 在其他问题(此处和此处)中也出现了类似的术语,但实际上仍不清楚可能的定义是什么,或者使信息达到可乘的常数。有可能用外行的术语解释吗?

1
绘制并解释序数逻辑回归
我有一个序数相关变量,易用性,范围从1(不容易)到5(非常容易)。独立因子值的增加与易用性等级的提高相关。 我的两个自变量(condA和condB)是分类的,每个具有2个级别,而2(abilityA,abilityB)是连续的。 我在R中使用了序数包,它使用了我认为是的 (来自@狞的答案在这里)分对数(p (ÿ⩽ 克))= lnp (ÿ⩽ 克)p (ÿ> 克)= β0G− (β1个X1个+ ⋯ + βpXp)(克= 1 ,… ,k − 1 )Logit(p(ÿ⩽G))=ln⁡p(ÿ⩽G)p(ÿ>G)=β0G-(β1个X1个+⋯+βpXp)(G=1个,…,ķ-1个)\text{logit}(p(Y \leqslant g)) = \ln \frac{p(Y \leqslant g)}{p(Y > g)} = \beta_{0_g} - (\beta_{1} X_{1} + \dots + \beta_{p} X_{p}) \quad(g = 1, \ldots, k-1) 我一直在独立地学习这一点,并希望在我仍在努力的过程中提供任何帮助。除了序数包随附的教程外,我还发现以下内容会有所帮助: 序数逻辑回归的解释 有序逻辑回归中的负系数 但是我试图解释结果,并将不同的资源放在一起,并陷入困境。 …

2
神经网络是黑盒子的含义吗?
我经常听到人们谈论神经网络,就像黑盒子一样,您不了解它的作用或含义。我实际上不明白他们的意思!如果您了解反向传播的工作原理,那么黑匣子又如何呢? 它们是否意味着我们不了解如何计算权重或什么?

2
您如何“控制”一个因素/变量?
据我了解,“控制”在统计中可以有两个含义。 对照组:在实验中,未对对照组成员进行任何治疗。例如:安慰剂与药物:您将药物分配给一组而不是另一组(对照组),这也称为“对照实验”。 变量控制:分离特定自变量影响的技术。赋予该技术的其他一些名称是“占”,“保持常数”,“控制”,一些变量。例如:在一项足球观看研究中(喜欢或不喜欢),您可能想要消除性别的影响,因为我们认为性别会导致偏见,也就是说,男性可能比女性更喜欢它。 所以,我的问题是针对第(2)点。两个问题: 通常,您如何“控制” /“考虑”变量。使用什么技术?(就回归而言,方差分析框架)。 在上面的示例中,随机选择男性和女性是否构成控制?也就是说,“随机性”是控制其他效果的技术之一吗?

4
如何评估装有lme4(> 1.0)的二项式GLMM的拟合度?
我有一个具有二项式分布和logit链接函数的GLMM,并且我觉得模型中没有很好地表示数据的重要方面。 为了测试这一点,我想知道数据是否通过对数刻度上的线性函数很好地描述了。因此,我想知道残差是否良好。但是,我无法确定要在哪个残差图上绘制以及如何解释该图。 请注意,我正在使用lme4的新版本(来自GitHub的开发版本): packageVersion("lme4") ## [1] ‘1.1.0’ 我的问题是:如何使用logit链接函数检查和解释二项式广义线性混合模型的残差? 以下数据仅代表我实际数据的17%,但是拟合在我的机器上已经花费了大约30秒,因此我将其保留为: require(lme4) options(contrasts=c('contr.sum', 'contr.poly')) dat <- read.table("http://pastebin.com/raw.php?i=vRy66Bif") dat$V1 <- factor(dat$V1) m1 <- glmer(true ~ distance*(consequent+direction+dist)^2 + (direction+dist|V1), dat, family = binomial) 最简单的绘图(?plot.merMod)会产生以下结果: plot(m1) 这已经告诉我一些事情了吗?

2
拟合R中逻辑增长曲线的最轻松方法是什么?
对于Google来说,这不像其他事情那么容易,因为要明确地说,我并不是在使用回归来预测分类变量的意义上谈论逻辑回归。 我说的是将逻辑增长曲线拟合到给定的数据点。具体来说,是1958年至2012年的给定年份,y是x年11月的估计全球CO2 ppm(百万分之二氧化碳)。XXxÿÿyXXx 目前,它正在加速发展,但必须稳定下来。所以我想要一条逻辑曲线。 我还没有找到一个相对简单的方法来做到这一点。


5
Beta回归比例数据,包括1和0
我正在尝试生成一个模型,该模型的响应变量的比例在0和1之间,其中包括相当多的0和1,但也有介于两者之间的许多值。我正在考虑尝试beta回归。我为R(betareg)找到的程序包只允许0到1之间的值,但不包括0或1。我在其他地方读过,从理论上讲,β分布应该能够处理0或1的值,但是我不知道如何在RI中处理此问题,因为看到有人将0.001加到零并从中取0.001,但是我不是确定这是个好主意? 或者,我可以logit变换响应变量并使用线性回归。在这种情况下,我有0和1的相同问题,无法对它们进行日志转换。

2
功能工程教程
众所周知,特征工程对于机器学习极为重要,但是我发现与此领域相关的材料很少。我参加了Kaggle的几次比赛,并认为在某些情况下,好的功能甚至比好的分类器更重要。有谁知道关于功能工程的任何教程,或者这是纯粹的经验?

1
考克斯基线危险
假设我有一个“肾脏导管”数据集。我正在尝试使用Cox模型为生存曲线建模。如果我考虑一个Cox模型:需要估计基准危害。通过使用内置的包R函数,我可以轻松地做到这一点:ħ (吨,ž)= 小时0经验值(b′ž),h(t,Z)=h0exp⁡(b′Z),h(t,Z) = h_0 \exp(b'Z),survivalbasehaz() library(survival) data(kidney) fit <- coxph(Surv(time, status) ~ age , kidney) basehaz(fit) 但是,如果我想针对给定的参数估计值编写基准危害的逐步函数,该b如何进行?我试过了: bhaz <- function(beta, time, status, x) { data <- data.frame(time,status,x) data <- data[order(data$time), ] dt <- data$time k <- length(dt) risk <- exp(data.matrix(data[,-c(1:2)]) %*% beta) h <- rep(0,k) for(i in 1:k) { …
19 r  cox-model  hazard 

1
如何在R中的auto.arima()中设置xreg参数?[关闭]
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 6年前关闭。 我正在做一个具有一个时间序列的小型项目,该序列可测量(每日)客户访问数据。我的协变量是一个连续变量,Day用于测量从数据收集的第一天起已经经过了多少天,还有一些虚拟变量,例如该天是否是圣诞节以及星期几。 我的部分数据如下所示: Date Customer_Visit Weekday Christmas Day 11/28/11 2535 2 0 1 11/29/11 3292 3 0 2 11/30/11 4103 4 0 3 12/1/11 4541 5 0 4 12/2/11 6342 6 0 5 12/3/11 7205 7 0 6 12/4/11 3872 1 0 7 12/5/11 3270 2 0 …

1
对数正态随机变量可获得的相关性
考虑具有和的对数正态随机变量和。X1个X1个X_1X2X2X_2日志(X1个)〜Ñ(0 ,1 )日志⁡(X1个)〜ñ(0,1个)\log(X_1)\sim \mathcal{N}(0,1)日志(X2)〜Ñ(0 ,σ2)日志⁡(X2)〜ñ(0,σ2)\log(X_2)\sim \mathcal{N}(0,\sigma^2) 我正在尝试为\ rho(X_1,X_2)计算和\ rho _ {\ min}。给定解决方案中的一个步骤是:ρ最高ρ最高\rho_{\max}ρ分ρ分\rho_{\min}ρ (X1个,X2)ρ(X1个,X2)\rho (X_1,X_2) ρ最高= ρ (exp(Z),exp(σž))ρ最高=ρ(经验值⁡(ž),经验值⁡(σž))\rho_{\max}=\rho (\exp(Z),\exp(\sigma Z))和 ρ分= ρ (exp(Z),exp(- σž))ρ分=ρ(经验值⁡(ž),经验值⁡(-σž))\rho_{\min}=\rho (\exp(Z),\exp(-\sigma Z)), 但是他们提到了同调性和反共声性。我希望有人能帮助我了解他们之间的关系。(我知道如何从一般表达式中获得此信息,但想具体了解共调性部分在说什么。)

2
为什么对方差进行回归?
我正在读这篇笔记。 在第2页上,它指出: “给定的回归模型可以解释多少数据差异?” “回归解释是关于系数的均值;推论是关于它们的方差。” 我已经多次阅读过此类陈述,为什么我们会关心“给定的回归模型可以解释数据中的多少差异?”……更具体地说,为什么“差异”呢?

2
对称分布的定义是什么?
对称分布的定义是什么?有人告诉我,当且仅当和具有相同的分布时,随机变量才来自对称分布。但是我认为这个定义部分正确。因为我可以一个反例和。显然,它具有对称分布,但是和具有不同的分布!我对吗?你们有没有想过这个问题?对称分布的确切定义是什么?XXXXXX−X−X-XX∼N(μ,σ2)X∼N(μ,σ2)X\sim N(\mu,\sigma^{2})μ≠0μ≠0\mu\neq0XXX−X−X-X

2
什么是经验熵?
在共同典型集合的定义中(在“信息论的元素”,第7.6章,第195页)中,我们使用 −1nlogp(xn)−1nlog⁡p(xn)-\frac{1}{n} \log{p(x^n)}作为序列的经验熵,其中。我以前从未遇到过这种术语。根据书的索引,没有在任何地方明确定义它。nnnp(xn)=∏ni=1p(xi)p(xn)=∏i=1np(xi)p(x^n) = \prod_{i=1}^{n}{p(x_i)} 我的问题基本上是:为什么经验熵不是其中是经验分布?−∑xp^(x)log(p^(x))−∑xp^(x)log⁡(p^(x))-\sum_{x}{\hat p (x) \log(\hat p(x))}p^(x)p^(x)\hat p(x) 这两个公式之间最有趣的区别和相似之处是什么?(就他们共享/不共享的属性而言)。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.