统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

4
“随机样本”和“ iid随机变量”是同义词吗?
我一直很难理解“随机样本”和“ iid随机变量”的含义。我试图从几个方面找出含义,但是却越来越困惑。我将在此发布的内容尝试并了解: Degroot的概率与统计说: 随机样本/ iid /样本大小:考虑真实行上的给定概率分布,该概率分布可以用pf或pdf。据说有随机变量如果这些随机变量是独立的,并且每个变量的边际pf或pdf为从该分布形成一个随机样本。这种随机变量也被认为是独立且均等分布的,简称iid。我们将随机变量的数量n称为样本量。FFfññnX1个,。。。, XñX1个,。。。,XñX_1 , . . . , X_nFFf 但是我写过的另一本统计书说: 在随机抽样中,我们保证总体中的每个个体单元都有相等的被选择的机会(概率)。 因此,我觉得iid是构成随机样本的元素,而拥有随机样本的过程就是随机抽样。我对吗? PS:我对这个话题非常困惑,因此,我感谢您详尽的答复。谢谢。



1
原始,对偶和内核岭回归之间的差异
Primal,Dual和Kernel Ridge回归有什么区别?人们正在使用这三种方法,并且由于每个人在不同来源使用的概念不同,因此我很难理解。 那么有人可以用简单的话告诉我这三个之间有什么区别吗?此外,每种技术都有哪些优点或缺点,其复杂性又是什么?

4
如何最好地可视化三组中许多比例的差异?
我正在尝试从视觉上比较三种不同的新闻出版物如何涵盖不同的主题(通过LDA主题模型确定)。我有两种相关的方法,但是从同事那里收到很多反馈,说这不是很直观。我希望外面有人对它可视化有更好的主意。 在第一个图中,我显示了每个出版物中每个主题的比例,如下所示: 对于几乎所有与我交谈过的人来说,这都是非常简单直观的。但是,很难看到出版物之间的差异。哪个报纸报道的话题更多? 为此,我绘制了主题比例最高的出版物与主题排名第二的出版物之间的差异,并按主题排名最高的出版物进行了区分。像这样: 因此,举例来说,足球的巨大标杆实际上就是al-Ahram English到Daily News Egypt(足球报道中排名第二)之间的距离,并且由于Al-Ahram排名第一而被涂成了红色。同样,审判是绿色的,因为“埃及独立报”的比例最高,条形大小是“埃及独立报”与“每日新闻埃及报”之间的距离(再次为#2)。 我必须在两段中全部解释这一事实,这是一个很肯定的迹象,表明该图未通过自给自足测试。仅仅看一下就很难说出到底发生了什么。 关于如何以更直观的方式在视觉上突出显示每个主题的主要出版物的任何一般建议? 编辑:要使用的数据:这是dputR的输出以及CSV文件。 编辑2:这是一个初步的点图版本,其点的直径与主题在主体中的比例成正比(这是主题最初的排序方式)。尽管我仍然需要进行一些微调,但感觉比以前更加直观。感谢大家!

2
用R计算对数回归的系数
在多元线性回归中,可以通过以下公式找出系数。 b = (X′X)− 1(X′)Yb=(X′X)-1个(X′)ÿb = (X'X)^{-1}(X')Y beta = solve(t(X) %*% X) %*% (t(X) %*% Y) ; beta 例如: > y <- c(9.3, 4.8, 8.9, 6.5, 4.2, 6.2, 7.4, 6, 7.6, 6.1) > x0 <- c(1,1,1,1,1,1,1,1,1,1) > x1 <- c(100,50,100,100,50,80,75,65,90,90) > x2 <- c(4,3,4,2,2,2,3,4,3,2) > Y <- as.matrix(y) > X …

1
MCMC在有界参数空间上?
我想一个问题申请MCMC,但我的先验概率(在我的情况下,他们是))被限制在一个区域?我可以使用普通的MCMC并忽略掉在限制区域(在我的情况下是[0,1] ^ 2)之外的样本,即当新的过渡区域超出限制区域时重用过渡函数吗?α∈[0,1],β∈[0,1]α∈[0,1],β∈[0,1]\alpha\in[0,1],\beta\in[0,1]

3
“标准化”是什么意思,以及如何验证样本或分布是否已标准化?
我有一个问题要询问是否验证均匀分布(Uniform(a,b)Uniform(a,b){\rm Uniform}(a,b))是否规范化。 首先,对任何分布进行规范化意味着什么? 第二,我们如何验证分布是否规范化? 我通过计算X理解 - 意思是X−meansdX−meansd \frac{X-\text{mean}}{\text{sd}} 我们得到归一化的数据,但是这里要求验证分布是否被归一化。


2
具有虚拟功能(和其他离散/分类功能)的异常检测
tl; dr discrete在执行异常检测时,推荐的处理数据的方法是什么? categorical在执行异常检测时,推荐的处理数据的方法是什么? 该答案建议使用离散数据仅过滤结果。 也许用观察的机会代替类别值? 介绍 这是我第一次在此处发布信息,因此,如果在格式或使用正确的定义方面在技术上似乎不正确,那么我很想知道应该使用什么代替。 向前。 我最近参加了Andrew Ng 的机器学习课程 对于异常检测,我们已经教过如何确定给定特征/变量在数据集中的正态/高斯分布参数,然后在给定特定条件下确定一组选定的训练示例/观测值的概率高斯分布,然后取特征概率的乘积。xixi{x_i} 方法 选择我们认为可以解释所讨论活动的特征/变量: { x 1,x 2,… ,x i }xixix_i{x1,x2,…,xi}{x1,x2,…,xi}\{x_1, x_2,\dots,x_i\} 适合高斯的参数对于每个特征: σ2=1μj=1m∑i=1mx(i)jμj=1m∑i=1mxj(i)\mu_j = \frac{1}{m}\sum_{i = 1}^m x_j^{(i)} σ2=1m∑i=1m(x(i)j−μj)2σ2=1m∑i=1m(xj(i)−μj)2\sigma^2 = \frac{1}{m}\sum_{i = 1}^m (x_j^{(i)} - \mu_j)^2 对于每个训练样例,,计算: p (X )= Ñ Π Ĵ = 1个 p (X Ĵ …

2
在svyglm和glm中使用权重
我想知道权重的处理之间的区别svyglm和glm 我正在twangR中使用软件包创建倾向得分,然后将其用作权重,如下所示(此代码来自twang文档): library(twang) library(survey) set.seed(1) data(lalonde) ps.lalonde <- ps(treat ~ age + educ + black + hispan + nodegree + married + re74 + re75, data = lalonde) lalonde$w <- get.weights(ps.lalonde, stop.method="es.mean") design.ps <- svydesign(ids=~1, weights=~w, data=lalonde) glm1 <- svyglm(re78 ~ treat, design=design.ps) summary(glm1) ... Coefficients: Estimate Std. Error t …
18 r  survey 

1
有关离散时间生存分析的基本问题
我正在尝试使用逻辑回归模型进行离散时间生存分析,但不确定我是否完全理解该过程。对于一些基本问题,我将不胜感激。 设置如下: 我正在寻找五年内的小组成员。每个成员都有该成员在组中每个月的月度记录。我正在考虑所有成员都是在五年窗口内开始的(以避免与较早加入的成员出现“左审查”问题)。每条记录将按时间编制索引,时间是成员加入的月份。因此,一个住了两年半的会员将拥有三十条月度记录,从一个到三十个。每条记录还将被赋予一个二进制变量,对于成员资格的最后一个月,该变量的值为1,否则为零。二进制变量的值为1表示成员已离开组的事件。对于其成员资格持续超过五年分析窗口的每个成员, 因此,建立了逻辑回归模型来预测二进制事件变量的值。到目前为止,一切都很好。评估二进制预测模型的一种典型方法是测量保留样本的提升。对于我用来预测成员资格结束事件的逻辑回归模型,我计算了非事件与事件的比率为五比一的保留数据集的提升。我将预测值按十分位排序。预测值最高的十分位数包含百分之七十,升幅超过四倍。前两个十分之一加起来占保留中所有总数的百分之六十五。在某些情况下,这将被认为是相当不错的预测模型,但我想知道它是否足以进行生存分析。 令h[j,k]h[j,k]h[j,k]为个体jjj在月的危险函数kkk,令S[j,k]S[j,k]S[j,k]为个体jjj生存于月的概率kkk。 这是我的基本问题: 离散风险函数h[j,k]h[j,k]h[j,k]是每个月非生存(离开小组)的条件概率吗? 危险函数的逻辑回归模型估计值中的预测值是否是?(即,h[j,k]h[j,k]h[j,k]等于月k中单个的模型预测值,还是需要做更多的工作才能获得危险函数估计值?)jjjkkk 个体直到q月的生存概率jjj等于1减去从一月到的危害函数的乘积qqq,即 S[j,q]=(1−h[j,1])⋅(1−h[j,2])⋅…⋅(1−h[j,q])S[j,q]=(1−h[j,1])⋅(1−h[j,2])⋅…⋅(1−h[j,q])S[j,q] = (1 - h[j,1]) \cdot (1 - h[j,2]) \cdot \ldots \cdot (1 - h[j,q])? 每次k时所有个体j的的平均值是否是总体总体平均生存概率的合理估计?S[j,k]S[j,k]S[j,k]jjjkkk 总体人口图的平均生存概率是否应该类似于每月的Kaplan-Meier图? 如果对这些问题中的任何一个的回答是否定的,那么我有一个严重的误解,可以真正使用一些帮助/解释。此外,对于产生准确的生存状况,二进制预测模型需要达到多好的水平有任何经验法则吗?



1
如何检验线性回归中分类变量的统计显着性?
如果在线性回归中我有分类变量...我怎么知道分类变量的静态意义? 假设因子X1X1个X_1有10个级别...在一个因子变量的保护下将有10个不同的最终t值X1X1X_1... 在我看来,是否对因子变量的每个水平都进行了统计意义检验?没有? @Macro:根据您的建议,我建立了以下示例: 通过下面的模型比较,似乎x3很有用,并且必须将其包括在模型中。 但是实际上那是错误的... n=100 x1=1:n x2=(1:n)^2 x3=rnorm(n) ee=rnorm(n) y=3*x1-2*x2+x3+3+ee lm1=lm(y~x1+x2+x3) summary(lm1) lm2=lm(y~x1+x2) summary(lm2) anova(lm1, lm2) > anova(lm1, lm2) Analysis of Variance Table Model 1: y ~ x1 + x2 + x3 Model 2: y ~ x1 + x2 Res.Df RSS Df Sum of Sq F Pr(>F) 1 …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.