统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

5
什么是分类或定性变量汇总统计?
为了澄清,当我指的是摘要统计量时,我指的是均值,四分位数中位数范围,方差,标准差。 在归纳分类或定性的单变量时,考虑标称和序数情况,找到其均值,中位数,四分位数范围,方差和标准偏差是否有意义? 如果是这样,则与汇总连续变量不同吗?如何?

6
当许多重要的事情都是一次性的事情时,为什么统计有用?
我不知道是否只有我一个人,但我对总体统计数据非常怀疑。我可以在骰子游戏,扑克游戏等中理解它。非常小,简单,主要是独立的重复游戏就可以了。例如,落在其边缘的硬币足够小,可以接受正面或反面着陆的概率约为50%。 玩$ 10的扑克游戏,争取95%的胜利。但是,如果您一生的积蓄和更多金额取决于您是否赢得胜利?知道您在那种情况下有95%的时间会获胜将如何对我有所帮助?期望值并没有太大帮助。 其他例子包括危及生命的手术。根据现有数据,如何知道生存率为51%与99%的生存率有什么关系?在这两种情况下,我认为医生告诉我的内容对我来说都没有关系,我会坚持下去。如果实际数据是75%,他还可以告诉我(除非遵守道德和法律),否则生存的机率是99.99999%,所以我会感觉更好。换句话说,除了二项式之外,现有数据无关紧要。即使那样,如果我最终死了,生存率也不会有99.99999%的问题。 还有,地震的可能性。平均每隔x(x> 100)年发生一次强地震无关紧要。我不知道地震是否会在我的一生中发生。那么,为什么它甚至是有用的信息呢? 举一个不那么严重的例子,例如,我所去过的地方中,我爱过的地方中有100%位于美洲,对我去过欧洲的地方中的100%无动于衷,而对我所去过的地方中的100%却讨厌去过亚洲。现在,这绝不意味着我不会在下一次旅行中在亚洲找到自己喜欢的地方,也不会在欧洲讨厌或对美国无动于衷,只是因为统计数据无法捕获我所有的信息,即使我去过所有大陆的x%以上,我也可能永远无法捕捉到我需要的所有信息。只是因为在我尚未去过的那些大陆的1-x%中存在未知数。(请随意用其他百分比替换100%)。 我知道没有办法暴力破解所有内容,并且在许多情况下您都必须依靠统计信息,但是我们如何才能相信统计信息在我们的一发不可收拾的情况下会有所帮助,尤其是当统计信息基本上不推断为异常事件时? 有什么见解可以克服我对统计的怀疑吗?

6
核外数据分析选项
我已经专业使用SAS已有5年了。我将其安装在笔记本电脑上,经常需要分析具有1,000-2,000个变量和数十万个观测值的数据集。 我一直在寻找SAS的替代方案,以使我能够对相似大小的数据集进行分析。我很好奇其他人在这种情况下会使用什么。当然,这不是今天使用的“大数据”。我的数据集也不足以容纳在内存中。我需要一种可以将算法应用于硬盘驱动器上存储的数据的解决方案。这些是我调查过的事情,无济于事: R-BigMemory可以创建存储在内存之外的矩阵,但是元素必须处于相同模式。我处理的字符和数字之间几乎是50/50的数据。FF软件包越来越接近我的需求,但是我不太了解哪些程序与之兼容。我认为支持程度有限。 熊猫-对于R的Python替代方案,我感到非常兴奋。但是,它也必须将所有数据保存在内存中。 Revolution R-这个显示出很大的希望。我的家用计算机上有一份副本(如果您注册Kaggle,则可以免费获得),但尚未对其进行测试以作为SAS的可行替代方案。人们非常赞赏对Revolution R作为SAS替代产品的评论。 谢谢 更新1 编辑时要补充一点,我正在寻找人们成功使用的现实可行的解决方案。在大多数情况下,SAS使我可以浏览大文件,而不必担心内存限制。无论采用哪种SAS,他们都想出了使内存管理对用户透明的方法。但是,我怀着一颗沉重的胸怀使用SAS来完成我的工作(我必须这样做),并且会喜欢使用FOSS替代方案,该方案使我能够处理“大型”数据,而不必太费力地考虑数据在哪里的位置。特定时间(在内存或磁盘上)。 我遇到的最接近的东西是R的FF包,以及Python即将出现的称为Blaze的东西。但是,这些问题已经存在了很多年,因此分析师在此期间一直在做什么?他们如何处理内存限制中的这些相同问题?提供的大多数解决方案似乎是: 获得更多的内存-imo,这不是一个好的解决方案。很容易找到一个可以超过RAM但仍然适合硬盘驱动器的数据集。此外,工作流程必须适应在探索性数据分析过程中创建的所有结构。 子集数据-这对于探索是很好的,但对于最终确定结果和报告不是很好。最终,在子集上开发的任何过程都必须应用于整个数据集(在我的情况下,无论如何)。 整理数据-这是我想从实际实施此工作流程的人员那里了解的更多信息。怎么做?用什么工具?可以通过对用户透明的方式来完成吗?(即,创建一些磁盘上的数据结构,框架负责引擎盖下的分块)。
18 r  sas  large-data 

1
来自随机数生成器的截断数字是否仍然是“随机”的?
在这里,“截断”意味着降低随机数的精度,而不是截断随机数序列。例如,如果我有具有任意精度的真正随机数(从任何分布中抽取,例如,正态,均等),然后我将所有数字截断,以便最终我得到一组个数,每个数字都与小数点后2位。我可以称这组新数字为“随机”吗?ñnnnnnn 当我阅读有关硬件生成的随机数时,我想到了这个问题。维基百科的文章说,他们通过测量物理过程来生成随机数。但是由于这种测量有其局限性(测量误差,有限精度等),我们可以将这些硬件生成的数字称为随机数吗?

3
MDS在现代统计中的作用是什么?
我最近遇到了多维缩放。我试图更好地了解此工具及其在现代统计中的作用。因此,这里有一些指导性问题: 它回答哪些问题? 哪些研究人员经常对它感兴趣? 是否还有其他执行类似功能的统计技术? 围绕它发展了什么理论? “ MDS”与“ SSA”有何关系? 我事先为提出这样一个混合/无组织的问题表示歉意,但是我目前在这一领域的工作性质也是这样。

2
的coxph模型摘要中给出的“
中的Coxph模型摘要中给出的值是多少?例如,[R2[R2R^2 Rsquare= 0.186 (max possible= 0.991 ) 我愚蠢地将其包括为值的手稿,审稿人跳了起来,说他不知道 正在为Cox模型开发的经典线性回归中的统计量的类似物,如果有请提供参考。任何帮助将是巨大的![R2[R2R^2[R2[R2R^2

4
如果仪表图不好,为什么汽车有仪表?
似乎数据可视化专家通常不赞成使用量表(请参见此处:您如何称呼看起来像半圆形饼图并带有指示百分比的针的图表?)。主要原因是规格表的数据墨比低。 自从我接触了这些概念(几本Tufte书)以来,我就普遍同意它们,但是今天却使我感到奇怪:如果仪表在信息交流方面如此低效,那么为什么汽车/船只/飞机上有很多仪表?他们的仪表板?这个问题的答案是否与为大型企业创建软件仪表板有关? 编辑以包括我发现的一些其他信息: 我找到了一个术语“玻璃座舱”,它是指将其机械仪表替换为LCD屏幕的喷枪座舱。这使韦恩提出的“惯例”论点具有可信度。 http://en.wikipedia.org/wiki/Glass_cockpit 这是一个iPad应用程序,可提供类似于仪表板的汽车遥测读数,而无需查看仪表。 http://itunes.apple.com/us/app/dashcommand-obd-ii-gauge-dashboards/id321293183?mt=8 我还发现了一个汽车数字仪表的总体示例(建议观看者自行决定)。 http://www.chetcodigital.com/index-Automotive.htm

3
指数随机变量的总和遵循Gamma,并与参数混淆
我了解了遵循Gamma分布的指数随机变量的总和。 但是我读到的所有参数化都是不同的。例如,Wiki描述了这种关系,但是不说它们的参数实际上是什么意思?形状,比例,比率,1 /比率? 指数分布: xxx〜exp(λ)exp(λ)exp(\lambda) f(x|λ)=λe−λxf(x|λ)=λe−λxf(x|\lambda )=\lambda {{e}^{-\lambda x}} E[x]=1/λE[x]=1/λE[x]=1/ \lambda var(x)=1/λ2var(x)=1/λ2var(x)=1/{{\lambda}^2} 伽玛分布:Γ(shape=α,scale=β)Γ(shape=α,scale=β)\Gamma(\text{shape}=\alpha, \text{scale}=\beta) ë[X]=αβv一个[R[X]=αβ2f(x|α,β)=1βα1Γ(α)xα−1e−xβf(x|α,β)=1βα1Γ(α)xα−1e−xβf(x|\alpha ,\beta )=\frac{1}{{{\beta }^{\alpha }}}\frac{1}{\Gamma (\alpha )}{{x}^{\alpha -1}}{{e}^{-\frac{x}{\beta }}} E[x]=αβE[x]=αβE[x]=\alpha\beta var[x]=αβ2var[x]=αβ2var[x]=\alpha{\beta}^{2} 在此设置中,什么?正确的参数化是什么?如何将此扩展到卡方?∑i=1nxi∑i=1nxi\sum\limits_{i=1}^{n}{{{x}_{i}}}

1
Kruskal-Wallis之后的事后测试:Dunn的测试或Bonferroni更正了Mann-Whitney的测试?
我有一些非高斯分布变量,我需要检查5个不同组中该变量的值之间是否存在显着差异。 我已经对Kruskal-Wallis进行了单向方差分析(其显着性上升),然后我必须检查哪些组存在显着差异。由于各组是排序的(第一个组中的变量值应低于第二组中的变量值,第二组中的变量值应低于第三组中的变量,依此类推on)我只执行了4个测试: Group 1 vs Group 2 Group 2 vs Group 3 Group 3 vs Group 4 Group 4 vs Group 5 我用两种不同的方法进行了分析。我从使用Dunn的多重比较测试开始,但是没有发现任何重大问题。另一方面,如果我使用Mann-Whitney检验并使用Bonferroni校正了检验的数量(4),那么有3项检验很有意义。 这是什么意思?我应该相信哪些结果?

1
众包数据的采样模型?
我正在开发一个计划在发展中国家使用的开放式健康调查应用程序。 基本想法是,调查访谈是众包的 -由无组织的志愿者执行,他们使用移动设备提交他们进行的访谈的表格数据,并且每次调查都附带访谈位置的GPS数据。 由政府机构编制的传统调查通常使用某种标准抽样模型-通常是概率抽样模型来实施。这就需要很多无法始终执行的集中计划。(提到这个是为了让我的问题在正确的背景下出现) 可以说,志愿者将在其周围实施便利采样。他将任意采访他可以联系到的人数。 基本问题是:如何理解和表征该测量系统的整体采样模型?是否有任何方法或组合模型来处理此类情况?
18 sampling 

4
在二项式模型中使用偏移量来说明患者数量的增加
我提出了两个相关问题。我有一个数据框,该数据框在一列中包含患者人数(范围为10-17位患者),分别显示当天是否发生事件的0和1。我使用的是二项式模型来将事件的概率回归到患者人数上。但是,我想适应这样一个事实:当有更多的病人时,不可避免地会发生更多的事件,因为那天病房的病人总时间更长。 所以我正在使用像这样的偏移二项式模型(R代码): glm(Incident~Numbers, offset=Numbers, family=binomial, data=threatdata) 我的问题是: 可以完全相同地预测变量和偏移量吗?我想部分排除进补概率的增加,从本质上看是否还有剩余。这对我来说很有意义,但是如果我弄错了,我会有些谨慎。 偏移量指定正确吗?我知道在泊松模型中会读到 offset=log(Numbers) 我不知道这里是否有等效项,而且我似乎找不到与Google相关的二项式偏移量(主要问题是我不断得到负二项式,这当然是不好的)。

2
为什么自然语言处理不属于机器学习领域?[关闭]
按照目前的情况,这个问题不适合我们的问答形式。我们希望答案得到事实,参考或专业知识的支持,但是这个问题可能会引起辩论,争论,民意调查或扩展讨论。如果您认为此问题可以解决并且可以重新提出,请访问帮助中心以获取指导。 7年前关闭。 我在许多书籍和网络中都遇到了它。据说自然语言处理和机器学习是人工智能的不同子集。为什么?通过将声音模式输入到机器学习算法中,我们可以获得自然语言处理的结果。那有什么区别

2
线性判别分析如何减小尺寸?
第91页上的“统计学习的要素”中有一些词: p维输入空间中的K个质心跨度最多为K-1维子空间,并且如果p比K大得多,则维数将显着下降。 我有两个问题: 为什么p维输入空间中的K个质心最多跨越K-1维子空间? K重心如何定位? 书中没有任何解释,我也没有从相关论文中找到答案。

2
如何获得显着的总体方差分析,但Tukey的过程没有成对的显着差异?
我用R进行了方差分析,并且得到了很大的不同。但是,当使用Tukey的程序检查哪些对有显着差异时,我什么也没得到。这怎么可能? 这是代码: fit5_snow<- lm(Response ~ Stimulus, data=audio_snow) anova(fit5_snow) > anova(fit5_snow) Analysis of Variance Table Response: Response Df Sum Sq Mean Sq F value Pr(>F) Stimulus 5 73.79 14.7578 2.6308 0.02929 * Residuals 84 471.20 5.6095 --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 …

2
如何计算潜在的Dirichlet分配的坚持的困惑?
我对进行潜在狄利克雷分配(LDA)时如何计算保留样本的困惑度感到困惑。有关该主题的论文轻而易举,使我觉得我缺少明显的东西... 困惑被视为LDA性能的良好衡量标准。这样做的想法是,您保留一个保留样本,在其余数据上训练LDA,然后计算保留的复杂性。 困惑可以由以下公式给出: per(Dtest)=exp{−∑Md=1logp(wd)∑Md=1Nd}per(Dtest)=exp{−∑d=1Mlog⁡p(wd)∑d=1MNd}per(D_{test})=exp\{-\frac{\sum_{d=1}^{M}\log p(\mathbb{w}_d)}{\sum_{d=1}^{M}N_d}\} (摘自Horster等人的大型图像数据库上的图像检索)。 这里 MMM是文档的数量(测试样品中,据推测),wdwd\mathbb{w}_d表示在文件的话ddd,NdNdN_d在文档的单词数ddd。 我不清楚如何合理地计算p(wd)p(wd)p(\mathbb{w}_d),因为我们没有所保留文档的主题组合。理想情况下,我们将对所有可能的主题混合在Dirichlet之前进行积分,并使用我们学到的主题多项式。但是,计算此积分似乎并不容易。 或者,我们可以尝试为每个坚持的文档(考虑到我们所学的主题)学习最佳的主题组合,并以此来计算困惑度。这是可行的,但是它并不像Horter等人和Blei等人的论文所暗示的那么琐碎,而且我还不清楚我的结果是否等同于上述理想情况。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.