统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

11
学习马尔可夫链和隐马尔可夫模型的资源
我正在寻找资源(教程,教科书,网络广播等)来了解Markov Chain和HMM。我的背景是生物学家,目前正在从事与生物信息学有关的项目。 另外,我需要对Markov模型和HMM有足够了解的必要数学背景是什么? 我一直在寻找使用Google的方法,但是到目前为止,我还没有找到一个很好的入门教程。我敢肯定,这里的人知道得更多。

8
将分类数据视为连续有意义吗?
在回答有关离散数据和连续数据的问题时,我断言,将分类数据视为连续数据很少有意义。 从表面上看,这似乎是不言而喻的,但是直觉通常不是一个很好的统计指南,或者至少是我的。所以现在我在想:这是真的吗?还是已经建立了从分类数据到某个连续体的转换实际上有用的分析?如果数据是序数会有所不同吗?

2
贝叶斯回归:与标准回归相比,该如何做?
我对贝叶斯回归有一些疑问: 给定标准回归为。如果我想将其更改为贝叶斯回归,我是否需要同时为和(或者这样行不通)?y=β0+β1x+εy=β0+β1x+εy = \beta_0 + \beta_1 x + \varepsilonβ0β0\beta_0β1β1\beta_1 在标准回归中,将尝试最小化残差以获得和单个值。在贝叶斯回归中如何完成?β0β0\beta_0β1β1\beta_1 我在这里真的很努力: posterior=prior×likelihoodposterior=prior×likelihood \text{posterior} = \text{prior} \times \text{likelihood} 可能性来自当前数据集(所以这是我的回归参数,但不是单个值而是可能性分布,对吗?)。先验来自先前的研究(假设)。所以我得到了这个等式: y=β1x+εy=β1x+ε y = \beta_1 x + \varepsilon 与是我的可能性或后(或者这只是完全错误的)? β1β1\beta_1 我简直不明白标准回归如何转换成贝叶斯回归。


3
对数刻度何时合适?
我已经读过,在某些情况下(例如时间序列图中的y轴),在作图/作图时使用对数刻度是合适的。但是,我无法找到关于为何如此或何时合适的明确解释。请记住,我不是统计学家,所以我可能会完全忘记这一点,如果是这种情况,我将感谢提供补救资源的方向。

3
为什么样本标准差是有偏估计量?
根据维基百科有关标准偏差的无偏估计的文章,样本SD s=1n−1∑i=1n(xi−x¯¯¯)2−−−−−−−−−−−−−−−√s=1n−1∑i=1n(xi−x¯)2s = \sqrt{\frac{1}{n-1} \sum_{i=1}^n (x_i - \overline{x})^2} 是总体SD的有偏估计。它指出。E(s2−−√)≠E(s2)−−−−−√E(s2)≠E(s2)E(\sqrt{s^2}) \neq \sqrt{E(s^2)} 注意 随机变量是独立的,每个xi∼N(μ,σ2)xi∼N(μ,σ2)x_{i} \sim N(\mu,\sigma^{2}) 我的问题有两个: 有偏见的证据是什么? 如何计算样本标准偏差的期望值 我的数学/统计知识只是中级。

9
改写“每80人中有1人死于车祸”是错误的说法吗?
陈述一(S1):“ 80人中有1人死于车祸。” 陈述二(S2):“ 80人中有1人死于车祸。” 现在,我个人认为这两个语句之间没有太大区别。在写作时,我认为它们可以与普通读者互换。但是,现在我已经受到两个人的挑战,并且正在寻找其他视角。 我对S2的默认解释是:“从人口中随机抽出的80个人中,我们希望其中的一人是由于车祸而死的”-我确实认为这条合格的声明等同于S1。 我的问题如下: Q1)我的默认解释确实等同于陈述一吗? Q2)这是我的默认解释是不寻常还是鲁ck? Q3)如果您确实认为S1和S2不同,以至于要在第二个表示第一个是误导/不正确的时候声明第二个,您是否可以提供与S2完全相同的标准版本? 让我们撇开一个明显的疑问,即S1并非专门针对人的死亡,并假设它是在上下文中理解的。让我们也搁置对权利要求本身准确性的任何讨论:它只是为了说明。 据我所知,到目前为止,我所听到的分歧似乎都围绕着对第一条和第二条陈述的不同解释的默认设置。 对于第一个,我的挑战者似乎将其解释为1/80 * num_deaths =由交通事故造成的死亡人数,但由于某种原因,默认情况下,对第二个解释的含义与“如果有80人中,其中有1人会死于车祸”(显然这不是同等的要求)。我认为,考虑到他们对S1的解释,他们对S2的默认设置是将其读为(1/80 * num_dead_people =死于车祸的人数==死于车祸的人数)。我不确定为什么在解释上存在差异(S2的默认设置是一个更强的假设),或者他们是否具有我实际上缺乏的先天统计意义。

7
工业与Kaggle的挑战。收集更多的观测值并获得更多的变量是否比幻想建模更重要?
我希望标题可以自我解释。在Kaggle中,大多数获胜者会使用有时与数百个基本模型进行堆叠的方式,以降低MSE的准确性,从而获得额外的百分比...一般来说,根据您的经验,精美的建模方法(例如堆叠与简单地收集更多数据和更多功能)有多么重要用于数据?


1
R中的逻辑回归导致完美的分离(Hauck-Donner现象)。怎么办?
我正在尝试使用50个连续的解释变量来预测二进制结果(大多数变量的范围是到)。我的数据集几乎有24,000行。当我在R中运行时,我得到:∞−∞−∞-\infty∞∞\inftyglm Warning messages: 1: glm.fit: algorithm did not converge 2: glm.fit: fitted probabilities numerically 0 or 1 occurred 我已阅读过其他建议,可能会发生完美分离,但我确信数据中并非如此(尽管存在准完全分离;如何测试情况是否如此?) 。如果删除一些变量,则“不收敛”错误可能会消失。但这并不总是会发生。 我尝试在bayesglm函数中使用相同的变量,并得到相同的错误。 您将采取什么步骤来弄清楚这里到底发生了什么?您如何找出导致问题的变量?


4
是否在95%置信区间内的所有值均具有相同的可能性?
我在以下问题上发现了不一致的信息:“ 如果构建了均值差异或比例差异的95%置信区间(CI),则CI中的所有值是否均等可能?或者,该点估计是否最有可能,与CI的“尾部”相近的值是否比CI的中间值小? 例如,如果一项随机临床试验报告指出,采用特定治疗的相对死亡风险为1.06(95%CI为0.96至1.18),则0.96的正确值是否等于1.06? 我在网上找到了很多关于此概念的参考,但是以下两个示例反映了其中的不确定性: 丽莎·沙利文(Lisa Sullivan)关于置信区间的模块指出: 均值差异的置信区间提供了()可能值的范围。重要的是要注意,置信区间中的所有值都是(μ_1-μ_2)真实值的估计值。μ1−μ2μ1−μ2μ_1-μ_2μ1−μ2μ1−μ2μ_1-μ_2 这篇标题为“ 误差范围之内”的博客文章指出: 我想到的是对“误差范围”的误解,该误差范围将置信区间内的所有点均等地对待,好像中心极限定理暗示了有界均匀分布而不是t分布。[...] 谈论“误差范围”遗漏的是,接近点估计的可能性要比位于边缘的可能性大得多。” 这些似乎是矛盾的,那么哪个是正确的?

8
用于深度学习的R库
我想知道是否有用于深度学习神经网络的良好R库?我知道还有的nnet,neuralnet以及RSNNS,但没有这些似乎实现深度学习方法。 我对无监督学习,然后进行有监督学习,以及使用辍学防止共同适应特别感兴趣。 / edit:几年后,我发现h20深度学习软件包设计精良且易于安装。我也喜欢mxnet软件包,该软件包安装起来有点困难,但支持像covnets这样的东西,可以在GPU上运行,而且速度非常快。

6
Fisher和Neyman-Pearson方法之间进行统计测试的“混合”真的是“不连贯的杂烩”吗?
存在某种思想流派,据此,最广泛的统计检验方法是两种方法之间的“混合”:费舍尔方法和内曼-皮尔森方法;声称,这两种方法是“不兼容的”,因此产生的“混合”是“不相干的杂烩”。我将在下面提供参考书目和一些引号,但就目前而言,在Wikipedia上有关统计假设检验的文章中已经写了很多。在简历上,@ Michael Lew反复提出了这一点(请参见此处和此处)。 我的问题是:为什么声称F和NP方法不兼容,为什么混合方法不连贯?请注意,我至少阅读了六篇反混合论文(请参阅下文),但仍然无法理解问题或论点。还请注意,我不建议讨论F还是NP是否是更好的方法。我也没有提出讨论常客与贝叶斯框架。相反,问题是:如果接受F和NP都是有效且有意义的方法,那么它们的混合到底有什么不好呢? 这是我对情况的了解。Fisher的方法是计算值,并将其作为反对原假设的证据。越小,证据越有说服力。研究人员应该将此证据与他的背景知识相结合,确定其是否足以令人信服,并据此进行研究。(请注意,费舍尔的观点多年来一直在变化,但这似乎是他最终收敛的。)相比之下,内曼·皮尔森的方法是提前选择,然后检查p α p ≤ αppppppαα\alphap ≤ αp≤αp\le\alpha; 如果是这样,则将其称为有意义的,并拒绝零假设(在此,我省略了与当前讨论无关的NP故事的大部分内容)。另请参见@gung在何时使用Fisher和Neyman-Pearson框架中的出色答复。 混合方法是计算值,将其报告(隐式假设值越小越好),如果(通常为),则结果也显着,否则为非显着性。这应该是不连贯的。同时击败两个合法的事情怎么可能是无效的。p ≤ α α = 0.05pppp ≤ αp≤αp\le\alphaα = 0.05α=0.05\alpha=0.05 由于特别不连贯,抗杂交主义者认为报告的普遍做法是,或(甚至),其中总是选择最强的不等式。该论点似乎是:(a)由于没有报告确切的而无法正确评估证据的强度,(b)人们倾向于将不等式中的右手数字解释为并将其视为I型错误。率,那是错误的。我在这里看不到大问题。首先,报告精确的当然是更好的做法,但是没有人真正关心是否为或p < 0.05 p < 0.01 p < 0.001 p « 0.0001 p α p p 0.02 0.03 〜0.0001 0.05 α = 0.05 p ≠ α αpppp < …


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.