统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

5
Cox回归的预测
我正在执行多变量Cox回归,我有重要的自变量和beta值。该模型非常适合我的数据。 现在,我想使用我的模型并预测新观测值的生存时间。我不清楚如何使用Cox模型执行此操作。在线性或逻辑回归中,这很容易,只需将新观测值放入回归中并将它们乘以beta,就可以预测结果了。 如何确定基线危害?除了计算预测之外,我还需要它。 在Cox模型中如何完成?

9
在此图中,
下图中和之间的关系是什么?在我看来,存在负线性关系,但是由于我们有很多异常值,因此该关系非常弱。我对吗?我想学习如何解释散点图。XYYYXXX

3
为什么朴素的贝叶斯分类器表现如此出色?
朴素贝叶斯分类器是分类问题的流行选择。造成这种情况的原因很多,包括: “ Zeitgeist”-大约十年前垃圾邮件过滤器成功之后,人们的广泛意识 容易写 分类器模型可以快速建立 可以使用新的训练数据修改模型,而无需重建模型 但是,它们是“幼稚的”(即它们假定特征是独立的),这与其他分类器(例如最大熵分类器)(计算速度较慢)形成对比。 通常不能假定独立性假设,并且在很多(大多数)情况下,包括垃圾邮件过滤器示例,这都是错误的。 那么,即使这些功能不是彼此独立的,为什么朴素贝叶斯分类器在这些应用程序中仍然表现出色?

2
什么是模型可识别性?
我知道,对于无法识别的模型,可以说是通过对模型参数进行多次不同的分配来生成数据的。我知道有时候可以约束参数,以便可以识别所有参数,例如Cassella&Berger第二版,第11.2节中的示例。 给定特定模型,我如何评估它是否可识别?

7
是否有不错的浏览器/查看器来查看R数据集(.rda文件)
我想浏览一个.rda文件(R数据集)。我知道该View(datasetname)命令。Mac附带的默认R.app没有很好的数据浏览器(它将在X11中打开一个窗口)。我喜欢用View命令打开的RStudio数据浏览器。但是,它仅显示1000行,而忽略其余的行。(更新:RStudio查看器现在显示所有行)是否有一个不错的浏览器来显示数据集中的所有行以及您喜欢/使用的行。
38 r 

6
可信区域和贝叶斯假设检验之间有什么联系?
在常客统计中,置信区间和检验之间存在紧密的联系。使用推理约在分布作为一个例子,将置信区间 包含在重要性级别上未被检验拒绝的所有值。Ñ (μ ,σ 2)1 - α ˉ X ± 吨α / 2(Ñ - 1 )⋅ 小号/ √μμ\muN(μ,σ2)N(μ,σ2)\rm N(\mu,\sigma^2)1−α1−α1-\alpha μ吨αx¯±tα/2(n−1)⋅s/n−−√x¯±tα/2(n−1)⋅s/n\bar{x}\pm t_{\alpha/2}(n-1)\cdot s/\sqrt{n}μμ\mutttαα\alpha 从这个意义上讲,频繁的置信区间是倒置测试。(顺便说一句,这意味着我们可以将值解释为的最小值,为此参数的空值将包含在置信区间中。我发现这可能是一种有用的方法,向了解一些统计信息的人解释真正含义。)α 1 - α ppppαα\alpha1−α1−α1-\alphappp 在阅读了贝叶斯可信区域的决策理论基础后,我开始怀疑可信区域与贝叶斯测试之间是否存在类似的联系/对等关系。 有一般的联系吗? 如果没有常规连接,是否存在连接的示例? 如果没有一般的联系,我们怎么看?

8
在测试自变量对变化得分的影响时,将基线测量值作为控制变量是否有效?
我正在尝试运行OLS回归: DV:一年中体重的变化(初始体重-最终体重) IV:您是否运动。 但是,较轻的人较重的人每运动一次会减轻更多的体重,这似乎是合理的。因此,我想包含一个控制变量: CV:初始起始重量。 但是,现在都使用初始权重来计算因变量AND作为控制变量。 这个可以吗?这是否违反了OLS的假设?

4
正常随机变量的近似阶数统计
是否存在用于某些随机分布的顺序统计的众所周知的公式?特别是正常随机变量的一阶和最后一阶统计量,但也可以理解为更通用的答案。 编辑:为澄清起见,我正在寻找可以或多或少明确评估的近似公式,而不是确切的整数表达式。 例如,对于正常rv的一阶统计量(即最小值),我已经看到以下两个近似值: e1:n≥μ−n−12n−1√σe1:n≥μ−n−12n−1σe_{1:n} \geq \mu - \frac{n-1}{\sqrt{2n-1}}\sigma 和 e1:n≈μ+Φ−1(1n+1)σe1:n≈μ+Φ−1(1n+1)σe_{1:n} \approx \mu + \Phi^{-1} \left( \frac{1}{n+1} \right)\sigma 其中第一个,对于,给出大约,这似乎是一个松散的界限。n=200n=200n=200e1:200≥μ−10σe1:200≥μ−10σe_{1:200} \geq \mu - 10\sigma 第二个给出而快速的Monte Carlo给出,所以这并不是一个很差的近似值,但也不是很好,并且更重要的是,我对它的来源一无所知。e1:200≈μ−2.58σe1:200≈μ−2.58σe_{1:200} \approx \mu - 2.58\sigmae1:200≈μ−2.75σe1:200≈μ−2.75σe_{1:200} \approx \mu - 2.75\sigma 有什么帮助吗?

5
R中的时间序列“聚类”
我有一组时间序列数据。尽管每个时间序列中的实际日期可能并不都完全“排队”,但每个序列都涵盖相同的时期。 这就是说,如果将时间序列读入2D矩阵,它将看起来像这样: date T1 T2 T3 .... TN 1/1/01 100 59 42 N/A 2/1/01 120 29 N/A 42.5 3/1/01 110 N/A 12 36.82 4/1/01 N/A 59 40 61.82 5/1/01 05 99 42 23.68 ... 31/12/01 100 59 42 N/A etc 我想编写一个R脚本,将时间序列{T1,T2,... TN}分离为“家庭”,其中一个家庭被定义为一系列“趋于彼此同情”的系列。 对于“聚类”部分,我将需要选择/定义一种距离度量。我不确定如何处理此问题,因为我正在处理时间序列,并且一对可能在一个间隔内同情移动的序列可能不会在随后的间隔内这样做。 我敢肯定,这里有比我更多的有经验/聪明的人,因此,对于任何建议,关于用于距离度量的算法/启发式方法以及如何在时间序列聚类中使用该算法/方法的想法,我将不胜感激。 我的猜测是,尚无成熟的统计方法来执行此操作,因此,我将非常有兴趣了解人们如何处理/解决此问题-像统计学家一样思考。

9
如何有效地建模伯努利随机变量的总和?
我正在建模一个随机变量(),它是大约15-40k个独立的伯努利随机变量()的总和,每个随机变量具有不同的成功概率()。形式上,其中和\ Pr(X_i = 0)= 1-p_i。YYYXiXiX_ipipip_iY=∑XiY=∑XiY=\sum X_iPr(Xi=1)=piPr(Xi=1)=pi\Pr(X_i=1)=p_iPr(Xi=0)=1−piPr(Xi=0)=1−pi\Pr(X_i=0)=1-p_i 我对快速回答诸如Pr(Y&lt;=k)Pr(Y&lt;=k)\Pr(Y<=k)(其中kkk给出)的查询感兴趣。 目前,我使用随机模拟来回答此类查询。我根据每个XiXiX_i的p_i随机绘制它们pipip_i,然后将所有XiXiX_i值求和以获得Y′Y′Y'。我重复此过程数千次,然后返回分数Pr(Y′≤k)Pr(Y′≤k)\Pr(Y'\leq k)。 显然,这并不是完全准确的(尽管随着仿真次数的增加,准确度也会大大提高)。另外,似乎我有足够的有关分布的数据来避免使用模拟。您能想到一种获取确切概率\ Pr(Y \ leq k)的合理方法Pr(Y≤k)Pr(Y≤k)\Pr(Y\leq k)吗? ps 我使用Perl&R。 编辑 在回答之后,我认为可能需要进行一些澄清。我将简短地描述问题的所在。给定的是一个带有周长的圆形基因组,c以及n映射到它的一组范围。例如c=3*10^9和ranges={[100,200],[50,1000],[3*10^9-1,1000],...}。请注意,所有范围都是封闭的(两端都包括在内)。另请注意,我们仅处理整数(整个单位)。 我正在寻找圆上被给定n映射范围掩盖的区域。因此,为了测试x圆上给定的长度范围是否被掩盖,我测试了n范围随机映射的假设。映射的长度范围q&gt;x将完全覆盖给定长度范围的概率x为(q-x)/c。当c大和/或小时,该概率变得非常q小。我感兴趣的是n覆盖的范围数(超出范围)x。这是如何Y形成的。 我测试了原假设与单方面的选择(不足覆盖率)的对比。另请注意,我正在测试多个假设(不同的x长度),请确保对此进行更正。

8
如何有效地生成随机正-半正相关矩阵?
我希望能够有效地生成正半定(PSD)相关矩阵。随着我增加要生成的矩阵的大小,我的方法大大降低了速度。 您能提出任何有效的解决方案吗?如果您知道Matlab中的任何示例,我将非常感谢。 生成PSD相关矩阵时,如何选择参数来描述要生成的矩阵?平均相关性,相关性的标准偏差,特征值?

3
随机森林和极端随机树之间的区别
我了解到,随机森林树和极随机树在意义上是不同的,即随机森林中的树的分割是确定性的,而对于极随机树则它们是随机的(更准确地说,下一个分割是最佳分割在当前树的所选变量中的随机均匀拆分中)。但是我不完全理解这种不同拆分在各种情况下的影响。 他们如何比较偏差/方差? 如果存在不相关的变量,它们如何比较? 在存在相关变量的情况下如何比较?

2
ImageNet:什么是top-1和top-5错误率?
在ImageNet分类论文中,top-1和top-5错误率是衡量某些解决方案成功与否的重要单位,但是这些错误率是多少? 在Krizhevsky等人的《具有深度卷积神经网络的ImageNet分类 》中。每个基于一个CNN的解决方案(第7页)都没有前5个错误率,而具有5个和7个CNN的解决方案则有5个错误率(而且7个CNN的错误率比5个CNN的更好)。 这是否意味着top-1错误率是一个CNN的最佳单一错误率? 前五位的错误率仅仅是五个CNN的累积错误率吗?

3
PCA是否适用于布尔(二进制)数据类型?
我想降低高阶系统的维数,并捕获最好在2维或1维场上的大多数协方差。我了解这可以通过主成分分析来完成,并且我在许多情况下都使用了PCA。但是,我从未将其与布尔数据类型一起使用,并且我想知道使用此集合进行PCA是否有意义。因此,例如,假设我有定性或描述性指标,并且如果该指标对该维度有效,那么我将分配“ 1”,否则将分配“ 0”(二进制数据)。因此,例如,假设您要比较《白雪公主》中的七个小矮人。我们有: Doc,Dopey,Bashful,Grumpy,Sneezy,Sleepy和Happy,您想根据自己的特质来安排它们,方法如下: ⎛⎝⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜d Ø Çd ø p ë ÿ乙一个小号ħ ˚Fü 升ģ ř ü 米p ÿ小号ñ Ë É žÿ小号升Ë È p ÿH一个p p ÿ大号一个ç 吨ö 小号Ë 我 Ñ 吨ø 升é ř 一个Ñ 吨1个01个1个01个1个一^ h ø Ñ ø - [R [R ö 升升 0001个1个01个甲吨ħ 升é 吨我Ç1个01个1个1个00w ^Ë 一升吨ħ ÿ1个01个1个000⎞⎠⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟(Lactose IntolerantA …


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.