统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答


1
lme()和lmer()给出矛盾的结果
我一直在处理一些重复测量有问题的数据。在这样做的过程中,我注意到测试数据之间lme()以及lmer()使用测试数据时存在非常不同的行为,并且想知道为什么。 我创建的虚假数据集具有10个对象的身高和体重测量值,每个测量值两次。我设置数据以使受试者之间的身高和体重之间存在正相关关系,但在每个个体内重复测量之间存在负相关关系。 set.seed(21) Height=1:10; Height=Height+runif(10,min=0,max=3) #First height measurement Weight=1:10; Weight=Weight+runif(10,min=0,max=3) #First weight measurement Height2=Height+runif(10,min=0,max=1) #second height measurement Weight2=Weight-runif(10,min=0,max=1) #second weight measurement Height=c(Height,Height2) #combine height and wight measurements Weight=c(Weight,Weight2) DF=data.frame(Height,Weight) #generate data frame DF$ID=as.factor(rep(1:10,2)) #add subject ID DF$Number=as.factor(c(rep(1,10),rep(2,10))) #differentiate between first and second measurement 这是数据的图,线连接了每个人的两个测量值。 因此,我运行了两个模型,一个模型lme()来自nlmepackage,一个模型来自lmer()from lme4。在这两种情况下,我都进行了体重对身高的回归分析,并使用ID的随机效应来控制每个人的重复测量。 library(nlme) Mlme=lme(Height~Weight,random=~1|ID,data=DF) library(lme4) Mlmer=lmer(Height~Weight+(1|ID),data=DF) …

3
寻找一种模拟这种分布的随机数的方法
我试图用R编写一个程序,该程序使用累积分布函数模拟来自分布的伪随机数: F(x )= 1 − 经验( − a x − bp + 1Xp + 1),X ≥ 0F(x)=1−exp⁡(−ax−bp+1xp+1),x≥0F(x)= 1-\exp \left(-ax-\frac{b}{p+1}x^{p+1}\right), \quad x \geq 0 其中一个,b > 0 ,p ∈ (0 ,1 )a,b>0,p∈(0,1)a,b>0, p \in (0,1) 我尝试了逆变换采样,但是逆解析似乎无法解决。如果您可以提出解决方案,我将很高兴

2
FPR(误报率​​)与FDR(误发现率)
以下引文来自Storey&Tibshirani(2003)的著名研究论文《统计意义对于全基因组研究》: 例如,假阳性率为5%意味着研究中平均5%的真正无效特征将被称为显着。FDR(错误发现率)为5%意味着在所有被称为重要功能的特征中,其中平均5%确实是无效的。 有人可以使用简单的数字或视觉示例来解释这意味着什么吗?我很难理解它的含义。我仅在FDR或FPR上找到了各种帖子,但没有找到进行具体比较的地方。 如果这方面的专家可以举例说明一个人比另一个人好,或者两者都好或坏的情况,那将特别好。

9
过拟合和欠拟合
我已经对过拟合和欠拟合进行了一些研究,并且我了解了它们的确切含义,但是我找不到原因。 过度拟合和拟合不足的主要原因是什么? 为什么我们在训练模型时会面临这两个问题?

4
非负离散分布的示例,其中均值(或另一个矩)不存在?
我在scipy中进行一些工作,并且与核心scipy组的成员进行了交谈,以确定非负离散随机变量是否可以具有不确定的时刻。我认为他是正确的,但没有证明。任何人都可以显示/证明此声明吗?(或如果此主张不成立,则不予支持) 如果离散随机变量在上受支持,我没有方便的示例,但似乎柯西分布的某些离散版本应作为获得不确定时刻的示例。非负数的条件(可能包括)似乎使这个问题具有挑战性(至少对我而言)。ZZ\mathbb{Z}000


4
每天的概率仅仅是对付未知数的一种方式(这里不谈论量子物理学)吗?
似乎在日常概率中(不是量子物理学),概率实际上只是未知数的替代物。以掷硬币为例。我们说这是“随机的”,头改变了50%,尾巴改变了50%。但是,如果我确切地知道硬币的密度,大小和形状;空气密度 硬币翻转了多少力;该部队确切地放置在哪里;硬币到地板的距离;等,使用基本物理学,我无法以100%的精度预测它会落在头上还是尾巴上?如果是这样,在这种情况下概率不是我处理不完整信息的一种方式吗? 如果我随机播放一副纸牌(这是我对此的考虑),那不是同一回事吗?我将牌的顺序视为随机的,因为我不知道顺序是什么,但并不是我抽出的第一张牌是黑桃A真的有1/52的可能性—要么100%是黑桃王牌或100%的王牌不是。 如果掷骰子并重排牌组不是真正随机的,那么计算机随机数生成器也不是随机的,因为如果我知道算法(可能还有其他一些变量),我也会知道数量会是多少? 在此先感谢所有花时间回答的人,尤其是像我这样的非数学家提出的新手问题。我不想继续进行reddit,因为其中很多人都伪装成有知识的人,却没有。其他一些元注释: 首先,我知道已经回答了一个类似的问题Random vs Unknown。所以,请不要让我参考。我认为我要提出的问题要狭窄得多,并且要以更简单的数学为基础。 其次,我不是数学家,所以请坚持使用简单的示例和非技术性的语言(除非绝对必要,在这种情况下,请假装自己是在向艺术史专业的中等学识的大四学生解释自己)。 第三,我对基本概率有很好的理解。这主要是因为我玩很多扑克,但是我了解轮盘,骰子,彩票等其他赌博游戏的赔率是如何工作的。同样,这是非常基本的东西,因此请避免量子物理学,如果可以避免的话。 第四,听起来并不冷酷,但我希望人们讨论我的问题的答案,而不是告诉我他们对我的了解还多。我之所以这样说,是因为我看到人们试图通过故意使用不必要的高技术语言来“打败”某人,并将另一个人的词汇混淆,而不是辩论实际问题。例如,与其说“应该摄入一些乙酰水杨酸”,不如说“应该服用一些阿司匹林”。

3
使用Keras了解LSTM中的input_shape参数
我正在尝试使用Keras文档中描述的名为“用于序列分类的堆叠式LSTM” 的示例(请参见下面的代码),并且无法input_shape在我的数据上下文中找出参数。 我输入了一个由25个可能的字符组成的序列矩阵,以整数编码为最大长度为31的填充序列。因此,my x_train具有形状(1085420, 31)含义(n_observations, sequence_length)。 from keras.models import Sequential from keras.layers import LSTM, Dense import numpy as np data_dim = 16 timesteps = 8 num_classes = 10 # expected input data shape: (batch_size, timesteps, data_dim) model = Sequential() model.add(LSTM(32, return_sequences=True, input_shape=(timesteps, data_dim))) # returns a sequence of vectors of …
20 lstm  keras  shape  dimensions 

5
可能性原则“确实”重要的示例?
是否有一个例子,两个具有成比例可能性的不同可辩证检验会导致一个明显不同(且同样可辩驳)的推论,例如,p值相差一个数量级,但替代方法的功效却相似? 我看到的所有示例都是非常愚蠢的,将二项式与否定二项式进行比较,第一个的p值为7%,第二个3%的p值是“不同的”,仅在对任意阈值做出二元决策的范围内显着性(例如5%)(顺便说一句,这是一个相当低的推论标准),甚至不用费心去看能力。例如,如果我将阈值更改为1%,则两者都会得出相同的结论。 我从未见过一个示例,它会导致明显不同且可辩驳的推断。有这样的例子吗? 我之所以问是因为,我已经在这个主题上花了很多笔墨,好像“可能性原则”是统计推断基础中的基本要素。但是,如果最好的例子是像上面的例子那样愚蠢的例子,则该原理似乎完全无关紧要。 因此,我正在寻找一个非常有说服力的示例,其中如果不遵循LP,则证据权重将在给定一项检验的情况下绝大多数指向一个方向,而在另一种具有成比例可能性的检验中,证据权重将压倒性地指向相反的方向,这两个结论看起来都是明智的。 理想情况下,一个能证明我们可以有任意相距甚远,但是合理的,解答,诸如与测试p=0.1p=0.1p =0.1与p=10−10p=10−10p= 10^{-10}具有比例似然和等效功率,以检测相同的替代。 PS:布鲁斯的答案根本没有解决这个问题。

1
从贝叶斯网络到神经网络:如何将多元回归转换为多输出网络
我正在处理贝叶斯层次线性模型,这里是描述它的网络。 ÿYY代表超市中某产品的每日销售额(已观察)。 XXX是已知的回归矩阵,包括价格,促销,星期几,天气,假期。 1小号SS是每种产品的未知潜在库存水平,这会导致最多的问题,并且我认为是二进制变量的向量,每个产品一个,其中表示缺货,因此该产品不可用。 即使在理论上未知,我也通过HMM对每个产品进行了估算,因此可以将其视为X。我只是为了适当的形式主义而决定对它进行着色。1个11 ηη\eta是任何单个产品的混合效果参数,其中考虑的混合效果是产品价格,促销和缺货。 b 1 b 2ββ\beta是固定回归系数的向量,而和是混合效应系数的向量。一组代表品牌,另一组代表风味(这是一个例子,实际上我有很多组,但是为了清楚起见,这里我只报告两个)。b1个b1b_1b2b2b_2 Σ b 1 Σ b 2ΣηΣη\Sigma_{\eta},和是混合效果的超参数。Σb1个Σb1\Sigma_{b_1}Σb2Σb2\Sigma_{b_2} 因为我有计数数据,所以可以说我将每个产品的销售额都视泊松分布在回归变量上的条件而定(即使对于某些产品,线性近似成立,而对于其他产品,零膨胀模型更好)。在这种情况下,我将有一个乘积(这仅适用于那些对贝叶斯模型本身感兴趣的人,如果您发现它不感兴趣或不琐碎,请跳至该问题:)):ÿYY Ση〜我w ^(α0,γ0)Ση∼IW(α0,γ0)\Sigma_{\eta} \sim IW(\alpha_0,\gamma_0) Σb1个〜我w ^(α1个,γ1个)Σb1∼IW(α1,γ1)\Sigma_{b_1} \sim IW(\alpha_1,\gamma_1) α 0,γ 0,α 1,γ 1,α 2,γ 2Σb2〜我w ^(α2,γ2)Σb2∼IW(α2,γ2)\Sigma_{b_2} \sim IW(\alpha_2,\gamma_2),已知。α0,γ0,α1个,γ1个,α2,γ2α0,γ0,α1,γ1,α2,γ2\alpha_0,\gamma_0,\alpha_1,\gamma_1,\alpha_2,\gamma_2 η〜ñ(0,Ση)η∼N(0,Ση)\eta \sim N(\mathbf{0},\Sigma_{\eta}) b1个〜ñ(0,Σb1个)b1∼N(0,Σb1)b_1 \sim N(\mathbf{0},\Sigma_{b_1}) b2〜ñ(0,Σb2)b2∼N(0,Σb2)b_2 \sim N(\mathbf{0},\Sigma_{b_2}) Σ ββ〜ñ(0,Σβ)β∼N(0,Σβ)\beta \sim N(\mathbf{0},\Sigma_{\beta}),已知。ΣβΣβ\Sigma_{\beta} λ吨我Ĵ ķ= …

4
如果“比较”是“计划中的”,您是否仍需要校正多个比较?
我正在审查已执行> 15次单独的2x2卡方测试的论文。我建议他们需要对多个比较进行更正,但是他们回答说所有比较都是已计划的,因此这不是必需的。 我觉得这一定是不正确的,但找不到任何明确说明是否存在这种情况的资源。 有人可以帮助吗? 更新: 感谢您的所有非常有帮助的回复。为了响应@gung要求提供有关研究和分析的更多信息的要求,他们正在三种情况下,在两种情况下比较两种类型参与者(学生,非学生)的计数数据。多个2x2卡方检验正在针对每种类型的参与者在每种条件下比较每个时间段(如果有意义;例如,学生,条件1,时间段1与时间段2),因此所有分析都在测试相同的假设。

1
为什么LASSO在高维度上找不到我的理想预测变量对?
我正在R中进行LASSO回归的小型实验,以测试它是否能够找到理想的预测变量对。该对的定义如下:f1 + f2 =结果 这里的结果是称为“年龄”的预定向量。通过取年龄向量的一半并将其余值设置为0,可以创建F1和f2,例如:age = [1,2,3,4,5,6],f1 = [1,2,3, 0,0,0]和f2 = [0,0,0,4,5,6]。通过从正态分布N(1,1)进行采样,我将此预测变量对与数量增加的随机创建变量结合在一起。 我看到的是当我命中2 ^ 16个变量时,LASSO再也找不到了。请参阅下面的结果。 为什么会这样呢?您可以使用以下脚本重现结果。我注意到,当我选择其他年龄向量时,例如:[1:193],LASSO确实找到了高维(> 2 ^ 16)对。 剧本: ## Setup ## library(glmnet) library(doParallel) library(caret) mae <- function(errors){MAE <- mean(abs(errors));return(MAE)} seed = 1 n_start <- 2 #start at 2^n features n_end <- 16 #finish with 2^n features cl <- …

1
是否有逻辑上的解释说明为什么逻辑回归不适用于完美分离的情况?以及为什么添加正则化将解决此问题?
关于逻辑回归中的完美分离,我们有很多很好的讨论。例如,R中的逻辑回归导致完美的分离(Hauck-Donner现象)。怎么办?和Logistic回归模型不收敛。 我个人仍然觉得这为什么会是一个问题以及为什么添加正则化可以解决这个问题并不直观。我制作了一些动画,并认为这会有所帮助。因此,请亲自发布他的问题并回答,以便与社区分享。

5
多元回归的假设:正态性假设与恒定方差假设有何不同?
我读到这些是使用多元回归模型的条件: 模型的残差几乎是正常的, 残差的变异性几乎恒定 残差是独立的,并且 每个变量都与结果线性相关。 1和2有何不同? 您可以在这里看到一个: 因此,上图表明,相距2个标准差的残差与Y帽相距10个。这意味着残差遵循正态分布。您不能从中推断出2吗?残差的变异性几乎恒定吗?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.