Questions tagged «hypothesis-testing»

假设检验评估数据是否与给定假设不一致,而不是随机波动的影响。

4
R中的离散时间事件历史(生存)模型
我正在尝试在R中拟合离散时间模型,但不确定如何执行。 我读过您可以将因变量组织在不同的行中,每个时间观察行一个,并将该glm函数与logit或cloglog链接一起使用。从这个意义上讲,我有三列:ID,Event(在每个时间范围内为1或0)和Time Elapsed(自观察开始以来)以及其他协变量。 如何编写适合模型的代码?哪个因变量?我想我可以将其Event用作因变量,并将其包括Time Elapsed在协变量中。但是,会发生什么ID呢?我需要吗? 谢谢。
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 

1
R线性回归分类变量“隐藏”值
这只是我多次遇到的示例,因此我没有任何示例数据。在R中运行线性回归模型: a.lm = lm(Y ~ x1 + x2) x1是一个连续变量。x2是分类的,具有三个值,例如“低”,“中”和“高”。但是,R给出的输出将类似于: summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 我知道R在这种因素(x2是一个因素)上引入了某种虚拟编码。我只是想知道,如何解释x2“高”值?例如,x2在此处给出的示例中,“ High” 对响应变量有什么影响? 我在其他地方(例如这里)已经看到了这样的示例,但是还没有找到我能理解的解释。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

1
我们可以通过比较回归斜率来比较组之间的相关性吗?
在这个问题中,他们询问如何比较两个独立群体(例如男性与女性)的Pearson r。回复和评论建议两种方式: 使用费舍尔的著名公式,即r的“ z变换”; 使用斜率比较(回归系数)。 只需通过饱和线性模型即可轻松完成后者: ,其中和是相关变量,而是表示两组的虚拟变量(0对1)。的大小(交互作用项系数)恰好是分别在两组中进行模型之后的系数的差,因此,其( s)的意义就是对两组之间斜率差的检验。Y=a+bX+cG+dXGY=a+bX+cG+dXGY = a + bX + cG + dXGXXXYYYGGGdddbbbY=a+bXY=a+bXY = a + bXddd 现在,倾斜或回归系数。还不是相关系数。但是,如果我们规范和 - 分别在两个组-然后会等于差在第1组减去R R组0中,因此其意义将要测试的这两个相关的区别是:我们要测试的斜坡,但似乎[好像-?]我们正在测试相关性。XXXYYYddd 我写的正确吗? 如果是,那么剩下的问题是更好的相关性检验-是描述的还是费舍尔的?因为它们将产生不同的结果。你怎么看? 后来的编辑:感谢@Wolfgang的答复,我仍然感到怀念,我不明白为什么 Fisher的测试比上述的标准化不佳的坡度比较方法对r的测试更正确。因此,欢迎提供更多答案。谢谢。


2
如何测试?
假设我有三个独立的组,分别为均值。μ1, μ2, μ3μ1, μ2, μ3\mu_1,~ \mu_2,~\mu_3 如何使用每个组中的样本来测试是否?μ1&lt;μ2&lt;μ3μ1&lt;μ2&lt;μ3\mu_1 < \mu_2 <\mu_3n1, n2, n3n1, n2, n3n_1,~n_2,~n_3 我想知道一些一般的方法,而不是详细的计算。我不知道如何设置假设和。H0H0H_0H1H1H_1

2
我们能否拒绝通过抽样产生置信区间的零假设而不是零假设?
我被教导,我们可以从总体中采样后以置信区间的形式生成参数估计。例如,在没有违背假设的情况下,95%的置信区间应具有95%的成功率,其中包含我们估计的总体中真实参数是什么。 即 从样本产生点估计。 产生一个范围内的值,理论上有95%的机会包含我们尝试估计的真实值。 但是,当主题变为假设检验时,步骤描述如下: 假设某个参数为原假设。 给定该原假设,则得出获得各种点估计值的可能性的概率分布。 如果原假设为真,则如果我们得到的点估计的产生时间少于5%,则拒绝原假设。 我的问题是这样的: 为了拒绝零值,是否有必要使用零值假设来产生我们的置信区间?为什么不只是执行第一个过程并获得我们对真实参数的估计(在计算置信区间时未明确使用我们的假设值),然后拒绝零假设(如果它不在此区间内)? 从逻辑上讲,从直觉上看,这在逻辑上等效于我,但是我担心我错过了一些非常基本的东西,因为可能有这样一种教导。

4
如何确定两个相关性是否显着不同?
我想确定两组数据(B1,B2)中的哪一组与另一组(A)更好地相关(皮尔森r)。所有数据集中都缺少数据。如何确定所得的相关性是否显着不同? 例如,在A和B1中都存在8426值,r = 0.74。A和B2中都存在8798,r = 0.72。 我认为这个问题可能会有所帮助,但尚未得到答案:如何知道一个系统明显优于另一个系统?

1
哪种深度学习模型可以对不互斥的类别进行分类
示例:我的职位描述中有一句话:“英国Java高级工程师”。 我想使用深度学习模型将其预测为2类:English 和IT jobs。如果我使用传统的分类模型,则只能预测softmax最后一层具有功能的标签。因此,我可以使用2个模型神经网络来预测两个类别的“是” /“否”,但是如果我们有更多类别,那就太贵了。那么,我们是否有任何深度学习或机器学习模型可以同时预测2个或更多类别? “编辑”:使用传统方法使用3个标签,它将由[1,0,0]编码,但在我的情况下,它将由[1,1,0]或[1,1,1]编码 示例:如果我们有3个标签,并且所有这些标签都适合一个句子。因此,如果softmax函数的输出为[0.45,0.35,0.2],我们应该将其分类为3个标签或2个标签,或者可以是一个?我们这样做的主要问题是:分类为1个,2个或3个标签的最佳阈值是多少?
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

6
使用p值计算假设为真的可能性;还需要什么?
题: 对p值的一个普遍误解是,它们代表原假设为真的概率。我知道这是不正确的,并且我知道p值仅代表找到样本的可能性,因为原假设是真的。但是,从直觉上讲,一个人应该能够从后者派生第一个。没有人这样做,一定有原因。我们缺少哪些信息,这些信息限制了我们从p值和相关数据得出假设成立的可能性? 例: 我们的假设是“维生素D影响情绪”(无效假设是“无效”)。假设我们对1000人进行了适当的统计研究,发现情绪与维生素水平之间存在相关性。在所有其他条件相同的情况下,p值0.01表示真实假设的可能性比p值0.05更高。假设我们得到的p值为0.05。为什么我们不能计算假设为真的实际概率?我们缺少什么信息? 常客统计学家的备用术语: 如果您接受我的问题的前提,则可以在这里停止阅读。以下内容适用于拒绝接受假设可以进行概率解释的人们。让我们暂时忘记术语。代替... 假设您与朋友下注。您的朋友向您展示了有关无关主题的一千项统计研究。对于每个研究,您只能查看p值,样本大小和样本的标准偏差。对于每项研究,您的朋友都会给您提供一定的机会来打赌研究中提出的假设是正确的。您可以选择下注或不下注。在为所有1000项研究下注后,一个先知会升华,并告诉您哪个假设是正确的。此信息使您可以下注。我的主张是该游戏存在最佳策略。在我的世界观中,这相当于知道假设为真的概率,但是如果我们不同意,那就很好。在那种情况下,我们可以简单地讨论采用p值以最大程度地期望下注的方法。

2
女士品尝茶的力量
在著名的费舍尔实验中,可观察到的是具有杯子和两种的校正猜想杯子的数量。通常,给定测试的大小,计算临界区域以拒绝零假设(女士在随机猜测)是很有趣的。使用超几何分布很容易做到这一点。以相同的方式,我可以在给定关键区域的情况下计算测试的大小。一kkkAAABBBαα\alpha 一个不同的问题是:给定替代假设,如何计算检验的功效?例如,假设女士能够在单个杯子上概率正确地猜测()。假设杯子的总数等于并且一种杯子的总数等于,那么测试的功效是什么?(不幸的是)那位女士认识。p=90%p=90%p=90\%P(guessA|trueA)=P(guess B|true B)=0.9P(guessA|trueA)=P(guess B|true B)=0.9P(\text{guess} A|\text{true} A)=P(\text{guess } B|\text{true } B)=0.9N=8N=8N=8n=N/2=4n=N/2=4n=N/2=4nnn 换句话说:如果女士知道存在一种杯子,则(替代假设下正确杯子的数量)的分布是什么?k=k=k=nnn

7
如果不是所有1000名受试患者都可以通过药物治愈,我们是否可以说我们接受无效假设?
在许多地方,我读到我们永远不能说我们“接受”原假设。相反,我们必须说我们“未能拒绝”原假设。 但是我不认为这与这个简单的例子如何相吻合:假设我们正在测试一种应该在24小时内完全治愈糖尿病的药物。我们对1000名患者进行了尝试,所有患者在服药后仍然患有糖尿病。 这种药物不能治愈糖尿病不是很明显吗?即,我们接受原假设吗? 我当然不会相信这种药物。 无假设:该药对患者无影响。 替代假设:该药物可治疗糖尿病

5
两个参数的泊松假设检验
因此,为了好玩,我从工作所在的呼叫中心获取一些呼叫数据,并尝试对它们进行假设检验,特别是一周内收到的呼叫数量,并使用泊松分布进行拟合。由于我工作的主题,星期有两种类型,让我们称其为我假设有更多呼叫的工作周中的一种,而假设为更少的非工作周称为一种。 我有一种理论认为,每周的(称为)大于非一周的(称为)λλ\lambdaλ1λ1\lambda_1λ2λ2\lambda_2 所以我要检验的假设是H0:λ1个&gt; λ2,小时1个:λ1个≤ λ2H0:λ1个&gt;λ2,H1个:λ1个≤λ2H_0: \lambda_1 > \lambda_2, H_1: \lambda_1 \leq \lambda_2 我知道如何测试一个参数(例如 ),但不确定如何在给定数据集的情况下进行2个操作。假设我从每个星期和以及每个星期和的每个中获取两周的数据。有人可以帮助我浏览这个更简单的版本,以便将其应用于更大的数据集吗?任何帮助表示赞赏,谢谢。H0:λ1个&gt; 1 ,ħ1个:λ1个≤ 1H0:λ1个&gt;1个,H1个:λ1个≤1个H_0: \lambda_1 > 1, H_1: \lambda_1 \leq 1 X1个= 2X1个=2X_1 = 2X2= 3X2=3X_2 = 3ÿ1个= 2ÿ1个=2Y_1 = 2ÿ2= 6ÿ2=6Y_2=6

6
有什么好的例子可以向本科生展示?
我将在本学期下半学期向面向CS的本科生教授统计学。大多数参加该课程的学生没有动力去学习该学科,而只是出于主要要求而参加。我想让这个主题有趣且有用,而不仅仅是他们学习让B +通过的课程。 作为一名纯数学博士生,我在实际应用方面一无所知。我想问一些实际应用中的本科统计。我正在寻找的示例(在精神上)例如: 1)显示中心极限定理对于某些大型样本数据很有用。 2)提供一个反例,说明中心极限定理不适用(例如,遵循柯西分布的那些)。 3)使用Z检验,t检验或其他方法,说明假​​设检验在著名的现实生活示例中的工作原理。 4)显示过度拟合或错误的初始假设如何导致错误的结果。 5)展示p值和置信区间如何在(众所周知的)现实生活案例中发挥作用,以及在何处效果不佳。 6)类似地,I型,II型错误,统计功效,拒绝水平等。αα\alpha 我的麻烦是,尽管我在概率方面确实有很多示例(掷硬币,掷骰子,赌徒的废墟,mar,随机行走,三个囚犯悖论,蒙蒂霍尔问题,算法设计中的概率方法等),但我不知道在统计方面有很多规范的例子。我的意思是严肃的,有趣的例子,具有一定的教学价值,并且不是由人为地编造的,似乎与现实生活格格不入。我不想给学生错误的印象,即Z检验和t检验就是一切。但是由于我纯粹的数学背景,我没有足够的例子让课堂变得有趣和有用。因此,我正在寻求一些帮助。 我学生的水平大约是微积分I和微积分II。他们无法甚至显示标准正态分布的方差为1的定义,因为他们不知道如何评价高斯内核。因此,任何稍微理论化或动手的计算(例如超几何分布,一维随机游走中的反正弦定律)都将无法工作。我想展示一些例子,他们不仅可以理解“如何”,而且可以理解“为什么”。否则,我不确定是否会通过恐吓证明我的话。

1
关于t检验的正态假设的问题
对于t检验,根据大多数文献,假设人口数据呈正态分布。我不知道为什么。t检验不是只要求样本均值的抽样分布是正态分布,而不是总体吗? 如果情况是t检验最终只要求样本分布具有正态性,那么总体可以看起来像任何分布,对吗?只要样本数量合理即可。那不是中央极限定理所陈述的吗? (我在这里指的是一个样本或独立样本的t检验)


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.