Questions tagged «references»

寻求有关特定主题的外部参考文献(书籍,​​论文等)的问题。此外,请始终使用更具体的标签。

4
R中的离散时间事件历史(生存)模型
我正在尝试在R中拟合离散时间模型,但不确定如何执行。 我读过您可以将因变量组织在不同的行中,每个时间观察行一个,并将该glm函数与logit或cloglog链接一起使用。从这个意义上讲,我有三列:ID,Event(在每个时间范围内为1或0)和Time Elapsed(自观察开始以来)以及其他协变量。 如何编写适合模型的代码?哪个因变量?我想我可以将其Event用作因变量,并将其包括Time Elapsed在协变量中。但是,会发生什么ID呢?我需要吗? 谢谢。
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 

2
时间序列分析的历史有哪些好的资源?
我已经在stats.stackexchange上检查了这个问题的答案:什么是提供统计历史的优质资源? 确实,斯蒂格勒的书“桌子上的统计数据”看起来很棒,我很期待阅读。但是我对现代ARIMA模型的开发更感兴趣。 我想我记得曾经听说过,在尝试用二战前后的大炮预测随机误差时,已经取得了很大的进步。而且,当然,在整个千年的后半段,天文学家在某种程度上都在利用某种时间序列来理解天体的运动。但是,我不记得我听说过时间序列在炮兵中的应用,并且我有物理学背景,而且我真的不知道天文学家正在使用哪种统计方法。 因此,我想听听您认为对时间序列方法的发展影响最大的历史影响是什么,例如,它们主要是受到金融,国防,地质/地球物理学的刺激,还是所有这些以及更多因素的结合?是否有关于ARIMA历史的资料丰富的书籍或网站?


4
关于统计理论方法的好书
10年前,当我读本科的理论统计课程时,我们使用了Dudewicz和Mishra撰写的《现代数学统计学》。我发现自己现在回头看这本书,并被提醒一些代码示例正在为IBM 370汇编。 存在哪些较新年份的高质量书籍?
10 references 

2
最大化艾德高斯派的最有力结果是什么?在实践中最常用?
由于X1,…,Xn,…∼N(0,1)X1,…,Xn,…∼N(0,1)X_1, \ldots, X_n, \ldots \sim \mathscr{N}(0,1) IID,考虑随机变量 Zn:=max1≤i≤nXi.Zn:=max1≤i≤nXi. Z_n := \max_{1 \le i \le n} X_i\,. 问题:这些随机变量最“重要”的结果是什么? 为了澄清“重要性”,哪个结果具有其他大多数这样的结果是合乎逻辑的结果?在实践中最常使用哪个结果? 更具体地说,似乎是(理论上的)统计学家之间的民俗知识,即至少渐近地“基本上与”。(请参阅此相关问题。)ZnZnZ_n2logn−−−−−√2log⁡n\sqrt{2 \log n} 但是,这种类型的结果有很多,而且似乎大多数情况不是等效的,也不是相互暗示的。例如∗∗^*, Zn2logn−−−−−√→a.s.1,(1)(1)Zn2log⁡n→a.s.1, \frac{Z_n}{\sqrt{2 \log n}} \overset{a.s.}{\to} 1 \,, \tag{1} 如果没有别的,也暗示了概率和分布的相应结果。 但是,它甚至似乎并不暗示也有相关的结果(请参见另一个问题),例如 limn→∞EZn2logn−−−−−√=1,(2)(2)limn→∞EZn2log⁡n=1, \lim_{n \to \infty} \frac{\mathbb{E}Z_n}{\sqrt{2 \log n}} =1 \,, \tag{2} (这是第49页的练习2.17 ),或另一个民俗结果:††\dagger EZn=2logn−−−−−√+Θ(1).(3)(3)EZn=2log⁡n+Θ(1). \mathbb{E}Z_n = \sqrt{2 \log n} …

1
我们可以从得出结论,是独立的吗?
好吧,我们无法看到 有趣的反例,例如https://en.wikipedia.org/wiki/Subindependence。但是真正的问题是:是否有某种方法可以加强这种状况,从而使独立性得以遵循?例如,有一些组的功能使得如果对于所有然后独立如下?而且,这样的函数集必须有多大?E g i(X )g j(Y )= E g i(X )E g j(Y )i ,jG1个,… ,gñg1,…,gng_1, \dotsc, g_nËG一世(X)克Ĵ(是)= EG一世(X)EGĴ(是)E⁡gi(X)gj(Y)=E⁡gi(X)E⁡gj(Y)\E g_i(X) g_j(Y) =\E g_i(X) \E g_j(Y)我,Ĵi,ji,j 而且,还有一些很好的参考资料可以解决这个问题吗?

6
我想学习概率论,度量理论,最后是机器学习。我从哪里开始?[关闭]
已关闭。这个问题需要更加集中。它当前不接受答案。 想改善这个问题吗?更新问题,使其仅通过编辑此帖子来关注一个问题。 3年前关闭。 我想学习概率论,度量理论,最后是机器学习。我的最终目标是在一个软件中使用机器学习。 我在大学里学习了微积分和非常基本的概率,但是仅此而已。您知道一些我可以用来学习这些主题的在线课程或书籍吗?我在网上找到了很多资源,但它们似乎都是针对专业观众的。我知道这将需要一些时间,但是如果我想从头开始学习,该从哪里开始呢?

1
使用ARIMA和LSTM进行时间序列预测
我要处理的问题是预测时间序列值。我正在一次查看一个时间序列,例如,基于15%的输入数据,我想预测其未来值。到目前为止,我遇到了两种模型: LSTM(长期短期记忆;一类递归神经网络) 有马 我都尝试过并阅读了一些文章。现在,我试图更好地了解如何比较两者。到目前为止,我发现了什么: 如果我们要处理大量数据并且有足够的训练数据,那么LSTM会更好地工作,而ARIMA对于较小的数据集则更好(这是正确的吗?) ARIMA需要一系列(p,q,d)必须根据数据计算的参数,而LSTM不需要设置此类参数。但是,我们需要为LSTM调整一些超参数。 除了上述特性之外,我找不到其他可以帮助我选择最佳模型的要点或事实。如果有人可以帮助我查找文章,论文或其他东西,我将非常感谢(到目前为止,还没有运气,这里和那里只有一些一般性意见,而没有基于实验的内容。) 我不得不提到,最初我是在处理流数据,但是现在我使用的是NAB数据集,其中包括50个数据集,最大大小为2万个数据点。

1
什么是关于高级实验的好的现代书籍/资源?
我正在寻找的资源(不一定是一本书)将涵盖一些更具挑战性的实验设计和统计分析案例。我希望涵盖一些情况: 1.随机单位与分析单位不同的情况 示例:我运行了一个具有M个卖家和N个买家的电子商务平台,我想介绍一种卖家级别的待遇,但对买家进行购买的可能性感兴趣。典型的买家将在一个会话中访问数家商店。 2.结果变量高度偏斜 示例:我运行了一个呼叫中心,我想尝试提示客户在到达座席之前输入其客户ID。我希望减少平均通话时间。电话分配极为不正确。 3.治疗组的形状分布不同 示例:相同的呼叫中心,但现在我的治疗方法对于较短的呼叫效果更好,而对于较长的呼叫效果稍差。分析此问题的正确方法是什么? 4.治疗本身会使我的团队失去平衡 示例:与1中相同的电子商务平台,但现在我想尝试使用不同的排名机制。通过分配给更有利的排名,卖方可能希望提高价格,增加库存,更改营销策略等,从而使这些变量中的一些对于不同的处理方式系统地不同。


1
实验设计研究生课程应涵盖哪些内容?
我被要求为农学和生态学的高级研究生提议一门实验设计课程。我从未参加过这样的课程,并且惊讶地发现该课程可能更恰当地命名为“超越单向方差分析”,并且涵盖了我在农业统计学实验高级研究生课程中学习到的材料(例如RCBD,拉丁方,对比度,重复测量和协变量)。也许我对“实验设计”而不是“实验结果分析”感到困惑。 我对此类课程应包含的内容有一些想法,并希望就如何将其整合到满足学生需求的统计学课程中的反馈意见,同时为设计和相关测试的命名列表提供现代替代方案。 例如,当我教学生比较具有线性和二次函数的回归模型时,我无法想象教他们使用ANOVA来对连续变量进行分类,从而使用线性和二次对比。在第二种情况下,他们还将学习如何处理不是实验定义的离散值的因素。如果有的话,我可以比较两种方法。 如果我要教授“实验设计”课程,我真的很想强调与应用的统计模型无关的基本概念,并且这些基本概念将更广泛地转化为其他问题。这将使学生更加灵活地使用现代统计方法。 现有课程中似乎未涵盖的一些相关概念包括: 分层模型和混合模型(我以ANOVA和亲戚为例) 模型比较(例如替换对比) 使用空间模型代替块作为“因素” 复制,随机化和IID 假设检验,p-hacking和模式识别之间的差异。 通过仿真进行功率分析(例如,从仿真数据集中恢复参数), 预注册, 利用已发表的研究和科学原理中的先验知识。 目前有没有采用这种方法的课程?有没有这样关注的教科书?

1
不当的线性模型什么时候才能变得强大美观?
问题: 是在实践中使用了不正确的线性模型,还是在科学期刊中不时描述了某种好奇心?如果是这样,它们在哪些领域使用? 还有其他此类模型的例子吗? 最后,对于此类模型,从OLS提取的标准误差,,R ^ 2等是否正确,还是应该以某种方式进行纠正?pppR2R2R^2 背景:文献中不时描述了不正确的线性模型。通常,此类模型可以描述为 y=a+b∑iwixi+εy=a+b∑iwixi+ε y = a + b \sum_i w_i x_i + \varepsilon 是什么让他们回归不同的是,的是没有在模型中估计系数,但权重是wjwjw_j 等于每个变量(单位加权回归),wi=1wi=1w_i = 1 基于相关性(Dana and Dawes,2004),wi=ρ(y,xi)wi=ρ(y,xi)w_i = \rho(y, x_i) 随机选择(Dawes,1979年), −1−1-1变量负相关,为正相关的变量(Wainer,1976)。1 yyyy111yyy 使用某种特征缩放也很常见,例如将变量转换为分数。因此,这种模型可以简化为单变量线性回归ZZZ y=a+bv+εy=a+bv+ε y = a + b v + \varepsilon 其中,并且可以使用OLS回归简单地估算。v=∑wixv=∑wixv = \sum w_i x 参考: Dawes,Robyn M.(1979)。决策中不适当线性模型的鲁棒性。美国心理学家,第34卷,第 571-582页。 …

2
混合效应模型中的“方差成分参数”是什么?
在贝茨关于混合效果模型的书的第12页上,他对模型进行了如下描述: 在屏幕快照的结尾处,他提到了 相对协方差因子 ,这取决于方差分量参数,θΛθΛθ\Lambda_{\theta}θθ\theta 没有解释到底是什么关系。假设我们给出,我们如何获得Λ θ从它?θθ\thetaΛθΛθ\Lambda_{\theta} 与此相关的是,这是我发现贝茨的论述缺乏细节的众多例子之一。是否有更好的文字实际经过参数估计的优化过程和测试统计量分布的证明?

2
使用SVM时,为什么需要缩放功能?
根据scikit-learn中StandardScaler对象的文档: 例如,学习算法的目标函数中使用的许多元素(例如支持向量机的RBF内核或线性模型的L1和L2正则化器)都假定所有特征都围绕0居中并且具有相同顺序的方差。如果某个特征的方差比其他特征大几个数量级,则它可能会支配目标函数,并使估计器无法按预期从其他特征中正确学习。 分类前应先缩放特征。有什么简单的方法可以说明为什么我应该这样做?引用科学文章会更好。我已经找到了,但可能还有很多。

2
引用统计检验两个比值比之间的差异?
@gung 在这里发表评论,写道: 我相信它们可以重叠一点(也许〜25%),并且在5%的水平上仍然很重要。请记住,您看到的95%CI是针对单个OR,但是对2个OR的测试是关于它们之间的差异。但是,如果它们根本不重叠,那么它们肯定会明显不同;如果95%CI与其他OR点估计值重叠,则它们肯定不会重叠。 有没有人引用上述声明?审稿人要我计算两个比值比是否显着不同。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.