Questions tagged «rare-events»

10
塔莱布与黑天鹅
塔莱布(Taleb)的书《黑天鹅》(The Black Swan)在几年前问世时是《纽约时报》的畅销书。这本书现在是第二版。在JSM(年度统计会议)上与统计学家会面后,Taleb在某种程度上减轻了对统计学的批评。但是本书的重点是统计数据不是很有用,因为它依赖于正态分布和非常罕见的事件:“黑天鹅”不具有正态分布。 您认为这是有效的批评吗?Taleb是否缺少统计建模的一些重要方面?至少可以在估计发生概率的意义上预测稀有事件吗?

5
处理稀有事件的逻辑回归策略
我想研究有限人群中的罕见事件。由于我不确定哪种策略最合适,因此我很高兴获得与该问题相关的技巧和参考,尽管我知道它已被广泛涵盖。我只是真的不知道从哪里开始。 我的问题是一门政治学,我的人口有限,有515,843条记录。它们与具有513,334个“ 0”和2,509个“ 1”的二进制因变量关联。我可以将我的“ 1”称为罕见事件,因为它们仅占人口的0.49%。 我有一组大约10个独立变量,我想建立一个模型来解释“ 1”的存在。像我们许多人一样,我阅读了King&Zeng在2001年发表的有关罕见事件校正的文章。他们的方法是使用案例控制设计来减少“ 0”的数量,然后对截距进行校正。 但是,这篇文章说,如果我已经收集了整个人群的数据,那么就不需要King&Zeng的论证了,这就是我的情况。因此,我必须使用经典的logit模型。对我来说不幸的是,尽管我获得了很好的显着系数,但是我的模型在预测方面完全没有用(无法预测99.48%的“ 1”)。 在阅读King&Zeng的文章之后,我想尝试一种案例控制设计,并且只选择10%的“ 0”和所有“ 1”。在几乎相同的系数下,该模型能够预测应用于全部人口的“ 1”的几乎三分之一。当然,有很多假阳性。 因此,我有三个问题想问你: 1)如果在您完全了解人口信息后,King&Zeng的方法是可取的,那么为什么他们会在文章中了解人口信息的情况下证明自己的观点呢? 2)如果我在logit回归中具有好的系数和微不足道的系数,但是预测能力很差,这是否意味着这些变量所解释的变化没有意义? 3)处理罕见事件的最佳方法是什么?我阅读了有关King的重新登录模型,Firth的方法,确切的登录等信息。我必须承认,我在所有这些解决方案中都迷失了。

3
稀有事件逻辑回归偏差:如何用一个最小的例子模拟被低估的p?
CrossValidated对于何时以及如何应用King和Zeng(2001)的罕见事件偏差校正有几个问题。我正在寻找与众不同的东西:一个基于模拟的最小演示,证明存在偏差。 特别是国王和曾国 “……在极少数事件数据中,几千个样本量的概率偏差可能实际上是有意义的,并且处于可预测的方向:估计的事件概率太小。” 这是我尝试模拟R中的这种偏差: # FUNCTIONS do.one.sim = function(p){ N = length(p) # Draw fake data based on probabilities p y = rbinom(N, 1, p) # Extract the fitted probability. # If p is constant, glm does y ~ 1, the intercept-only model. # If p is not constant, assume …


2
您如何解释相对风险和绝对风险之间的区别?
前几天,我与流行病学家进行了会诊。她是一名拥有流行病学公共卫生学位的医学博士,并且具有大量的统计知识。她指导她的研究员和居民,并帮助他们解决统计问题。她非常了解假设检验。她有一个比较两组的典型问题,以查看与充血性心力衰竭(CHF)相关的风险是否存在差异。她测试了获得CHF的受试者比例的平均差异。p值为0.08。然后,她还决定查看相对风险,得出p值为0.027。因此她问为什么一个重要,而另一个不重要。通过查看差异的95%双向置信区间和比率,她发现平均差异区间包含0,但比率的置信上限小于1。所以为什么我们得出不一致的结果。在技​​术上正确的情况下,我的回答并不令人满意。我说:“这些是不同的统计数据,可以得出不同的结果。p值都在边际有效范围内。这很容易发生。” 我认为必须有更好的方法以外行的方式回答医师问题,以帮助他们了解测试相对风险与绝对风险之间的区别。在Epi研究中,这个问题出现了很多,因为他们经常关注罕见事件,两组的发生率都非常小,样本量不是很大。我已经考虑了一下,并提出了一些想法。但是首先,我想听听你们中的一些人将如何处理这个问题。我知道你们中许多人在医疗领域工作或咨询,可能已经遇到了这个问题。你会怎么做?

1
PROC Mixed和LME / LMER在R自由度上的区别
注意:这个问题是一个转贴,因为我的上一个问题出于法律原因不得不删除。 在比较SAS的PROC MIXED与R中lme的nlme软件包的功能时,我偶然发现了一些相当混乱的差异。更具体地说,不同测试的自由度在PROC MIXED和之间有所不同lme,我想知道为什么。 从以下数据集(以下给出的R代码)开始: ind:指示进行测量的个人的因子 fac:进行测量的器官 trt:表示治疗的因素 y:一些连续响应变量 这个想法是建立以下简单模型: y ~ trt + (ind):ind作为随机因子 y ~ trt + (fac(ind)):fac嵌套在ind作为随机因子 需要注意的是最后一个模型应引起奇异性,因为只有1的值y对每一个组合ind和fac。 第一模型 在SAS中,我建立以下模型: PROC MIXED data=Data; CLASS ind fac trt; MODEL y = trt /s; RANDOM ind /s; run; 根据教程,R中使用的相同模型nlme应为: > require(nlme) > options(contrasts=c(factor="contr.SAS",ordered="contr.poly")) > m2<-lme(y~trt,random=~1|ind,data=Data) 两种模型对系数及其SE均给出相同的估计,但是在对F的影响进行F检验时trt,它们使用的自由度不同: SAS : Type …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

2
充分利用LSTM进行序列内事件预测
假设以下一维序列: A, B, C, Z, B, B, #, C, C, C, V, $, W, A, % ... A, B, C, ..这里的字母代表“普通”事件。 #, $, %, ...这里的符号代表“特殊”事件 所有事件之间的时间间隔是不均匀的(从几秒到几天),尽管过去的事件越远,影响未来事件的可能性就越小。理想情况下,我可以明确考虑这些时间延迟。 大约有10000个普通事件类型,而有大约100个特殊事件类型。特殊事件之前的普通事件数量有所不同,但不太可能超过100-300。 从根本上讲,我对在普通事件序列中寻找最终可预测特殊事件的模式感兴趣。 现在,您可以用不同的方法来实现:创建特征向量+标准分类,关联规则学习,HMM等。 在这种情况下,我对于基于LSTM的网络最适合的情况感到好奇。直截了当就是做类似Karparthy的char-rnn的事情,并根据历史预测下一个事件。然后换一个新序列 C, Z, Q, V, V, ... , V, W 您可以在模型中运行它,然后查看最有可能发生的特殊事件。但这并不太合适。 由于这是一个时间分类问题,因此似乎应该做的正确的事情是使用Alex Graves所描述的连接主义时间分类。 但是,在此刻投入过多之前,我正在寻找更容易,更快捷的方法来进行试验,以了解LSTM在这里的适用性。Tensorflow将会在某个时候看到CTC示例,但尚未出现。 所以我的(子)问题是: 鉴于上述问题,我想尝试使用LSTM值得尝试char-rnn类型的方法,是我该硬着头皮掌握CTC,还是有一个更好的起点。 您将如何明确纳入事件间计时信息。使用带有无操作事件的固定时钟显然可以,但是很难看。 假设我设法训练了LSTM,是否可以检查模型以查看其发生了哪种事件“主题”?(即类似于卷积网络中的过滤器) 任何示例代码(首选python)总是有帮助的。 编辑:只是要补充一下,序列中有一些噪音。有些事件可以安全地忽略,但是确切地说哪些事件并非总是可以预先说出来的。因此,理想情况下,模型(及其衍生的主题)对此具有鲁棒性。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.