统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

2
泊松回归估计二元结果的相对风险
简要总结 为什么在具有二元结果的队列研究中使用逻辑回归(具有比值比),而不是与泊松回归(具有相对风险)相比,更普遍? 背景 根据我的经验,本科生和研究生的统计和流行病学课程通常会讲逻辑回归应用于对具有二元结果的数据进行建模,风险估计值以比值比报告。 但是,泊松回归(以及相关的:拟泊松,负二项式等)也可以用于对具有二元结果的数据进行建模,并通过适当的方法(例如鲁棒的三明治方差估计器)提供有效的风险估计和置信度。例如, Greenland S.,基于模型的相对风险和其他流行病学方法在共同结局研究和病例对照研究中的估计,Am J Epidemiol。2004年8月15日; 160(4):301-5。 Zou G.,使用二进制数据进行前瞻性研究的改进的Poisson回归方法,《美国流行病学杂志》。2004 Apr 1; 159(7):702-6。 Zou GY和Donner A.,将修正的Poisson回归模型扩展到具有相关二元数据的前瞻性研究,Stat Methods Med Res。2011年11月8日。 通过泊松回归,可以报告相对风险,其中一些人认为相对风险比与比值比更容易解释,尤其是对于频繁的结局,尤其是对于没有统计学背景的个人而言。请参见张J.和于克芬,相对风险是多少?一种校正常见结局队列研究中的优势比的方法,JAMA。1998年11月18日; 280(19):1690-1。 通过阅读医学文献,在具有二元结果的队列研究中,似乎似乎更普遍的是通过逻辑回归报告比值比,而不是通过泊松回归报告相对风险。 问题 对于具有二元结果的队列研究: 是否有充分的理由报告逻辑回归的优势比,而不是泊松回归的相对风险? 如果不是,医学文献中具有相对风险的Poisson回归频率不高是否可以归因于科学家,临床医生,统计学家和流行病学家在方法论理论与实践之间的滞后? 中间统计学和流行病学课程是否应包括更多关于二元结果的泊松回归的讨论? 我是否应该鼓励学生和同事在适当的时候考虑使用泊松回归而不是逻辑回归?

5
机器学习对理解因果关系是否有用,从而对社会科学也没那么有趣?
我对机器学习/其他统计预测技术与社会科学家(例如,经济学家)使用的统计类型之间的区别的理解是,经济学家似乎对理解单个或多个变量的影响非常感兴趣-都在幅度并检测该关系是否为因果关系。为此,您最终会用实验和准实验方法等来关注自己。 可以预测的机器学习或统计建模通常会完全忽略这一方面,并​​且在许多情况下并不能给您提供一个变量会影响结果的特定程度(logit和probit似乎都可以)。 一个相关的问题是,在预测新领域时,理论上启发的经济或行为模型在何种程度上比理论模型具有优势?机器学习或面向预测的统计学家会对批评说什么:没有经济模型,您将无法正确预测协变量非常不同的新样本。 我很高兴听到人们从各个角度对此采取的态度。

5
Logistic回归系数的意义是什么?
我目前正在阅读一篇有关2000年和2004年大选的投票地点和投票偏好的论文。其中有一个显示逻辑回归系数的图表。从几年前的课程和一点阅读开始我了解逻辑回归是描述多个自变量与二进制响应变量之间关系的一种方式。鉴于下表,我感到困惑的是,因为南方的对数回归系数为.903,这是否意味着90.3%的南方人投票支持共和党?由于度量的后勤性质,这种直接相关不存在。取而代之的是,我假设您只能说,以.903表示的南方对共和党的投票比对山地/平原的投票多,而回归值为.506。考虑到后者的情况,在这种逻辑回归系数的情况下,我怎么知道什么是重要的,什么不是,以及是否可以推断出一定比例的共和党选票。 附带说明,如果有任何不正确的陈述,请编辑我的帖子

2
贝努利抽样的置信区间
我有一个伯努利随机变量的随机样本,其中是iidrv,,而是未知参数。X1...XNX1...XNX_1 ... X_NXiXiX_iP(Xi=1)=pP(Xi=1)=pP(X_i = 1) = pppp 显然,一个可以找到的估计:。pppp^:=(X1+⋯+XN)/Np^:=(X1+⋯+XN)/N\hat{p}:=(X_1+\dots+X_N)/N 我的问题是如何建立的置信区间?ppp

8
如何在加权社交网络/图中进行社区检测?
我想知道是否有人可以建议对具有加权,无向边的图形执行社区检测/图形分区/聚类。所讨论的图形大约有300万个边,每个边都表示其连接的两个顶点之间的相似度。特别地,在该数据集中,边缘是个体,顶点是对其观察到的行为的相似性的度量。 过去,我遵循了一个建议,即在stats.stackexchange.com上到达这里,并使用igraph的纽曼模块化聚类的实现,并对结果感到满意,但这是在未加权的数据集上。 我应该看什么特定的算法?

8
如何使人们更好地处理数据?
我的工作场所拥有来自不同学科的员工,因此我们以许多不同的形式生成数据。因此,每个团队都开发了自己的存储数据系统。有些使用Access或SQL数据库。有些团队(令我恐惧的是)几乎完全依赖Excel电子表格。通常,数据格式因项目而异。在某些情况下,称其为“系统”太客气了。 这带来的问题是,我必须编写新代码来清理每个项目的数据,这很昂贵;手动编辑电子表格的人几乎不可能进行数据的可重复性和审计。甚至更糟的是,数据可能会丢失或变得不正确。 我有机会与公司董事会成员讨论这些问题,我需要弄清楚该如何告诉他。我认为我已经说服了他我们有一个问题,正确解决这个问题将使科学更好并节省资金。问题是:我们应该瞄准什么,如何到达那里? 进一步来说: 我们应该如何存储数据,以使我们能够跟踪数据从创建到发布的过程?(数据库存储在中央服务器上吗?) 您如何实现数据库格式的标准化? 有什么好的资源可以教育人们如何护理数据?(通常,职业卫生师和炸药工程师不是数据呆子;因此,非技术性内容优先。)

3
PCA的目标功能是什么?
主成分分析可以使用矩阵分解,但这只是达到此目的的工具。 在不使用矩阵代数的情况下如何找到主成分? 目标函数(目标)是什么,约束是什么?
42 pca 

5
如何使时间序列平稳?
除了求差以外,还有什么其他方法可以使静止时间序列平稳? 如果可以通过滞后算子使其平稳,则通常将其称为“ p阶积分 ” 。(1−L)PXt(1−L)PXt(1-L)^P X_t



6
为什么要降采样?
假设我想学习一个预测电子邮件是否为垃圾邮件的分类器。假设只有1%的电子邮件是垃圾邮件。 最简单的方法是学习琐碎的分类器,该分类器说所有电子邮件都不是垃圾邮件。该分类器将为我们提供99%的准确性,但它不会学到任何有趣的东西,并且误报率高达100%。 为了解决这个问题,人们告诉我“降低采样率”,或学习其中50%的示例是垃圾邮件而50%的示例不是垃圾邮件的数据子集。 但是我担心这种方法,因为一旦我们建立了此分类器并开始在真实的电子邮件主体(而不是50/50测试集)上使用它,它可能会预测许多电子邮件在成为垃圾邮件时真的不是。只是因为它过去经常看到比数据集中实际更多的垃圾邮件。 那么我们如何解决这个问题呢? (“上采样”或多次重复正面训练示例,因此50%的数据是正面训练示例,似乎也遇到类似的问题。)


2
在lm中以不同的方式编写交互作用术语?
我有一个问题,即在回归模型中指定交互的最佳方法是什么。考虑以下数据: d <- structure(list(r = structure(c(1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L), .Label = c("r1","r2"), class = "factor"), s = structure(c(1L, 1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 2L, 1L, 1L, 1L, 1L, 1L, 2L, 2L, …

5
如何解释SVM功能权重?
我试图解释通过拟合线性SVM给出的可变权重。 (我正在使用scikit-learn): from sklearn import svm svm = svm.SVC(kernel='linear') svm.fit(features, labels) svm.coef_ 我在文档中找不到任何具体说明如何计算或解释这些权重的信息。 体重的迹象与上课有关系吗?

4
什么是困惑?
我遇到了术语“ 困惑”,它是指对看不见的数据进行对数平均的逆概率。维基百科关于困惑的文章并没有给出直观的含义。 在pLSA纸中使用了这种困惑度度量。 谁能解释困惑测量的必要性和直观含义?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.