Questions tagged «communication»

与通信或解释统计数据,分析或概念有关

11
向外行人解释引导程序为何起作用
我最近使用引导程序来估计项目的置信区间。人谁不知道很多有关统计最近问我解释为什么引导工作,即,那为什么在重新取样相同的样本,并在提供了良好的效果。我意识到,尽管我花了很多时间来了解如何使用它,但我并不真正理解引导程序为何起作用。 具体来说:如果我们从样本中进行重采样,那我们是如何在了解有关总体而不是仅关于样本的信息?似乎有一个飞跃,这有点违反直觉。 在这里,我已经找到了一些答案,而我对此有一半的了解。特别是这个。我是统计学的“消费者”,而不是统计学家,并且我与对统计学了解不多的人一起工作。因此,有人可以在最少参考定理等情况的情况下解释引导程序的基本原理吗?也就是说,如果您不得不向邻居解释,您会说什么?

15
最令人困惑的统计术语
我们的统计学家使用的词语与其他人使用的词语略有不同。当我们教或解释我们在做什么时,这会引起很多问题。我将开始一个列表(现在,我将在每个注释中添加一些定义): 力量是正确拒绝错误的虚假假设的能力。通常,这意味着正确地说“正在发生”。 偏见-如果统计数据与关联的总体参数在系统上有所不同,则该统计数据将产生偏差。 显着性-在以下情况下,结果在统计上具有一定百分比(通常为5%)的显着性:如果样本来源的总体的真实影响为0,则仅会发生至少与样本来源的统计一样极端的统计数据5%的时间。 相互作用-如果因变量和一个自变量之间的关系在另一个自变量的不同级别上不同,则两个自变量相互作用 但是必须有很多其他人!

3
如何使用glmnet呈现套索的结果?
我想从30个独立变量中找到连续因变量的预测变量。我正在使用在R 中的glmnet包中实现的Lasso回归。这是一些伪代码: # generate a dummy dataset with 30 predictors (10 useful & 20 useless) y=rnorm(100) x1=matrix(rnorm(100*20),100,20) x2=matrix(y+rnorm(100*10),100,10) x=cbind(x1,x2) # use crossvalidation to find the best lambda library(glmnet) cv <- cv.glmnet(x,y,alpha=1,nfolds=10) l <- cv$lambda.min alpha=1 # fit the model fits <- glmnet( x, y, family="gaussian", alpha=alpha, nlambda=100) res <- predict(fits, …

10
有没有关于统计或机器学习的好的科普书籍?
周围有一堆非常不错的通俗科学书籍,涉及真正的科学,以及历史和背后的理论背后的原因,同时仍然非常有趣。例如,詹姆斯·格里克(James Gleick)的“混沌”(混沌,分形,非线性),斯蒂芬·霍金(Stephen Hawking)的“时间简史”(物理学,宇宙起源,时间,黑洞)或理查德·道金斯(Richard Dawkins)的“自私基因”(进化和自然选择)。这些书中有些提出论据(道金斯),有些则没有论据(格里克)。但是,它们都使我们这些人无需进行深入的科学教育就可以轻松理解原本困难的概念。 是否有任何此类书籍主要关注统计学或机器学习? 请附上每本书的摘要。

10
您最喜欢外行对一个困难的统计概念的解释是什么?
我真的很喜欢听到对复杂问题的简单解释。您最喜欢哪种比喻或轶事来解释一个困难的统计概念? 我最喜欢的是穆雷(Murray)对酒鬼和她的狗的协整解释。默里(Murray)解释了两个随机过程(一个流浪的醉汉和她的狗,奥利弗(Oliver))如何能够具有单位根,但由于它们的联合第一差异是固定的,因此仍然是相关的(共同集成)。 喝醉了的人从酒吧出发,以随意行走的方式漫无目的地游荡。但是她周期性地发出“奥利弗,你在哪里?”的声音,奥利弗打断了他漫无目的的徘徊以吠叫。他听见她的话。她听到他的声音。他想:“哦,我不能让她离得太远;她会把我拒之门外。” 她想:“哦,我不能让他离得太远;他会在半夜用吠叫叫醒我。” 每个人都评估彼此之间有多远,并努力部分缩小该差距。

2
人为全球变暖的证据达到“黄金标准”:他们是如何做到的?
Reuter在2019年2月25日发表的文章中的这一消息目前已成为新闻: 人为全球变暖的证据达到“黄金标准” [科学家]说,人们对人类活动正在升高地球表面的热量的信心达到了“五西格玛”水平,这是一个统计量表,这意味着只有在这种情况下,如果存在没有变暖。 我相信这是指本文“庆祝气候变化科学三大关键事件的周年纪念日”,其中包含一个图,如下图所示(这是一个草图,因为我找不到原始的,类似的开源图像免费图片在这里找到)。来自同一研究小组的另一篇文章似乎是更原始的来源(此处使用1%的有效度而不是)。5个σ5σ5\sigma 该图显示了三个不同研究组的测量结果:遥感系统,卫星应用和研究中心以及位于汉斯维尔的阿拉巴马大学。 该图显示了信噪比随趋势长度变化的三个上升曲线。 所以,在某种程度上科学家在测量了全球变暖(或气候变化?)的人为信号水平,这显然是一些证据的科学标准。5个σ5σ5\sigma 对我来说,这样的图具有很高的抽象水平,它引发了许多问题,并且总的来说,我对“他们是如何做到的?”这个问题感到好奇。。我们如何用简单的单词(不是那么抽象)来解释这个实验,又如何解释级别的含义?††^{\dagger}5个σ5σ5\sigma 我在这里问这个问题是因为我不想讨论气候。相反,我想要有关统计内容的答案,尤其是要弄清楚使用/声明的语句的含义。5个σ5σ5 \sigma ††^\dagger什么是原假设?他们如何设置实验以获得人为信号?信号的影响大小是多少?只是一个很小的信号,而我们现在只是因为噪声在减小而测量,还是信号在增大?为创建统计模型做出什么样的假设,通过它们它们可以确定5 sigma阈值的交叉点(独立性,随机效应等)?为什么不同研究组的三个曲线不同,它们具有不同的噪声还是具有不同的信号?对于后者,对于概率和外部有效性的解释意味着什么?

1
写得精美的论文
摘自David Salsburg的《品尝茶的女士》: 尽管读者可能不会相信,但文学风格在数学研究中起着重要作用。一些数学作家似乎无法撰写易于理解的文章。其他人似乎因产生许多符号表示法而感到不快,这些符号表示法是如此的详细,以至于总的想法在皮卡尤尼语中迷失了。 但是,有些作者有能力以如此简单而有力的方式展示复杂的思想,以至于他们的论述似乎显而易见。只有回顾所学到的知识,读者才能意识到结果的强大力量。这样的作者是杰里·内曼(Jerzy Neyman)。很高兴阅读他的论文。这些想法自然而然地发展了,表述似乎很简单,结论似乎很自然,以至于您很难理解为什么没有人早就得出这些结果。 这些统计或机器学习方面写得很好的论文还有哪些其他具体示例? 想法是列出“这是应该怎么写”的论文清单。 请尝试提供: 完整的书目引用,例如: 卡尔·拉斯穆森(Carl E. Rasmussen),“ 无限高斯混合模型 ”,《神经信息处理系统》,第12卷,第1期。12(2000) 如果有链接,请尽可能将其链接到可公开访问的存储库(例如,http : //arxiv.org/)。 简短,非正式,易于理解的评论,涉及该论文的内容以及为什么它是写得最好的论文的一个示例。

2
如何描述或可视化多元线性回归模型
我正在尝试使用几个输入参数(例如3)将多元线性回归模型拟合到我的数据中。 F(x )F(x )= A x1个+ B x2+ CX3+ d要么= (A B C )Ť(x1个 X2 X3)+d(i)(ii)(一世)F(X)=一种X1个+乙X2+CX3+d要么(ii)F(X)=(一种 乙 C)Ť(X1个 X2 X3)+d\begin{align} F(x) &= Ax_1 + Bx_2 + Cx_3 + d \tag{i} \\ &\text{or} \\ F(x) &= (A\ B\ C)^T (x_1\ x_2\ x_3) + d \tag{ii} \end{align} 如何解释和可视化此模型?我可以想到以下选项: 提及描述的回归方程(系数,常数)以及标准偏差,然后提及残差图以显示该模型的准确性。 (我)(一世)(i) 独立变量和因变量的成对图,如下所示: 一旦系数已知,可以将用于获得方程式的数据点压缩为它们的实际值。也就是说,训练数据具有而不是,,,形式的新值,其中每个自变量乘以其各自的系数。然后,可以将此简化版本直观地显示为简单回归,如下所示:x …

4
如何最好地可视化三组中许多比例的差异?
我正在尝试从视觉上比较三种不同的新闻出版物如何涵盖不同的主题(通过LDA主题模型确定)。我有两种相关的方法,但是从同事那里收到很多反馈,说这不是很直观。我希望外面有人对它可视化有更好的主意。 在第一个图中,我显示了每个出版物中每个主题的比例,如下所示: 对于几乎所有与我交谈过的人来说,这都是非常简单直观的。但是,很难看到出版物之间的差异。哪个报纸报道的话题更多? 为此,我绘制了主题比例最高的出版物与主题排名第二的出版物之间的差异,并按主题排名最高的出版物进行了区分。像这样: 因此,举例来说,足球的巨大标杆实际上就是al-Ahram English到Daily News Egypt(足球报道中排名第二)之间的距离,并且由于Al-Ahram排名第一而被涂成了红色。同样,审判是绿色的,因为“埃及独立报”的比例最高,条形大小是“埃及独立报”与“每日新闻埃及报”之间的距离(再次为#2)。 我必须在两段中全部解释这一事实,这是一个很肯定的迹象,表明该图未通过自给自足测试。仅仅看一下就很难说出到底发生了什么。 关于如何以更直观的方式在视觉上突出显示每个主题的主要出版物的任何一般建议? 编辑:要使用的数据:这是dputR的输出以及CSV文件。 编辑2:这是一个初步的点图版本,其点的直径与主题在主体中的比例成正比(这是主题最初的排序方式)。尽管我仍然需要进行一些微调,但感觉比以前更加直观。感谢大家!

3
Logistic回归与感知器之间的差异
据我了解,具有逻辑S形激活功能的感知器/单层人工神经网络与逻辑回归模型相同。两种模型均由以下方程式给出: F(x )= 11 − e- βXF(X)=1个1个-Ë-βXF(x) = \frac{1}{1-e^{-\beta X}} 感知器学习算法是在线的且受错误驱动,而逻辑回归的参数可以使用多种批处理算法(包括梯度下降和有限内存BFGS)或在线算法(例如随机梯度下降)来学习。Logistic回归与S型感知器之间是否还有其他区别?经过随机梯度下降训练的逻辑回归器的结果是否应该与感知器相似?

3
您将如何向没有统计背景的人们解释广义线性模型?
我总是很难向没有统计背景的听众解释统计技术。如果我想向此类受众解释什么是GLM(不抛出统计术语),那么最佳或最有效的方法是什么? 我通常用三个部分来解释GLM:(1)作为响应变量的随机分量,(2)作为线性预测变量的系统分量,以及(3)作为连接(1)的“关键”的链接函数(2)。然后,我将给出线性或逻辑回归的示例,并说明如何根据响应变量选择链接函数。因此,它充当连接两个组件的关键。

5
数据可视化技术的认知处理/解释
是否有人知道研究不同可视化技术的有效性(可理解性)的研究? 例如,人们相对于另一种形式的可视化理解有多快?与可视化的交互性是否可以帮助人们回忆数据?遵循这些原则。可视化示例可能是:散点图,图形,时间线,地图,交互式界面(如平行坐标)等。 我对非专业人群的研究特别感兴趣。

3
如何最好地传达不确定性?
在向媒体和公众传达统计计算结果时,一个大问题是我们如何传达不确定性。当然,大多数大众媒体似乎都喜欢一个固定的数字,尽管除了少数情况外,数字总是有一定的不确定性。 因此,作为统计学家(或描述统计工作的科学家),我们如何最好地交流我们的结果,同时保持不确定性不变,并使它对我们的受众有意义? 我意识到这实际上不是统计学问题,而是有关统计学的心理学问题,但这当然是大多数统计学家和科学家都会关注的问题。我在想,好的答案可能比统计教科书更多地参考心理学研究... 编辑:根据user568458的建议,此处进行案例研究可能会很有用。如果可能的话,请保持答案可推广到其他领域。 我感兴趣的一个特殊案例就是一个很好的例子:通过大众媒体将气候科学与政治家和公众进行交流。换句话说,作为科学家,您的工作是将新闻传递给新闻记者,使他们毫不费力地将新闻准确地传递给公众-即事实,尽管不一定是全部事实。通常不会被新闻咬住。 一些特别常见的例子可能是在本世纪余下的时间里对变暖程度的估计中不确定性的传达,或者是在特定极端天气事件的可能性增加时的不确定性的传达(即,响应“气候变化是否引起了这场风暴? “类型问题”。

3
要报告的有效位数
在比较标准的情况下(例如,大学一年级),是否有更科学的方法来确定要报告的平均位数或置信区间的有效位数。 我已经看到要在表格中放置有效数字的数量,为什么我们不使用有效数字和卡方拟合的有效数字的数量,但是这些似乎并没有使问题产生影响。 在我的课堂上,我试图向学生解释,当他们的成绩有如此大的标准误差时,报告15位有效数字是浪费墨水-我的直觉是应该将其四舍五入到大约。这与ASTM- 报告测试结果所指的E29并没有太大区别,在E29中,该值应介于和。0.05 σ 0.5 σ0.25σ0.25σ0.25\sigma0.05σ0.05σ0.05\sigma0.5σ0.5σ0.5\sigma 编辑: 当我有如下一组数字时x,我应该使用几位数来打印均值和标准差? set.seed(123) x <- rnorm(30) # default mean=0, sd=1 # R defaults to 7 digits of precision options(digits=7) mean(x) # -0.04710376 - not far off theoretical 0 sd(x) # 0.9810307 - not far from theoretical 1 sd(x)/sqrt(length(x)) # standard error of mean …


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.