统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

2
一般拟合优度的贝叶斯等效项是什么?
我有两个数据集,一个来自一组物理观测值(温度),另一个来自一组数值模型。我正在做一个完美模型分析,假设模型集合表示一个真实的独立样本,并检查是否从该分布中得出观察结果。我计算出的统计数据已归一化,理论上应为标准正态分布。当然,它并不完美,所以我想测试一下贴合度。 使用常识性推理,我可以计算Cramér-vonMises统计信息(或Kolmogorov-Smirnov等)或类似数据,并在表中查找该值以获得p值,以帮助我确定该值不太可能看到的是,给定的观察结果与模型相同。 该过程的贝叶斯等效项是什么?也就是说,如何量化我对这两个分布(我的计算统计量和标准正态分布)不同的信念的强度?

1
Calinski&Harabasz(CH)准则的可接受值是多少?
我已经进行了数据分析,试图使用R和kml包对纵向数据进行聚类。我的数据包含约400条单独的轨迹(在本文中称为)。您可以在下图中看到我的结果: 阅读相应论文中的第2.2章“选择最佳数量的群集”后,我没有得到任何答案。我希望有3个簇,但CH仍为80时结果仍然可以。实际上,我什至不知道CH值代表什么。 所以我的问题是,Calinski&Harabasz(CH)准则的可接受值是多少?

3
R是否适用于生产(部署)代码
我已经阅读了许多有关R,R和R的公司的文章,例如Google,Facebook和许多其他公司。我读过的另一种情况是,公司使用R来对分析解决方案进行原型设计,然后以另一种语言重新实现。 我正在尝试查找有关使用R进行实际生产分析代码的公司的文献。用例可能是推荐系统,用户可以通过网页与之交互,该网页从远程服务器上执行的R脚本获取响应。我在查找此类报告时遇到困难,这使我想知道是否不建议这样做。如果可以,为什么?
25 r  references 

5
关于Copulas的入门阅读
一段时间以来,我一直在为我的研讨会寻找有关Copulas的良好介绍性阅读。我发现有很多关于理论方面的材料,这是很好的,但是在我将其介绍之前,我希望对这一主题建立良好的直观理解。 谁能提出建议为初学者打好基础的好论文(我在合理的程度上开设了1-2门统计学课程,并了解边际,多元分布,逆变换等)?

2
乔尔·斯波斯基(Joel Spolsky)的《蛇的狩猎》是否发布了有效的统计内容分析?
如果您最近一直在阅读社区公告,则可能会看到StackExchange网络首席执行官 Joel Spolsky 在StackExchange官方博客上的帖子“ The Snark的狩猎” 。他讨论了对SE注释样本进行的统计分析,以从外部用户的角度评估它们的“友好性”。这些评论是从StackOverflow中随机抽取的,内容分析员是亚马逊Mechanical Turk社区的成员,这是一个工作市场,该平台将公司与以低廉的费用执行简短任务的工人联系在一起。 不久前,我是一名政治学研究生,我参加的课程之一是“ 统计内容分析”。该班级的最后一个项目,实际上是其全部目的,是对《纽约时报》的战争报道进行详细分析,以检验美国人对战争期间新闻报道的许多假设是否准确(破坏者:证据表明他们在不)。该项目非常庞大且非常有趣,但是到目前为止,最痛苦的部分是“培训和可靠性测试阶段”,该阶段发生在我们进行全面分析之前。它有两个目的(有关详细说明,请参阅链接论文的第9页,以及在内容分析统计资料中对编码器可靠性标准的引用): 确认所有编码人员(即内容阅读者)都接受了相同的定性定义培训。在Joel的分析中,这意味着每个人都将确切地知道该项目如何定义“友好”和“不友好”。 确认所有编码器都可靠地解释了这些规则,即我们采样了样本,分析了子集,然后从统计学上证明了我们在定性评估中的成对相关性非常相似。 可靠性测试很痛苦,因为我们必须做三到四次。直到-1-被锁定并且-2-显示出足够高的成对相关性,我们对于完整分析的结果还是值得怀疑的。无法证明它们有效或无效。最重要的是,我们必须在最终样本集之前进行可靠性的中试。 我的问题是:乔尔(Joel)的统计分析缺乏试点可靠性测试,也没有建立“友好”的任何运营定义。最终数据是否足够可靠,足以说明其结果的统计有效性? 从一个角度来看,请考虑一下有关互编码器可靠性和一致的操作定义的价值的入门知识。在同一资料的更深处,您可以阅读有关飞行员可靠性测试的信息(列表中的项目5)。 根据Andy W.在他的回答中的建议,我正在尝试使用R中的此命令系列(在我计算新的统计信息时进行更新)来计算数据集上的各种可靠性统计信息(可在此处获得)。 描述性统计数据在这里 百分比一致性 (容差= 0):0.0143 百分比协议(公差为1):11.8 克里彭多夫的阿尔法: 0.1529467 在另一个问题中,我也尝试针对此数据建立项目响应模型。

6
神经网络如何识别图像?
该问题是从Stack Overflow 迁移而来的,因为可以通过交叉验证来回答。 迁移 7年前。 我正在尝试学习神经网络如何在图像识别上工作。我看过一些例子,变得更加困惑。在20x20图像的字母识别示例中,每个像素的值成为输入层。因此有400个神经元。然后是神经元的隐藏层和26个输出神经元。然后训练网络,然后工作,并不完美。 我对神经网络感到困惑的是,它如何了解图像中的内容。您无需进行阈值,分割或测量,网络就可以通过某种方式学习比较图像并进行识别。现在对我来说就像魔术。从哪里开始学习神经网络?

2
博彩公司如何确定体育博彩赔率?
让我们以足球(足球)为例。有3种可能的结果,主场胜利,平局,客场胜利。我从bet365进行了随机游戏 Turkey vs Ukraine hwin, draw, awin 2.20 3.40 3.20 因此,对于100的投资$给出结果,你要么松散100 $或赢:220 $ 340 $或320 $。他们的概率评估加起来不是100%,他们需要额外的5%-12%,但是如何得出这些数字(2.20、3.40、3.20)?例如,如果90%的人将钱投放在土耳其,hwin系数会更低,这是人们下注的方式吗?还是某种计算? 计算存在的问题是样本很差,国家队在很长一段时间内很少比赛,在实力各异的球队之间,很多外部参数都在起作用,例如伤病,个人球员的现况和动机等。 。 他们的全国冠军联赛策略有什么不同,随着比赛的进行更加频繁,您会发现更多的规律性,尽管每月4场全国联赛的比赛并不算多(而且主场/客场都打过,这是两个非常不同的事情) 。 所以基本上,问题在于他们最依赖什么,他们如何得出这些数字,是计算,其他玩家的下注方式,组合等吗? 一个子问题是,如果其他赌徒对系数的放置方式有很大的影响,在我看来,这样的评估将有很大的误差。我不知道您是否可以说出给定结果的65%和70%之间的差异,但是对我而言,这种差异是无法区分的。明确地说,我认为土耳其是最受欢迎的例子,主要是因为他们在主场比赛,但是他们赢得45%或55%胜利的机会太抽象了,如果他们与摩纳哥国家队比赛,那我会让您更有信心赢得胜利。

3
如何为这种奇形分布建模(几乎是反向J型)
下面显示的我的因变量不适合我所知的任何股票分布。线性回归会以某种奇怪的方式生成与预测的Y相关的某种非正态,右偏残差(第二个图)。对转换或以其他方式获得最有效结果和最佳预测准确性的任何建议?如果可能,我希望避免将笨拙的分类分为5个值(例如0,lo%,med%,hi%,1)。

6
统计图形是否有“你好,世界”?
在计算机编程中,有一个经典的第一个程序用于学习/教学一种新的语言或系统,称为“你好,世界”。 http://en.wikipedia.org/wiki/Hello_world_program 使用绘图程序包是否有经典的首次数据可视化?如果是这样,那是什么?如果没有,那么好的候选人将是什么?

3
如何在R中测量时间序列的平滑度?
有没有一种好的方法可以测量R中时间序列的平滑度?例如, -1, -0.8, -0.6, -0.4, -0.2, 0, 0.2, 0.4, 0.6, 0.8, 1.0 比...光滑得多 -1, 0.8, -0.6, 0.4, -0.2, 0, 0.2, -0.4, 0.6, -0.8, 1.0 尽管它们具有相同的均值和标准差。如果有一个函数可以在一个时间序列上给我一个平稳的分数,那就太酷了。
25 r  time-series 

3
泊松回归的残差与拟合值的解释图
我试图用R中的GLM(泊松回归)拟合数据。当我绘制残差与拟合值时,该图创建了多个(几乎是线性的,带有轻微的凹曲线)“线”。这是什么意思? library(faraway) modl <- glm(doctorco ~ sex + age + agesq + income + levyplus + freepoor + freerepa + illness + actdays + hscore + chcond1 + chcond2, family=poisson, data=dvisits) plot(modl)

6
有关R的统计资料参考书-是否存在,并且应包含什么?
背景 围绕此问题进行了很多讨论,因此我认为我可以从StackExchange的早期版本以及通过疯狂地搜索来找到答案。经过半天的尝试,我只为R找到了一本关于(生物)统计的参考书,但我完全感到困惑,不得不放弃。也许免费材料的组合实际上比您现在可以购买的任何书都要好。让我们找出答案。 互联网上充斥着许多不错的R语言免费文学作品,因此,平庸的书实在是没有意义的,因为平庸的书大部分时间都被用作办公装饰。R主页站点列出了与R相关的书籍,其中有很多。更准确地说:115.其中只有一个广告标有“ 独立统计参考书 ”。现在已经8岁了,可能已经过时了。带S的《现代应用统计》的第四版甚至更旧。R书经常被认为过于基础,因此不推荐使用,因为缺乏参考,格式不良的代码和草率的处理。 但是,我正在寻找一本书,该书可以用作对带有R(第二)的实用统计(第一和第一)的独立参考。这本书应该放在我的办公室桌上,收集注解,咖啡渍和油腻的指纹,而不是书架上的灰尘。它应该取代我到目前为止一直在使用的免费pdf集合,不要忘记R带有出色的参考库。“ 正确的方法是什么?”,“ 为什么?“和‘ 在技术上,它是如何工作的? ’往往更迫切问题不是‘ 怎么有R办呢? ’ 由于我是生态学家,所以我对生物统计学的应用最感兴趣。但是,由于这些东西经常联系在一起,因此跨学科的一般性参考对我来说将是最有价值的。 任务 如果存在这样的书(我对此表示怀疑),请提供该书的名称(每个答案仅一个),并简要介绍该书,以解释为什么应将其命名为该主题的参考书。由于此问题与现有问题并没有太大不同,请使用此提示进行回答。您还可以列出书中的缺陷,以便我们将其列为理想参考书的功能。 我的问题是带有R的(最常用的)统计参考书应包含哪些内容? 一些初步的想法是遵循以下一般功能(请更新): 蠢如顽石 简洁但可以理解 填满数字(提供R代码) 易于理解的表格和图表描述了文本中最重要的细节 易于理解的有关统计/方法的描述性文字,其中包含最重要的方程式。 每种方法的良好示例(带有R代码) 广泛而最新的参考文献清单 最少错别字 目录 由于我不是统计学家,因此需要此书(不存在吗?)来回答这个问题,因此我很难写出内容。因为R书显然打算成为R的统计参考书,但经常遭到批评,所以我从书中复制了目录,以此作为独立R统计参考书的目录的起点。附加任务:请为目录提供补充,建议,删除等。 入门 R语言基础 数据输入 数据框 图形 桌子 数学 古典测验 统计建模 回归 方差分析 协方差分析 广义线性模型 计数数据 表中数据计数 比例数据 二进制响应变量 广义加性模型 混合效应模型 非线性回归 树模型 时间序列分析 多元统计 …
25 r  references 


2
比较平滑样条与黄土进行平滑?
我希望更好地了解使用黄土或平滑样条曲线平滑某些曲线的利弊。 我的问题的另一个变化是,是否有一种方法可以构造出与使用黄土相同的结果的平滑样条。 欢迎任何参考或见识。


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.