统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

3
如何使用带有卡尔曼滤波的DLM进行预测
有人可以引导我看一个有关如何在时间序列上的R中使用DLM卡尔曼滤波的示例。假设我有一个这些值(季度值和年度季节性);您将如何使用DLM预测下一个值?顺便说一句,我是否有足够的历史数据(最小值是多少)? 89 2009Q1 82 2009Q2 89 2009Q3 131 2009Q4 97 2010Q1 94 2010Q2 101 2010Q3 151 2010Q4 100 2011Q1 ? 2011Q2 我正在寻找R代码食谱样式的逐步说明类型的答案。预测的准确性不是我的主要目标,即使我没有足够的数据,我只是想学习能为我提供2011年第二季度数字的代码序列。

1
离散参数使用什么MCMC算法/技术?
我知道很多有关拟合连续参数(尤其是基于梯度的方法)的知识,但对拟合离散参数的了解却很少。 拟合离散参数的常用MCMC算法/技术有哪些?是否有既通用又强大的算法?是否存在可以很好地处理维数诅咒的算法?例如,我会说汉密尔顿MCMC是通用的,功能强大的并且可扩展性很好。 从任意离散分布进行采样似乎比从连续分布进行采样更加困难,但是我很好奇目前的技术水平。 编辑:JMS要求我详细说明。 我没有特定的应用程序,但是我在想像一些模型: 几种连续回归模型之间的模型选择。您有一个离散的单个“模型”参数 连续模型,其中每个观测值都有可能成为“异常值”并从更加分散的分布中得出。我想这是一个混合模型。 我希望许多模型都包含连续参数和离散参数。
19 bayesian  mcmc 


4
R中具有自相关误差的简单线性模型
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 8个月前关闭。 如何在R中具有自相关误差的线性模型拟合?在stata中,我将使用prais命令,但找不到R等效项...

3
贝叶斯统计方法真的比行为统计的传统(频率)统计方法有所改进吗?
在参加会议时,贝叶斯统计的倡导者为评估实验结果做出了一些努力。它被吹捧为比真实的统计数据对真实的发现(更少的误报)更加敏感,适当和选择性更大。 我已经对该主题进行了一些探索,到目前为止,我对使用贝叶斯统计数据的好处深信不疑。但是,贝叶斯分析被用来驳斥达里尔·贝姆支持预知的研究,因此,我仍然对贝叶斯分析如何使我自己的研究受益会保持好奇。 因此,我对以下几点感到好奇: 贝叶斯分析与常客分析的力量 每种分析类型对1型错误的敏感性 分析复杂性(贝叶斯似乎更复杂)与收益之间的权衡。传统的统计分析非常简单,并具有完善的得出结论的指导原则。简单性可以看作是一种好处。那值得放弃吗? 感谢您的见解!

3
如何从
我想根据密度f (a )∝ c a d a − 1进行采样 F(一)α Ç一种da − 1Γ (a )1个(1 ,∞ )(一)F(一种)∝C一种d一种-1个Γ(一种)1个(1个,∞)(一种) f(a) \propto \frac{c^a d^{a-1}}{\Gamma(a)} 1_{(1,\infty)}(a) 其中CCc和ddd严格为正。(动机:当Gamma密度的形状参数具有一致的先验值时,这对于Gibbs采样很有用。) 有谁知道如何轻松地从这种密度采样?也许这是标准的,只是我不知道的事情? 我能想到一个笨排斥sampliing算法,将更多或更少的工作(找到模式的一种∗一种∗a^*的FFf,样品(a,u)(一种,ü)(a,u)从均匀在一个大的盒[0,10a∗]×[0,f(a∗)][0,10a∗]×[0,f(a∗)][0,10a^*]\times [0,f(a^*)]和拒绝如果u>f(a)u>f(a)u>f(a)),但(i)其是不是在所有有效的和(ii)f(a∗)f(a∗)f(a^*)对于中等大小的和d来说,对于计算机来说它太大了,难以处理。(请注意,大c和d的模式大约为a = c d。)cccdddcccddda=cda=cda=cd 在此先感谢您的帮助!

2
今天,“最近的邻居”何时有意义?
在1999年,Beyer等人。问, “最近的邻居”何时有意义? 自1999年以来,是否有更好的方法来分析和可视化距离平坦度对NN搜索的影响? [给定的]数据集是否可以为1-NN问题提供有意义的答案?10-NN问题?100-NN问题? 您的专家今天将如何处理这个问题? 1月24日星期一编辑: “距离变白”作为“随着尺寸增加的距离平坦度”的简称呢? 观察“距离泛白”的一种简单方法是运行2-NN,并绘制到最近邻居和第二近邻的距离。下图显示 了蒙特卡洛(Monte Carlo)对于一系列ncluster和尺寸的dist 1和dist 2。此示例显示了缩放的绝对差| dist 2 -dist 1 |的相当好的距离对比度。(相对差| dist 2 / dist 1 |→1作为维数→∞,因此变得毫无用处。) 在给定的上下文中应该使用绝对误差还是相对误差,当然取决于存在的“真实”噪声:困难。 建议:总是运行2-NN;2个邻居在靠近时很有用,在不靠近时有用。


1
解释2D对应分析图
我一直在广泛地搜索互联网...我还没有找到关于如何解释2D对应分析图的非常好的概述。有人可以提供一些建议来解释点之间的距离吗? 也许一个例子会有所帮助,这是我所见过的许多讨论对应分析的网站上的图表。红色三角形代表眼睛的颜色,黑色点代表头发的颜色。 查看上图,您能否对在这些数据中看到的内容做一些陈述。关于三角形和点之间的不同尺寸和关系的兴趣点? 行点对列点的解释,特别是在示例中使用单词“ profile”将很有帮助。

3
如何计算多个事件的条件概率?
您能告诉我,如何计算几个事件的条件概率? 例如: P(A | B,C,D)-? 我知道: P(A | B)= P(A B)/ P(B)∩∩\cap 但是,不幸的是,如果事件A依赖于多个变量,则找不到任何公式。提前致谢。

10
学习用于创建数据可视化的资源?
我对学习如何创建您在http://flowingdata.com上看到的可视化类型感兴趣,并且信息很漂亮。编辑:意思是,可视化本身很有趣-有点像《纽约时报》的图形,而不是快速的报表。 用于创建这些工具的工具有哪些-大多数是Adobe Illustrator / Photoshop吗?有什么好的资源(书籍,网站等)来学习如何使用这些工具进行数据可视化? 我知道什么我想可视化来的样子(我熟悉的设计原则,例如,从塔夫特的书),但我不知道如何来创建它们。

7
衡量模型复杂性
我们如何比较具有相同数量参数的两个模型的复杂性? 编辑09/19:为澄清起见,模型复杂度是衡量从有限数据中学习的难易程度的一种度量。当两个模型均能很好地拟合现有数据时,具有较低复杂度的模型将为将来的数据提供较低的误差。当使用近似值时,从技术上讲这可能并不总是正确的,但是如果在实践中倾向于正确的话就可以了。各种近似给出不同的复杂度度量

6
数据挖掘和统计分析之间有什么区别?
数据挖掘和统计分析之间有什么区别? 在某些背景下,我认为我的统计教育很传统。提出一个特定的问题,设计研究,并收集和分析数据以提供对该问题的一些见解。结果,我一直对我认为的“数据挖掘”持怀疑态度,即在大型数据集中寻找模式并使用这些模式得出结论。我倾向于将后者与数据挖掘相关联,并且一直认为这有点原则(以及诸如算法变量选择例程之类的东西)。 但是,关于数据挖掘的文献越来越多。通常,我看到这个标签指的是诸如聚类,基于树的分类等特定技术。但是,至少从我的角度来看,这些技术可以在一组数据上“设置为松散”或以结构化方式用于解决题。我将前者称为数据挖掘,而将后者称为统计分析。 我从事学术管理工作,被要求做一些“数据挖掘”以发现问题和机会。与我的背景相一致,我的第一个问题是:您想学习什么?您认为有助于事情发展的是什么?从他们的回答中可以明显看出,我和提出问题的人对数据挖掘的性质和价值有不同的看法。

6
机器学习用于估计参数的“基本”思想是什么?
用于估计参数的统计学的“基本”思想是最大可能性。我想知道机器学习中对应的想法是什么。 Qn 1.可以公平地说,机器学习中用于估计参数的“基本”思想是:“损失函数” [注:给我的印象是机器学习算法经常优化损失函数,因此会产生上述问题。] 问题2:是否有任何文献试图弥合统计学与机器学习之间的鸿沟? [注:也许,通过将损失函数与最大似然联系起来。(例如,OLS等于正态分布错误的最大可能性等)

4
魔术金钱树问题
我想到淋浴时会遇到这个问题,这是受投资策略启发的。 假设有一棵神奇的金钱树。每天,您都可以向货币树提供一定数量的货币,它将使货币树增加三倍,或者以50/50的概率销毁它。您会立即注意到,这样做平均可以使您赚钱,并且渴望利用金钱树。但是,如果您一次提供所有资金,那么您将损失50%的资金。不能接受!您是一个非常规避风险的人,因此您决定提出一项策略。您想最大程度地减少失去所有东西的几率,但同时也想赚到尽可能多的钱!您提出以下建议:每天,您将20%的当前资本提供给金钱树。假设您可以提供的最低价格是1美分,那么如果您以10美元开始,则需要31连胜损失所有资金。更重要的是,您赚取的现金越多,失去一切所需的连败时间就越长,太棒了!您迅速开始赚取大量现金。但是,随后一个想法浮现在脑海:您每天只能出价30%,赚更多的钱!但是,等等,为什么不提供35%?50%?有一天,当您眼中有大笔美元符号时,您将拥有数以百万计的资金流向金钱树,并提供您现金的100%,金钱树很快就会消耗掉。第二天,您在麦当劳工作。金钱树立即燃烧。第二天,您在麦当劳工作。金钱树立即燃烧。第二天,您在麦当劳工作。 是否可以提供不浪费全部现金的最佳百分比? (子)问题: 如果您要提供一个最佳百分比,这是静态的(即每天20%)还是随着您的资本增加而增加? 通过每天提供20%的资金,损失所有金钱的几率会随着时间的流逝而减少还是增加?随着时间的流逝,失去所有钱的几率会增加一定百分比的钱吗?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.