统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答


2
两个单变量高斯之间的KL散度
我需要确定两个高斯之间的KL散度。我正在将我的结果与这些结果进行比较,但是我无法复制它们的结果。我的结果显然是错误的,因为KL(p,p)的KL不为0。 我想知道我在哪里做错了,问是否有人可以发现它。 令和。从Bishop的PRML我知道p(x)=N(μ1,σ1)p(x)=N(μ1,σ1)p(x) = N(\mu_1, \sigma_1)q(x)=N(μ2,σ2)q(x)=N(μ2,σ2)q(x) = N(\mu_2, \sigma_2) KL(p,q)=−∫p(x)logq(x)dx+∫p(x)logp(x)dxKL(p,q)=−∫p(x)log⁡q(x)dx+∫p(x)log⁡p(x)dxKL(p, q) = - \int p(x) \log q(x) dx + \int p(x) \log p(x) dx 在所有实线上完成集成的地方 ∫p(x)logp(x)dx=−12(1+log2πσ21),∫p(x)log⁡p(x)dx=−12(1+log⁡2πσ12),\int p(x) \log p(x) dx = -\frac{1}{2} (1 + \log 2 \pi \sigma_1^2), 所以我将自己限制为,我可以写成∫p(x)logq(x)dx∫p(x)log⁡q(x)dx\int p(x) \log q(x) dx −∫p(x)log1(2πσ22)(1/2)e−(x−μ2)22σ22dx,−∫p(x)log⁡1(2πσ22)(1/2)e−(x−μ2)22σ22dx,-\int p(x) \log \frac{1}{(2 \pi \sigma_2^2)^{(1/2)}} e^{-\frac{(x-\mu_2)^2}{2 …

9
一个现实生活中未来事件的可能性:当他们说“希拉里有75%的获胜机会”时,这意味着什么?
由于选举是一次性事件,因此不能重复进行实验。那么“希拉里(Hillary)有75%的获胜机会”这一说法在技术上到底意味着什么?我正在寻找一种统计上正确的定义,而不是一种直观或概念上的定义。 我是一位业余统计爱好者,他试图回答讨论中提出的这个问题。我很确定对此有一个很好的客观回应,但我本人无法提出。

7
Judea Pearl撰写的《为什么》一书:他为何抨击统计数据?
我正在阅读Judea Pearl撰写的《为什么之书》,它正深入我的皮肤1。具体地说,在我看来,他通过提出一个稻草人的论点来无条件地抨击“古典”统计数据,即统计数据永远不会,永远无法研究因果关系,它永远不会对因果关系感兴趣,并且统计数据已成为一种模型盲数据缩减企业”。统计在他的书中成了丑陋的一句话。 例如: 统计人员对于应该控制和不应该控制哪些变量感到非常困惑,因此默认做法是控制所有可以测量的变量。[...]这是一个方便,简单的过程,但是它既浪费,又充满错误。因果革命的一项关键成就就是消除这种混乱。 同时,统计学家从根本不愿谈论因果关系的意义上大大低估了控制权。[...] 但是,因果模型一直以来都是统计数据。我的意思是,一个回归模型可以基本上被使用的因果模型,因为我们基本上假设一个变量是原因,另一个是效果(因此相关性是从回归建模不同的方法),并测试该因果关系是否解释了观察到的模式。 另一句话: 尤其难怪统计学家发现这个难题[蒙蒂·霍尔问题]很难理解。正如RA Fisher(1922)所说,他们习惯于“减少数据”,而忽略了数据生成过程。 这让我想起了安德鲁·盖尔曼(Andrew Gelman)写给著名的xkcd卡通有关贝叶斯和常客的回答:“不过,我认为该卡通整体上是不公平的,因为它将明智的贝叶斯人与常客统计学家相比,后者盲目地遵循浅薄的教科书的建议。 ”。 我认为,在Judea Pearls一书中存在的s词的错误陈述的数量使我怀疑是否因果推论(迄今为止,我认为这是组织和检验科学假设2的有用且有趣的方式)是否值得怀疑。 问题:您是否认为Judea Pearl歪曲了统计数据,如果是,为什么?只是为了使因果推理听起来比实际更大?您是否认为因果推论是一场R大的革命,它确实改变了我们的所有思维? 编辑: 上面的问题是我的主要问题,但是,由于它们是公认的,因此请回答以下具体问题(1)“因果革命”的含义是什么?(2)它与“正统”统计有何不同? 也因为他是如此谦虚。 2.我的意思是科学而非统计意义。 编辑:安德鲁·盖尔曼(Andrew Gelman)在《犹太珍珠》(Judea Pearls)的书上写了这篇博客文章,我认为他在解释这本书的问题上比我做得更好。这是两个引号: Pearl和Mackenzie在这本书的第66页上写道,统计数据“成为了模型盲的数据约简企业。”嘿!你他妈在说什么??我是统计学家,从事统计工作已有30年,从事从政治到毒理学的研究。“模型盲数据缩减”?那只是胡扯。我们一直在使用模型。 还有一个: Look. I know about the pluralist’s dilemma. On one hand, Pearl believes that his methods are better than everything that came before. Fine. For him, …
79 causality 

8
计算直方图中的最佳bin数量
我有兴趣寻找一种尽可能最佳的方法来确定直方图中应使用的箱数。我的数据最多应包含30到350个对象,并且特别是我尝试应用阈值处理(例如Otsu的方法),在该阈值中,我应减少并应分散的“好”对象与“不良”的物品,其价值应更高。每个对象的具体值得分为1-10。我有5-10个对象,得分6-10,以及20-25个对象,得分1-4。我想找到一个直方图合并模式,该模式通常允许使用Otsu的方法来限制低得分对象。但是,在我看到的Otsu的实现中,bin大小为256,通常我的数据点比256小得多,对我来说,这表明256不是一个很好的bin数。在数据很少的情况下,我应该采用什么方法来计算要使用的垃圾箱数量?

5
非策略学习和基于策略学习之间有什么区别?
人工智能网站对非政策性学习和政策性学习的定义如下: “非策略学习者独立于代理的行为而学习最优策略的价值。Q学习是非策略学习者。非策略学习者学习由代理执行的策略的价值,包括探索步骤。” 我想请您澄清一下,因为它们似乎对我没有任何影响。两种定义似乎都相同。我真正了解的是无模型和基于模型的学习,我不知道他们是否与所讨论的问题有任何关系。 如何独立于代理的行为来学习最佳策略?代理执行动作时不是学习策略吗?


6
如何判断数据是否足够“聚类”以使聚类算法产生有意义的结果?
您怎么知道您的(高维)数据是否表现出足够的聚类,以便kmeans或其他聚类算法的结果实际上有意义? 特别是对于k均值算法,对于实际的聚类结果有意义(而不是虚假的),应该减少集群内方差多少? 当绘制数据的降维形式时,聚类是否应该明显,而如果无法可视化聚类,则kmeans(或其他方法)的结果是否没有意义?

5
如何手动计算曲线下面积(AUC)或c统计量
我对手工计算二进制逻辑回归模型的曲线下面积(AUC)或c统计量感兴趣。 例如,在验证数据集中,我具有因变量的真实值(保留(1 =保留; 0 =不保留)),以及通过使用以下模型进行回归分析而生成的每个观察值的预测保留状态:使用训练集构建(范围从0到1)。 我最初的想法是确定模型分类的“正确”数目,然后将“正确”观察数除以总观察数即可计算出c统计量。通过“正确”,如果观察的真实保留状态= 1且预测的保留状态> 0.5,则为“正确”分类。另外,如果观察值的真实保留状态= 0并且预测的保留状态<0.5,则这也是“正确”的分类。我假设当预测值= 0.5时会出现“领带”,但在我的验证数据集中不会出现这种现象。另一方面,“不正确”分类将是观察的真实保留状态= 1且预测的保留状态<0。5或结果的真实保留状态= 0且预测的保留状态> 0.5。我知道TP,FP,FN,TN,但不知道在给定此信息的情况下如何计算c统计量。

7
分解一个连续的预测变量有什么好处?
我想知道在模型中使用它之前,取一个连续的预测变量并将其分解(例如分解为五分位数)的价值是什么。 在我看来,通过对变量进行分类,我们会丢失信息。 这样是否可以为非线性效应建模? 如果我们保持变量连续并且不是真正的线性关系,我们是否需要提出某种曲线以最适合数据?


3
示例:使用glmnet获得二进制结果的LASSO回归
我开始与使用的涉猎glmnet与LASSO回归那里我感兴趣的结果是二分。我在下面创建了一个小的模拟数据框: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

3
如何生成k均值聚类分析结果的漂亮图?
我正在使用R进行K均值聚类。我正在使用14个变量来运行K均值 有什么漂亮的方法可以绘制K均值的结果? 是否有任何现有的实现? 具有14个变量会使绘制结果复杂吗? 我发现了一个叫做GGcluster的东西,它看上去很酷,但仍在开发中。我也阅读了一些有关sammon映射的内容,但并不太了解。这将是个好选择吗?

3
R何时平方负数?
我的理解是不能为负,因为它是R的平方。但是,我在SPSS中运行了具有单个自变量和因变量的简单线性回归。我的SPSS输出给我R 2的负值。如果我要根据R手动计算,则R 2将为正。SPSS做了什么将其计算为负值?R2R2R^2R2R2R^2R2R2R^2 R=-.395 R squared =-.156 B (un-standardized)=-1261.611 我使用的代码: DATASET ACTIVATE DataSet1. REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT valueP /METHOD=ENTER ageP 我得到负值。谁能解释这意味着什么?


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.