统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

5
违反线性回归的同调假设的危险是什么?
例如,考虑ChickWeightR中的数据集。方差明显随时间增长,因此,如果我使用简单的线性回归,例如: m <- lm(weight ~ Time*Diet, data=ChickWeight) 我的问题: 该模型的哪些方面值得怀疑? 问题是否仅限于在Time范围外推断? 线性回归对这种假设的违反有多大的容忍度(即必须引起异方差才能引起问题)?

3
如果您的随机样本显然没有代表性怎么办?
如果您随机抽取一个样本并且可以看到它显然不具有代表性,那会是怎么回事,就像最近的问题一样。例如,如果假设人口分布在0附近是对称的,而您随机抽取的样本具有不平衡的正负观测值,并且不平衡在统计上是显着的,那又会如何呢?您可以根据有偏见的样本对总体做出哪些合理的表述?在这种情况下,什么是合理的行动方针?在我们的研究中何时注意到这种不平衡情况是否重要?

1
Google Prediction API的背后是什么?
Google Prediction API是一项云服务,用户可以提交一些训练数据来训练一些神秘的分类器,然后再要求它对传入的数据进行分类,例如实施垃圾邮件过滤器或预测用户的偏好。 但是幕后是什么?

3
MCMC算法中的错误示例
我正在研究一种自动检查Markov链蒙特卡洛方法的方法,并且我想举一些在构造或实现此类算法时可能发生的错误的示例。如果发表的论文使用了错误的方法,则加分。 我对错误表示链具有不正确的不变分布的情况特别感兴趣,尽管也会考虑其他类型的错误(例如链不是遍历)。 当Metropolis-Hastings拒绝提议的举动时,此类错误的示例将无法输出值。
28 mcmc 

6
什么是一些有趣且写得很好的应用统计论文?
有哪些好的论文描述了统计学的应用,它们既有趣又有益于阅读?需要明确的是,我并不是真正在寻找描述新的统计方法的论文(例如,关于最小角度回归的论文),而是寻找描述如何解决实际问题的论文。 例如,第二本“交叉验证期刊俱乐部”(Cross-Validated Journal Club)的气候论文就是其中一件适合我所寻找的论文。我正在寻找更多类似于统计的论文,而不是机器学习论文,但我想这是一种模糊的区分(我将Netflix奖论文归类为临界点,而将情感分析论文归为某种东西。我不在寻找)。 我之所以问是因为,我所见过的大多数统计应用要么是您在教科书中看到的小片段,要么是与我自己的作品有关的东西,所以我想扩展一下。

4
两个协方差矩阵之间的相似性或距离的度量
两个对称协方差矩阵(都具有相同的维数)之间是否有相似度或距离的度量? 我在这里考虑的是两个概率分布的KL散度的类比或矢量之间的欧几里得距离,除了适用于矩阵。我想会有很多相似性度量。 理想情况下,我还要检验两个协方差矩阵相同的零假设。

3
谁可以跟随github来学习数据分析的最佳实践?
研究专家的数据分析代码是有帮助的。我最近一直在仔细阅读github,那里有很多人共享数据分析代码。这包括一些R软件包(当然可以直接从CRAN获得),还包括一些可重现的研究示例,尤其是使用R时(请参见github上的R列表)。 谁是可以跟随github来学习数据分析最佳实践的好人? (可选)它们共享哪种代码,为什么有用?

4
GLM的伪R平方公式
我在《用R扩展线性模型》一书朱利安·J·法拉维(第59页)中找到了伪的公式。[R2[R2R^2 1 - ResidualDeviance空距离1个-残差空距离1-\frac{\text{ResidualDeviance}}{\text{NullDeviance}}。 这是GLM的伪的通用公式吗?[R2[R2R^2

7
如何基于任意离散分布生成数字?
如何基于任意离散分布生成数字? 例如,我有一组要生成的数字。假设它们从1-3标记如下。 1:4%,2:50%,3:46% 基本上,百分比是它们将出现在随机数生成器的输出中的概率。我有一个伪随机数生成器,它将在间隔[0,1]中生成均匀分布。有什么办法吗? 我可以拥有多少个元素没有限制,但是%总计为100%。


5
测量两个多元分布之间的“距离”
我正在寻找一些好的术语来描述我正在尝试做的事情,以使查找资源变得更加容易。 因此,假设我有两个点A和B的群集,每个群集与两个值X和Y相关联,并且我想测量A和B之间的“距离”,即从同一分布中对它们进行采样的可能性有多大(我可以假设分布是正态的)。例如,如果X和Y在A中相关,而在B中不相关,则分布是不同的。 凭直觉,我将得到A的协方差矩阵,然后看一下B中每个点适合在那里的可能性,反之亦然(可能使用马氏距离之类的方法)。 但这有点“临时”,可能有一种更为严格的描述方式(当然,在实践中,我有两个以上的数据集和两个以上的变量-我正在尝试确定我的哪个数据集是离群值)。 谢谢!


3
认真研究R的时间序列
如果回想一下,可以追溯到首次进行时间序列分析的时间。您希望了解哪些工具,R软件包和Internet资源? 我想问的是,应该从哪里开始?具体来说,对于R的时间序列分析“新手”来说,R是否有任何资源可以真正解决它。
28 r  time-series 

1
从lmer模型计算效果的可重复性
我刚刚碰到了这篇论文,该论文描述了如何通过混合效应建模来计算测量的可重复性(又称可靠性,又称类内相关性)。R代码为: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

3
R中是否有用于离散均匀分布的默认函数?
R中的大多数标准发行版都有一系列命令-pdf / pmf,cdf / cmf,分位数,随机偏差(例如dnorm,pnorm,qnorm,rnorm)。 我知道使用一些标准命令来为离散均匀分布再现这些函数很容易,但是我是否已经意识到我不知道的用于内置建模R中离散均匀分布的首选函数家族?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.