统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

1
有限校正因子的说明
我了解,当从有限总体中进行抽样并且我们的样本量大于总体的5%时,我们需要使用以下公式对样本的均值和标准误进行校正: FPC= N− nñ− 1----√FPC=N−nN−1\hspace{10mm} FPC=\sqrt{\frac{N-n}{N-1}} 其中是总体数量,是样本数量。ññNNñnn 我对此公式有3个问题: 为什么将阈值设置为5%? 公式是如何得出的? 是否有全面的解释,除了这个公式其他在线资源,这个文件?



3
与Kullback-Leibler散度相比,Wasserstein度量标准有什么优势?
Wasserstein度量和Kullback-Leibler散度之间的实际区别是什么?Wasserstein度量标准也称为推土机距离。 从维基百科: Wasserstein(或Vaserstein)度量是在给定度量空间M上的概率分布之间定义的距离函数。 和 Kullback-Leibler散度是一种概率分布与第二个预期概率分布之间的差异的度量。 我已经看到KL被用于机器学习实现中,但是最近我遇到了Wasserstein指标。关于何时使用一种或另一种有很好的指南吗? (我的信誉不足,无法使用Wasserstein或创建新标签Earth mover's distance。)

2
分位数回归如何“起作用”?
我希望获得分位数回归的直观,易于理解的解释。 假设我有一个简单的结果数据集YYY,以及预测变量。X1,X2X1,X2X_1, X_2 例如,如果我在.25,.5,.75处进行分位数回归,并返回。β0,.25,β1,.25...β2,.75β0,.25,β1,.25...β2,.75\beta_{0,.25},\beta_{1,.25}...\beta_{2,.75} 是ββ\beta可以通过简单地对值进行排序并根据给定分位数附近的示例执行线性回归来找到值?yyy 还是所有样本都随着距离分位数的距离增加而权重下降而对估计有所贡献?ββ\beta 还是完全不同?我尚未找到易于理解的解释。

1
在lme中指定多个(单独的)随机效果[关闭]
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 6个月前关闭。 我正在使用R软件包nlme和lme4进行工作,试图指定具有多个随机效果的模型。我发现,只有nlme允许指定方差的异质结构。因此,我得到一个模型,其中温度(Y)取决于时间(以小时为单位),截距随日期和年份而变化,方差也随年份而变化: fit1 <- lme(Y ~ time, random=~1|year/date, data=X, weights=varIdent(form=~1|year)) 但是,如果我需要添加另一个随机项(时间随日期变化),并指定模型,如下所示: fit2 <- lme(Y ~ time, random=list(~1|year, ~time-1|date, ~1|date), data=X, weights=varIdent(form=~1|year)) 随机效果相互嵌套:日期,年份;然后以日期和年份为日期。 我也试过 one <- rep(1, length(Y)) fit3 <- lme(Y ~ time, random=list(one=pdBlocked(list(pdSymm(~1|year/date), pdSymm(~time-1|year)))), data=X, weights=varIdent(form=~1|year)) 但它给出了一个错误: Error in pdConstruct.pdBlocked(object, form = form, nam = nam, data …

3
用分类变量解释logit回归中的交互项
我从一项调查实验获得的数据中,将受访者随机分配到以下四个组之一: > summary(df$Group) Control Treatment1 Treatment2 Treatment3 59 63 62 66 尽管三个治疗组在施加的刺激方面确实略有不同,但我关心的主要区别是对照组和治疗组之间。所以我定义了一个虚拟变量Control: > summary(df$Control) TRUE FALSE 59 191 在调查中,受访者(除其他外)被要求选择他们偏好的两件事中的哪一项: > summary(df$Prefer) A B NA's 152 93 5 然后,在接受治疗组确定的刺激(如果不在对照组中则没有刺激)后,要求受访者在相同的两件事之间进行选择: > summary(df$Choice) A B 149 101 我想知道三个治疗组之一的存在是否对受访者在最后一个问题中做出的选择有影响。我的假设是,接受治疗的受访者比接受治疗的可能性A更大B。 鉴于我正在使用分类数据,因此我决定使用logit回归(如果您认为这是不正确的,请随时鸣叫)。由于受访者是随机分配的,我的印象是我不一定需要控制其他变量(例如,人口统计学),因此我将那些变量留给了这个问题。我的第一个模型如下: > x0 <- glm(Product ~ Control + Prefer, data=df, family=binomial(link="logit")) > summary(x0) Call: glm(formula …

5
因果分析简介
什么是介绍因果分析的好书?我正在考虑一个介绍,它既可以解释因果分析的原理,又可以说明如何使用不同的统计方法来应用这些原理。

3
多标签数据准确性的衡量标准是什么?
考虑一个为您提供KnownLabel矩阵和PredictedLabel矩阵的方案。我想相对于KnownLabel矩阵来衡量PredictedLabel矩阵的优势。 但是这里的挑战是,KnownLabel矩阵只有几行只有一个1,而其他几行却有很多1(这些实例被多重标记)。下面给出了KnownLabel矩阵的示例。 A =[1 0 0 0 0 1 0 0 0 1 1 0 0 0 1 1 0 1 1 1] 在上面的矩阵中,数据实例1和2是单个标签数据,数据实例3和4是两个标签数据,数据实例5是三个标签数据。 现在,我已经使用算法对数据实例的PredictedLabel矩阵进行了处理。 我想知道各种可用于衡量PredictedLabel矩阵相对于KnownLabel矩阵的良好性的度量。 我可以将它们之间的frobeinus规范差异视为衡量标准之一。但是我正在寻找诸如准确性(=Correctly_predicted_instancetotal_instance)(=Correctly_predicted_instancetotal_instance)(= \frac{\text{Correctly_predicted_instance}}{\text{total_instance}}) 在这里,我们如何为多个数据实例定义?Correctly_predictedCorrectly_predicted\rm Correctly\_predicted

5
每个聚类具有相同数量点的聚类过程?
我在有一些点,并且我想将这些点聚类,以便:X={x1,...,xn}X={x1,...,xn}X=\{x_1,...,x_n\}RpRpR^p 每个簇包含相等数量的元素。(假设簇数除以。)XXXnnn 每个聚类在某种意义上都是“空间内聚的”,就像来自均值的聚类一样。kķk 很容易想到很多满足其中一个或另一个要求的聚类过程,但是没有人知道同时获得两者的方法吗?


2
如果观察值重复,为什么样本方差会发生变化?
差异被认为是价差的量度。因此,我曾认为由于数字均等分布,所以方差3,5等于的方差3,3,5,5。但是情况并非如此,的方差为3,5,2而的方差3,3,5,5为1 1/3。 鉴于解释说方差应该被用来衡量价差,这令我感到困惑。 那么,在这种情况下,价差的度量是什么意思?
25 variance 

2
支持向量回归如何直观地工作?
SVM的所有示例均与分类有关。我不了解如何在回归中使用用于回归的SVM(支持向量回归)。 根据我的理解,SVM可以最大化两个类之间的余量,以找到最佳的超平面。这将如何解决回归问题?
25 regression  svm 


4
过采样,欠采样和SMOTE可以解决什么问题?
在最近一个广为接受的问题中,Tim问不平衡的数据何时真正成为机器学习中的问题?问题的前提是,有很多机器学习文献讨论班级平衡和班级不平衡的问题。这个想法是,正负类之间不平衡的数据集会导致某些机器学习分类(这里包括概率模型)算法出现问题,应该寻求方法来“平衡”数据集,以恢复完美的50/50在正面和负面类别之间进行划分。 赞成的答案的一般含义是“不是,至少如果您在建模时考虑周全”。M. Henry L.在对已接受答案的投票中说: [...]使用不平衡数据没有低级问题。以我的经验,“避免不平衡数据”的建议要么是特定于算法的,要么是继承的智慧。我同意AdamO的观点,即通常来说,不平衡的数据不会对特定模型造成任何概念上的问题。 AdamO认为阶级平衡的“问题”确实是阶级稀有性之一 因此,至少在回归分析中(但我怀疑在所有情况下),数据不平衡的唯一问题是有效地减少了样本量。如果有任何一种方法适合于稀有阶层的人数,那么他们的比例成员不平衡就不会有问题。 如果这确实是一个真正的问题,那么将有一个悬而未决的问题:所有旨在平衡数据集的重采样方法的目的是什么:过采样,欠采样,SMOTE等? 显然,它们不能解决隐含样本量较小的问题,您不能一无所有地创建信息!

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.