统计和大数据

3

我需要将URL分类。假设我有15个类别，我打算将每个URL归零。 15向分类器更好吗？我有15个标签，并为每个数据点生成特征。还是建立15个二元分类器，例如：电影或非电影，并使用从这些分类中获得的数字来构建等级，以选择最佳类别，从而变得更好？

18 machine-learning classification categorical-data svm feature-selection

1

线性回归系数的置信区间应基于正态分布还是

让我们有一些线性模型，例如简单的方差分析： # data generation set.seed(1.234) Ng <- c(41, 37, 42) data <- rnorm(sum(Ng), mean = rep(c(-1, 0, 1), Ng), sd = 1) fact <- as.factor(rep(LETTERS[1:3], Ng)) m1 = lm(data ~ 0 + fact) summary(m1) 结果如下： Call: lm(formula = data ~ 0 + fact) Residuals: Min 1Q Median 3Q Max -2.30047 …

18 r regression confidence-interval

1

多元正常后验

这是一个非常简单的问题，但我无法在互联网上或书中的任何地方找到推导。我想看到一个贝叶斯如何更新多元正态分布的推导。例如：想象一下 P(x|μ,Σ)P(μ)==N(μ,Σ)N(μ0,Σ0).P(x|μ,Σ)=N(μ,Σ)P(μ)=N(μ0,Σ0). \begin{array}{rcl} \mathbb{P}({\bf x}|{\bf μ},{\bf Σ}) & = & N({\bf \mu}, {\bf \Sigma}) \\ \mathbb{P}({\bf \mu}) &= & N({\bf \mu_0}, {\bf \Sigma_0})\,. \end{array} 观察一组x1...xnx1...xn{\bf x_1 ... x_n}，我想计算P(μ|x1...xn)P(μ|x1...xn)\mathbb{P}({\bf \mu | x_1 ... x_n})。我知道答案是P(μ|x1...xn)=N(μn,Σn)P(μ|x1...xn)=N(μn,Σn)\mathbb{P}({\bf \mu | x_1 ... x_n}) = N({\bf \mu_n}, {\bf \Sigma_n})其中 μnΣn==Σ0(Σ0+1nΣ)−1(1n∑i=1nxi)+1nΣ(Σ0+1nΣ)−1μ0Σ0(Σ0+1nΣ)−11nΣμn=Σ0(Σ0+1nΣ)−1(1n∑i=1nxi)+1nΣ(Σ0+1nΣ)−1μ0Σn=Σ0(Σ0+1nΣ)−11nΣ \begin{array}{rcl} \bf \mu_n &=& \displaystyle\Sigma_0 \left(\Sigma_0 …

18 bayesian normal-distribution matrix posterior linear-algebra

1

MLE与拟合概率分布中的最小二乘

根据我读过的几篇论文，书籍和文章，给我的印象是，将概率分布拟合到一组数据上的推荐方法是使用最大似然估计（MLE）。但是，作为物理学家，一种更直观的方法是仅使用最小二乘法将模型的pdf与数据的经验pdf拟合。那么为什么MLE在拟合概率分布上比最小二乘更好？有人可以指出我要回答该问题的科学论文/书吗？我的直觉是因为MLE没有假定噪声模型，而经验pdf中的“噪声”是异方差的，不是正常的。

18 distributions maximum-likelihood least-squares heteroscedasticity fitting

1

SVM的优缺点

谁能向我解释将SVM与其他分类器区分开的优缺点？

18 machine-learning svm

2

执行多类SVM的最佳方法

我知道SVM是二进制分类器。我想将其扩展到多类SVM。哪种方法是最好的，也许是最简单的？代码：在MATLAB中 u=unique(TrainLabel); N=length(u); if(N>2) itr=1; classes=0; while((classes~=1)&&(itr<=length(u))) c1=(TrainLabel==u(itr)); newClass=double(c1); tst = double((TestLabel == itr)); model = svmtrain(newClass, TrainVec, '-c 1 -g 0.00154'); [predict_label, accuracy, dec_values] = svmpredict(tst, TestVec, model); itr=itr+1; end itr=itr-1; end 如何改善呢？

18 machine-learning matlab svm multi-class

1

培生卡方检验的工作原理

经过最近的否决，我一直在尝试检查我对Pearson Chi Squared测试的理解。我通常使用卡方统计量（或减少的卡方统计量）来拟合或检查结果拟合。在这种情况下，方差通常不是表格或直方图中预期的计数数量，而是一些实验确定的方差。无论哪种方式，我始终给人一种印象，那就是该测试仍然使用多项式PDF的渐近正态性（即我的测试统计量为 Q=(n−Nm)⊤V−1(n−Nm)Q=(n−Nm)⊤V−1(n−Nm)Q = (n-Nm)^\top V^{-1}(n-Nm) 和是渐近multinormal其中是是协方差矩阵）。因此，对于给定的大，具有卡方分布，因此使用期望的计数数作为统计量中的分母对大变得有效。这可能仅适用于直方图，多年以来我都没有分析过一个小的数据表。(n−Nm)(n−Nm)(n-Nm)VVVQQQnnnnnn 我还有更微妙的论据吗？我将对参考感兴趣，或者最好是简短的解释。（尽管有可能我只是因为省略渐近这个词而被否决，但我承认这很重要。）

18 chi-squared histogram

2

如何从逻辑回归中解释系数？

我有以下概率函数：概率= 11 + e- ž概率=1个1个+Ë-ž\text{Prob} = \frac{1}{1 + e^{-z}} 哪里 ž= B0+ B1个X1个+ ⋯ + BñXñ。ž=乙0+乙1个X1个+⋯+乙ñXñ。z = B_0 + B_1X_1 + \dots + B_nX_n. 我的模特看起来像镨（ÿ= 1 ）= 11 + 经验（- [ - 3.92 + 0.014 × （性别）] ）镨（ÿ=1个）=1个1个+经验值⁡（-[-3.92+0.014×（性别）]）\Pr(Y=1) = \frac{1}{1 + \exp\left(-[-3.92 + 0.014\times(\text{gender})]\right)} 我知道拦截（3.92）的含义，但是现在我知道如何解释0.014。这些还是对数赔率，赔率比率，还是我现在可以断言，每增加一次赔率变化都是性别，女性获胜的可能性比男性高0.014。基本上，我该如何解释0.014？基本上，我想采用概率函数并针对要编写的特定程序在Java中实际实现，但是我不确定我是否正确理解了在Java中实现该函数的功能。 Java代码示例： double …

18 probability logistic logit

2

线性回归中是否存在偏差方差折衷的图形表示？

我正在停电。为我提供了以下图片，以展示线性回归背景下的偏差方差折衷：我可以看到，这两个模型都不是很好的拟合-“简单”不能理解XY关系的复杂性，而“复杂”只是过拟合，基本上是从心里学习训练数据。但是，我完全看不到这两张图片中的偏差和差异。有人可以告诉我吗？ PS：对偏差方差折衷的直观解释的答案？并没有真正帮助我，如果有人可以根据上述图片提供其他方法，我将感到非常高兴。

18 regression variance bias

2

为什么ridge回归分类器在文本分类中效果很好？

在进行文本分类的实验中，我发现了脊分类器生成的结果，这些结果一直领先于那些最常提及的分类器中的测试，这些分类器适用于文本挖掘任务，例如SVM，NB，kNN等。尽管我没有详细说明除了针对参数的一些简单调整外，还针对此特定文本分类任务优化了每个分类器。这样的结果也提到了迪克兰有袋动物。并非来自统计背景，在在线阅读了一些材料之后，我仍然无法弄清其主要原因。谁能提供一些有关这种结果的见解？

18 machine-learning classification text-mining ridge-regression

2

随机走动

考虑以下条件下从0开始的整数随机游动：第一步是具有相等概率的正负1。以后的每一步都是：60％可能与上一步相同，40％可能相反这会产生什么样的分布？我知道非动量随机游走会产生正态分布。动量会改变方差，还是完全改变分布的性质？我正在寻找一个通用的答案，所以在上面分别说60％和40％，我的意思是p和1-p

18 stochastic-processes randomness random-walk

4

狭窄的置信区间-更高的准确性？

关于置信区间，我有两个问题：显然，狭窄的置信区间意味着在该区间内获得观测值的机会较小，因此，我们的准确性更高。同样，95％置信区间比99％置信区间更窄。 99％置信区间比95％更准确。有人可以给出一个简单的解释，以帮助我理解准确度和狭窄度之间的区别吗？

18 confidence-interval

2

测试系数之间的显着差异的正确方法是什么？

我希望有人能帮我解决一些困惑。假设我要测试2组回归系数是否显着不同，并进行以下设置： yi=α+βxi+ϵiyi=α+βxi+ϵiy_i = \alpha + \beta x_i + \epsilon_i，具有5个独立变量。 2组，大小大致相等，（尽管可能有所不同）n1,n2n1,n2n_1, n_2 数以千计的相似回归将同时完成，因此必须进行某种形式的多重假设校正。向我建议的一种方法是使用Z检验： Z=b1−b2(√SEb21+SEb22)Z=b1−b2(SEb12+SEb22)Z = \frac{b_1 - b_2}{\sqrt(SEb_1^2 + SEb_2^2)} 我在该板上看到的另一个建议是引入一个虚拟变量进行分组并将模型重写为： yi=α+βxi+δ(xigi)+ϵiyi=α+βxi+δ(xigi)+ϵiy_i = \alpha + \beta x_i + \delta(x_ig_i) + \epsilon_i，其中ggg是分组变量，编码为0、1。我的问题是，这两种方法有何不同（例如做出不同的假设，灵活性）？一个比另一个合适吗？我怀疑这是非常基本的，但是任何澄清将不胜感激。

18 regression hypothesis-testing multiple-regression

2

描述负二项式分布变量之间差异的分布？

一个Skellam分布描述了具有泊松分布的两个变量之间的区别。是否存在类似的分布来描述遵循负二项式分布的变量之间的差异？我的数据是通过泊松过程生成的，但包含大量噪声，导致分布的过度分散。因此，使用负二项式（NB）分布对数据建模非常有效。如果要对这两个NB数据集之间的差异进行建模，我有哪些选择？如果有帮助，则假设两组的均值和方差相似。

18 distributions modeling poisson-distribution negative-binomial skellam

2

为什么卡方检验使用期望的计数作为方差？

在测试中，将期望计数的平方根用作每个正态分布的标准偏差（即期望计数作为方差）的基础是什么？我唯一可以找到的讨论这件事的唯一方法就是http://www.physics.csbsju.edu/stats/chi-square.html，它只提到了泊松分布。χ2χ2\chi^2 作为我的困惑的简单说明，如果我们测试两个过程是否存在显着差异，一个过程会产生500 As和500 Bs的极小方差，另一个过程会产生550 As和450 Bs的极小方差（很少产生551 As和449 Bs）？此处的差异不是仅是预期值吗？（我不是统计学家，所以要真正寻找非专家可以理解的答案。）

18 hypothesis-testing chi-squared