统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

6
Logistic回归和感知器之间有什么区别?
我经历安德鲁Ng的讲课笔记机器学习。 这些注释向我们介绍了逻辑回归,然后介绍了感知器。注释在描述Perceptron时说,我们只是更改了用于逻辑回归的阈值函数的定义。之后,我们可以使用Perceptron模型进行分类。 所以我的问题是-如果需要指定此参数,并且我们将Perceptron视为一种分类技术,那么逻辑回归到底是什么?是仅用于获取数据点属于其中一个类别的概率吗?



5
单个研究人员应如何考虑错误发现率?
我一直在努力探索错误发现率(FDR)应该如何告知个别研究人员的结论。例如,如果您的研究动力不足,即使在结果显着,您是否应该打折呢?注意:我在谈论FDR时是在综合检查多项研究结果的背景下,而不是将其作为多项测试校正的方法。α=.05α=.05\alpha = .05 使(也许大方)假设测试的假设实际上是真,FDR是两种类型的函数I和II型错误率如下:∼.5∼.5\sim.5 FDR=αα+1−β.FDR=αα+1−β.\text{FDR} = \frac{\alpha}{\alpha+1-\beta}. 有理由认为,如果一项研究的能力不足,那么即使结果显着,我们也不应像进行充分研究的结果那样相信结果。因此,正如某些统计学家所说,在某些情况下,“长远来看”,如果遵循传统准则,我们可能会发布许多错误的重要结果。如果一项研究的特点是始终缺乏足够的研究能力(例如,前十年的候选基因环境相互作用文献),那么甚至有重复的重大发现也可能是可疑的。××\times 应用R包extrafont,ggplot2和xkcd,我认为这可能会有用地概念化为一个透视问题: 有了这些信息,研究人员下一步应该做什么?如果我猜测我正在研究的效应的大小(因此,鉴于我的样本量,则估计为),我是否应该调整我的α水平直到FDR = .05?即使我的研究能力不足,我是否应该以α = .05的水平发布结果,并将FDR的考虑留给文献消费者?1−β1−β1 - \betaαα\alphaα=.05α=.05\alpha = .05 我知道这是一个在本网站和统计文献中都经常讨论的话题,但是我似乎无法就此问题达成共识。 编辑:响应@amoeba的评论,FDR可以从标准的I型/ II型错误率偶发表中得出(请避免其丑陋): | |Finding is significant |Finding is insignificant | |:---------------------------|:----------------------|:------------------------| |Finding is false in reality |alpha |1 - alpha | |Finding is true in reality |1 - beta |beta | …

3
为什么不报告引导分布的平均值?
当一个自举参数获取标准误差时,我们得到该参数的分布。为什么我们不使用该分布的均值作为我们试图获取的参数的结果或估计呢?分布不应该近似真实分布吗?因此,我们将对“真实”价值有一个很好的估计吗?但是,我们报告了从样本中获得的原始参数。这是为什么? 谢谢

3
是否为LASSO重新调整指标/二进制/虚拟预测值
对于LASSO(和其他模型选择程序),重新调整预测变量至关重要。我遵循的一般 建议 是对连续变量使用0均值,1标准差归一化。但是假人有什么关系呢? 例如,来自同一所(优秀)暑期学校的一些应用示例,我将其连续变量的比例调整为0到1(尽管离群值并不大),可能与假人相当。但是,即使那样也不能保证系数应该在相同的数量级上,并因此受到类似的惩罚,这是重新缩放的主要原因,不是吗?


3
其方差膨胀因子I应该是使用:
我正在尝试使用vifR包中的函数解释方差膨胀因子car。该函数既打印广义并且还GVIF 1 /(2 ⋅ DF )。根据帮助文件,这后一个值VIFVIF\text{VIF}GVIF1/(2⋅df)GVIF1/(2⋅df)\text{GVIF}^{1/(2\cdot\text{df})} 为了调整置信椭圆的尺寸,该函数还会打印GVIF ^ [1 /(2 * df)],其中df是与该项相关的自由度。 我不明白这个解释在帮助文件的意思,所以我不知道我是否应该使用或GVIF 1 /(2 ⋅ DF )。对于我的模型这两个值有很大的不同(最大GVIF为〜60 ;最大GVIF 1 /(2 ⋅ DF )为〜3)。GVIFGVIF\text{GVIF}GVIF1/(2⋅df)GVIF1/(2⋅df)\text{GVIF}^{1/(2\cdot\text{df})}GVIFGVIF\text{GVIF}606060GVIF1/(2⋅df)GVIF1/(2⋅df)\text{GVIF}^{1/(2\cdot\text{df})}333 有人可以向我解释我应该使用哪一个,调整置信椭球的尺寸意味着什么?

5
如何在协同过滤中使用SVD?
我对在协作过滤中使用SVD感到有些困惑。假设我有一个社交图,并且从边缘构建了一个邻接矩阵,然后使用SVD(让我们忘记正则化,学习率,稀疏性优化等),如何使用此SVD来改进我的建议? 假设我的社交图对应于instagram,而我的任务是仅基于社交图来推荐服务中的用户。我首先要建立一个邻接矩阵,取SVD,,选择前特征值,然后呢?AA\mathbf A (m×m)(m×m)(m\times m)A=UsVA=UsV\mathbf A = \mathbf{U s V}kkk 我大概会创建一组新的矩阵: 那么该怎么办?UnewsnewVnew∼m×k∼k×k∼k×mUnew∼m×ksnew∼k×kVnew∼k×m\begin{align} \mathbf U_{new} &\sim m\times k \\ \mathbf s_{new} &\sim k\times k \\ \mathbf V_{new} &\sim k\times m \end{align} 我在网上浏览过,大多数链接都专注于计算SVD,但是没有人告诉您如何使用它。所以我该怎么做?



4
McNemar检验和卡方检验有什么区别,您如何知道何时使用它们?
我尝试阅读不同的资料,但仍不清楚哪种测试适合我的情况。关于数据集,我要问三个不同的问题: 在不同的时间测试受试者的X感染。我想知道X之后的X的正比例与X之前的X的正比例是否相关: After |no |yes| Before|No |1157|35 | |Yes |220 |13 | results of chi-squared test: Chi^2 = 4.183 d.f. = 1 p = 0.04082 results of McNemar's test: Chi^2 = 134.2 d.f. = 1 p = 4.901e-31 根据我的理解,由于数据是重复测量的,所以我必须使用麦克尼马尔检验,该检验用于检验X的正数比例是否已更改。 但是我的问题似乎需要卡方检验-测试X之后的阳性比例是否与X之前的阳性比例相关。 我什至不确定我是否正确理解了麦克尼马尔检验与卡方检验之间的区别。如果我的问题是:“与以前不同的X感染对象的比例是多少?”将是正确的检验方法? 类似的情况,但我在某个时间点测量了两种不同的感染,而不是之前和之后: Y |no |yes| X|No |1157|35 | |Yes |220 …

5
如何得出多元线性回归的最小二乘估计?
在简单线性回归的情况下,您可以得出最小二乘估计量这样您就不必知道即可估算β 1 = Σ (X 我 - ˉ X)(Ý 我 - ˉ ÿ)y=β0+β1xy=β0+β1xy=\beta_0+\beta_1xβ 0 β 1β^1=∑(xi−x¯)(yi−y¯)∑(xi−x¯)2β^1=∑(xi−x¯)(yi−y¯)∑(xi−x¯)2\hat\beta_1=\frac{\sum(x_i-\bar x)(y_i-\bar y)}{\sum(x_i-\bar x)^2}β^0β^0\hat\beta_0β^1β^1\hat\beta_1 假设我有,我怎么得到而不估计\帽子\ beta_2?还是不可能?β 1 β 2y=β1x1+β2x2y=β1x1+β2x2y=\beta_1x_1+\beta_2x_2β^1β^1\hat\beta_1β^2β^2\hat\beta_2

5
GBM中的交互深度是什么意思?
我对R中gbm中的交互深度参数有一个疑问。这可能是一个菜鸟问题,对此我深表歉意,但是我认为该参数表示树中终端节点的数量基本上是X方向的,预测变量之间的相互作用?只是想了解它是如何工作的。另外,如果我有一个数据集,其中包含两个不同的因子变量,而同一个数据集,则我得到的模型就完全不同了,除了将这两个因子变量合并为一个因子(例如,因子1中的X级别,因子2中的Y级别,合并变量具有X * Y因子)。后者比前者更具预测性。我曾以为,增加互动深度会促进这种关系。

2
术语“饱和非线性”是什么意思?
我正在阅读具有深度卷积神经网络的ImageNet分类论文,在第3节中,他们解释了卷积神经网络的体系结构,并解释了如何使用以下方法: 非饱和非线性f(x)=max(0,x).f(x)=max(0,x)。f(x) = max(0, x). 因为训练起来更快。在那篇论文中,他们似乎将饱和非线性称为CNN中使用的更传统的函数,S形和双曲正切函数(即F(X )= 吨一个Ñ ħ (X )F(X)=Ť一种ñH(X)f(x) = tanh(x)和F(x )= 11 + e− x= (1 + e− x)− 1F(X)=1个1个+Ë-X=(1个+Ë-X)-1个f(x) = \frac{1}{1 + e^{-x}} = (1 + e^{-x})^{-1}为饱和)。 他们为什么将这些功能称为“饱和”或“非饱和”?这些功能在什么意义上是“饱和”或“非饱和”的?这些术语在卷积神经网络的背景下意味着什么?它们是否用于其他机器学习(和统计)领域?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.