统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

2
在多问题考试中检测作弊方式
题: 我有关于考试题的二进制数据(正确/不正确)。一些人可能事先有问题的一部分和正确答案。我不知道是谁,多少或哪个。如果没有作弊,则假设我将对项目做出正确响应的概率建模为,其中代表问题难度,是个人的潜在能力。这是一个非常简单的项目响应模型,可以使用R中ltm的rasch()之类的函数进行估算。除了潜在变量的(其中索引个体)之外,我还可以访问单独的估算值\ hat {q} _j升ø 克我吨((p 我 = 1 | Ž ))= β 我 + ž β 我 Ž Ž Ĵ Ĵ q Ĵ一世一世i升Ø克我吨((p一世= 1 |ž))= β一世+ z升ØG一世Ť((p一世=1个|ž))=β一世+žlogit((p_i = 1 | z)) = \beta_i + zβ一世β一世\beta_ižžzž^Ĵž^Ĵ\hat{z}_jĴĴjq^Ĵq^Ĵ\hat{q}_j 相同潜变量的变量,这些变量是从另一个不可能作弊的数据集中得出的。 目的是确定可能被欺骗的个人及其被欺骗的物品。您可能会采取哪些方法?除了原始数据之外,β^一世β^一世\hat{\beta}_i,ž^Ĵž^Ĵ\hat{z}_j和q^Ĵq^Ĵ\hat{q}_j都可用,尽管前两个由于作弊会有所偏差。理想情况下,解决方案将采用概率聚类/分类的形式,尽管这不是必需的。实践思想和形式方法都受到高度欢迎。 到目前为止,我已经比较了q^Ĵ- ž^Ĵq^Ĵ-ž^Ĵ\hat{q}_j -\hat{z}_j 分数较高或较低的成对个体的问题分数的相关性(其中q^Ĵ- ž^Ĵq^Ĵ-ž^Ĵ\hat{q}_j - \hat{z}_j 为他们被骗的可能性的粗略指标)。例如,我用\ hat {q} _j-\ hat …

3
铰链损失的梯度
我正在尝试实现基本的梯度下降,并使用铰链损失函数对其进行测试,即lhinge=max(0,1−y x⋅w)lhinge=max(0,1−y x⋅w)l_{\text{hinge}} = \max(0,1-y\ \boldsymbol{x}\cdot\boldsymbol{w})。但是,我对铰链损耗的梯度感到困惑。我的印象是 ∂∂wlhinge={−y x0if y x⋅w&lt;1if y x⋅w≥1∂∂wlhinge={−y xif y x⋅w&lt;10if y x⋅w≥1 \frac{\partial }{\partial w}l_{\text{hinge}} = \begin{cases} -y\ \boldsymbol{x} &\text{if } y\ \boldsymbol{x}\cdot\boldsymbol{w} < 1 \\ 0&\text{if } y\ \boldsymbol{x}\cdot\boldsymbol{w} \geq 1 \end{cases} 但这是否不返回与\ boldsymbol {x}相同大小的矩阵xx\boldsymbol{x}?我以为我们想返回长度为\ boldsymbol {w}的向量ww\boldsymbol{w}?显然,我在某处有些困惑。有人可以在这里指出正确的方向吗? 我已经包括一些基本代码,以防我对任务的描述不清楚 #Run standard gradient descent gradient_descent&lt;-function(fw, dfw, …

1
比较R中发生GLM后的因素水平
以下是有关我的处境的一些背景信息:我的数据是指被捕食者成功吃掉的猎物的数量。由于每个试验中猎物的数量都是有限的(可用25个),因此我有一列“ Sample”代表可用猎物的数量(因此,每个试验中有25个),另外一个名为“ Count”的数字表示成功的数量(吃了多少猎物)。我的分析基于R书中有关比例数据的示例(第578页)。解释变量是温度(4个级别,我将其视为因素)和捕食者的性别(显然是雄性还是雌性)。所以我最终得到这个模型: model &lt;- glm(y ~ Temperature+Sex+Temperature*Sex data=predator, family=quasibinomial) 得出“偏差分析”表后,事实证明,温度和性别(但不存在相互作用)对猎物的消耗有显着影响。现在,我的问题是:我需要知道哪个温度不同,即,我必须将这四个温度相互比较。如果我有线性模型,则可以使用TukeyHSD函数,但由于使用的是GLM,所以不能。我一直在浏览MASS软件包,并尝试建立一个对比度矩阵,但是由于某种原因它不起作用。有什么建议或参考吗? 这是我从模型中获得的摘要,如果可以使它更清楚…… y &lt;- cbind(data$Count, data$Sample-data$Count) model &lt;- glm(y ~ Temperature+Sex+Temperature*Sex data=predator, family=quasibinomial) &gt; summary(model) # Call: # glm(formula = y ~ Temperature + Sex + Temperature * Sex, family=quasibinomial, data=data) # Deviance Residuals: # Min 1Q Median 3Q Max …

4
变形虫面试问题
在采访一家专有贸易公司的交易职位时,有人问我这个问题。我非常想知道这个问题的答案及其背后的直觉。 变形虫问题:变形虫的种群始于1。经过1个时期,变形虫可以等概率分为1、2、3或0(它可以死亡)。整个人群最终死亡的可能性是多少?

2
如何知道数据是否遵循R中的泊松分布?
我是一名本科生,并且为我的概率课程设计了一个项目。基本上,我有一个数据集,介绍了影响了我国多年的飓风。 在我的概率书((概率与统计数为R)中,有一个(不完整的)示例,说明如何检查数据是否遵循泊松分布,他们开始尝试证明遵循了这三个条件: 120(标准)第122-123页示例) 1-非重叠间隔中的结果数是独立的。换句话说,时间间隔(0,t]中的结果数与时间间隔(t,t + h],h&gt; 0的结果数无关 2-在足够短的间隔内出现两个或更多结果的可能性实际上为零。换句话说,如果h足够小,则与在相同时间间隔中获得一个或零个结果的概率相比,在时间间隔(t,t + h]中获得两个或多个结果的概率可以忽略不计。 3-在足够短的间隔或较小区域中恰好一个结果的概率与间隔或区域的长度成正比。换句话说,在长度为h的区间中一个结果的概率为lambda * h。 但是标准3被“作为练习”。 A-有人可以告诉我是否有更“简便”的方法来查看我的数据集是否遵循泊松分布吗? B-有人可以用某种示例向我解释准则1和3(如果使用R的话,太棒了)? 谢谢! 注意:很抱歉,冗长的帖子。另外,我必须转换数据,以便有一个像这样的表: number of hurricanes | 0 | 1 | 2 etc. ----------------------------------------- total years that have | | | that number of hurricanes | | |

8
如何估算参加活动的人数(例如政治集会)?
一名学生今天问我:“他们怎么知道有多少人参加了大型团体活动,例如华盛顿特区的斯图尔特/科尔伯特“恢复理智集会”?新闻媒体报道的估计数成千上万,但是用什么方法来获得这些估计,它们的可靠性如何? 一篇文章显然基于他们的停车许可估算...但是我们还有哪些其他技术?请注意,我不是在谈论捕获/捕获实验或类似的东西。 我不知道 我会事先猜测,对于这样的事情,没有具体的方法,而且有什么特别的条件(例如出售了多少停车许可证)。这是真的?为了国家安全的目的-当然-可以让一名分析员坐下来看卫星照片,然后实际计算那里的人数。我怀疑这种方法是否经常使用。


2
在小样本研究中如何应对探索性数据分析和数据挖掘?
探索性数据分析(EDA)通常会导致探索不一定属于初始假设集的其他“轨迹”。在样本量有限且通过不同问卷收集的大量数据的研究中,我会遇到这种情况(社会人口统计学数据,神经心理学或医学量表,例如,心理或身体机能,抑郁/焦虑水平,症状清单) )。EDA可能会突出显示一些意料之外的关系(“意料之外”,意味着它们未包含在初始分析计划中),这会转化为其他问题/假设。 与过拟合的情况一样,数据挖掘或监听确实会导致结果无法推广。但是,当有大量数据可用时,(对于研究人员或医师而言)很难假设一组有限的假设。 我想知道在小样本研究中是否有公认的方法,建议或经验法则可能有助于描述EDA。

3
小波在基于时间序列的异常检测算法中的应用
我已经开始通过安德鲁·摩尔(Andrew Moore)编写的《统计数据挖掘教程》来工作(强烈推荐给初次接触该领域的任何人)。我首先阅读了这份非常有趣的PDF,标题为“基于时间序列的异常检测算法简介”,其中Moore跟踪了创建算法以检测疾病暴发时使用的许多技术。在幻灯片的中间,第27页,他列出了许多其他用于检测爆发的“最新方法”。列出的第一个是小波。维基百科将小波描述为 振幅从零开始的波状振荡,先增大后减小,然后回零。通常可以将其可视化为“简短振荡” 但并未描述它们在统计学中的应用,我的Google搜索结果获得了学术论文,这些论文都假设小波如何与统计数据或该主题的完整书籍相关。 我希望对小波如何应用于时间序列异常检测有一个基本的了解,就像Moore在他的教程中说明其他技术一样。有人可以提供有关使用小波的检测方法如何工作的解释,或者可以提供有关此问题的可理解文章的链接吗?

7
概率和比例之间有什么区别?
假设我多年来每个星期二都吃汉堡包。您可以说我有14%的时间吃汉堡包,或者在给定的一周内我有汉堡包的概率为14%。 概率和比例之间的主要区别是什么? 概率是预期的比例吗? 概率是否不确定且比例是否得到保证?

3
可视化李克特项目响应数据
有什么办法可以形象地显示李克特反应集? 例如,一组询问X在其有关A,B,C,D,E,F和G的决策中的重要性的项目?有没有比堆积条形图更好的东西? 不适用的回应应该怎么做?他们将如何代表? 条形图是否应报告百分比或响应次数?(即条的总长度应相同吗?) 如果是百分比,分母是否应包括无效和/或N / A响应? 我有自己的看法,但我正在寻找其他人的想法。

5
寻求某种类型的ARIMA解释
这可能很难找到,但是我想阅读一个很好解释的ARIMA示例, 使用最少的数学 将讨论从构建模型扩展到使用该模型预测特定案例 使用图形和数值结果来表征预测值和实际值之间的拟合度。

3
为什么进行Kolmogorov-Smirnov测试?
在阅读有关2个样本的KS测试时,我确切地了解它在做什么,但我不知道它为什么起作用。 换句话说,我可以按照所有步骤计算经验分布函数,找到两者之间的最大差值,以找到D统计量,计算临界值,将D统计量转换为p值等。 但是,我不知道为什么其中任何一个实际上告诉我有关这两个分布的任何信息。 有人可以很容易地告诉我,我需要跳过一头驴,计算它跑多快,如果速度小于2 km / hr,那么我会拒绝原假设。当然,我可以做您告诉我的事情,但是那与零假设有什么关系? 为什么2个样本的KS测试有效?计算ECDF之间的最大差异与两个分布的差异有何关系? 任何帮助表示赞赏。我不是统计学家,所以如果可能的话,请假设我是个白痴。

3
带有交互作用项的LASSO-主效应缩小到零可以吗?
LASSO回归将系数缩小为零,从而有效地提供了模型选择。我相信在我的数据中,名义协变量和连续协变量之间存在有意义的相互作用。但是,真实模型的“主要影响”不一定有意义(非零)。当然我不知道,因为真正的模型是未知的。我的目标是找到真实的模型并尽可能地预测结果。 我了解到,在建立交互之前,经典的建模方法总是会包含主要效果。因此,如果在同一模型中存在协变量的交互作用,那么就不会有没有两个协变量和的主效应的模型。因此,该功能会 仔细选择模型术语(例如,基于后向或前向AIC)以遵守该规则。XXXžžZX* ZX∗žX*ZstepR LASSO的工作方式似乎有所不同。由于所有参数都是不利的,因此毫无疑问会发生这样的情况,即主效应缩小为零,而最佳(例如,交叉验证)模型的交互作用为非零。这是我特别为我的数据发现当使用R的glmnet软件包。 我收到了基于上面引用的第一条规则的批评,即,我最终的交叉验证的套索模型不包括一些非零交互的相应主效应项。但是,在这种情况下,此规则似乎有些奇怪。最终的问题是真实模型中的参数是否为零。假设它是,但交互作用为非零,则LASSO可能会识别出这一点,从而找到正确的模型。实际上,由于该模型不包含真正为零的主效应(实际上是噪声变量),因此根据该模型进行的预测似乎更为精确。 我是否可以基于此理由驳斥批评,还是应该采取一些预防措施,使LASSO在交互作用术语之前确实包含主要作用?

10
为什么不抛弃神经网络和深度学习呢?[关闭]
已关闭。这个问题是基于观点的。它当前不接受答案。 想改善这个问题吗?更新问题,以便通过编辑此帖子以事实和引用的形式回答。 2年前关闭。 深度学习和神经网络通常存在的基本问题。 适合训练数据的解决方案是无限的。我们没有一个只有一个人就能满足的精确数学方程式,并且可以说是最好的概括。简而言之,我们不知道哪种概括最好。 优化权重并不是一个凸面的问题,因此我们永远都不会知道最终会遇到全局最小值还是局部最小值。 那么,为什么不抛弃神经网络而寻找更好的ML模型呢?我们了解什么,并且与一组数学方程式一致?线性和SVM没有数学上的缺点,并且与一组数学方程式完全一致。为什么不只是沿着同一条线思考(虽然不需要线性),并且提出一个比线性和SVM,神经网络和深度学习更好的新ML模型?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.