统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答



2
如何从“大数据”中得出有效的结论?
媒体中到处都有“大数据”。每个人都说“大数据”是2012年的大事,例如KDNuggets对2012年的热门话题进行了民意测验。但是,我对此深表关切。有了大数据,每个人似乎都很高兴能拿出任何东西。但是,我们是否违反了所有经典的统计原理,例如假设检验和代表性抽样? 只要我们仅对同一数据集做出预测,就可以了。因此,如果我使用Twitter数据来预测Twitter用户的行为,那可能还可以。但是,使用Twitter数据预测例如选举完全忽略了Twitter用户并不是整个人口的代表性样本这一事实。另外,大多数方法实际上无法区分真正的“草根”情绪和运动。Twitter充满了竞选活动。因此,在分析Twitter时,您很快就会只测量活动和机器人。(例如,参见“雅虎预测美国的政治胜利者”这充满了民意测验,并且“情绪分析要好得多”。他们预测“罗姆尼赢得提名和赢得南卡罗来纳州初选的可能性超过90%”(他有28%,而金里奇在初选中有40%)。 您知道其他这样的大数据失败吗?我大概记得一位科学家曾预测您不能维持超过150个友谊。他实际上只发现了友友的上限... 至于推特数据,或者实际上是从网络上收集到的任何“大数据”,我相信人们通常会在收集数据的方式上引入额外的偏见。几乎没有Twitter的全部。他们将拥有一定的子集,这只是他们数据集中的另一个偏见。 将数据拆分到测试集中或进行交叉验证可能并没有太大帮助。另一组将具有相同的偏差。对于大数据,我需要大量“压缩”我的信息,以至于我不太可能过大。 我最近听到了这个笑话,大数据科学家发现世界上大约有6种性别……而我完全可以想象发生……“男,女,兽人,毛茸茸,是和否”。 那么,我们必须采用什么方法才能使统计信息重新回到分析中,特别是在尝试预测“大数据”数据集之外的数据时?



2
随机森林中可变重要性的度量
我一直在尝试使用随机森林进行回归,并且很难准确地确定出重要性的两个指标的含义以及如何解释它们。 该importance()函数为每个变量提供两个值:%IncMSE和IncNodePurity。这两个值是否有简单的解释? 对于IncNodePurity特别是,这仅仅是一个量的去除变量继RSS增加?

3
如何解释方差分析中的F值和p值?
我是统计学新手,目前正在与ANOVA合作。我在R中使用A进行ANOVA测试 aov(dependendVar ~ IndependendVar) 除其他外,我得到一个F值和一个p值。 我的原假设()是所有组均值相等。H0H0H_0 关于如何计算F有很多可用信息,但是我不知道如何读取F统计信息以及F和p是如何连接的。 因此,我的问题是: 如何确定拒绝的临界F值?H0H0H_0 每个F是否都有对应的p值,所以它们的含义基本相同吗?(例如,如果,则拒绝)高0p &lt; 0.05p&lt;0.05p<0.05H0H0H_0

4
R的Logistic回归(几率)
我正尝试在中进行逻辑回归分析R。我已经使用STATA参加了涵盖此材料的课程。我发现很难复制中的功能R。这个地区成熟吗?似乎几乎没有可用的文档或指南。生产比值比输出似乎需要安装epicalc和/或epitools和/或其他工具,我无法上班,都已过时或缺少文档。我曾经glm做过逻辑回归。欢迎大家提出意见。 我最好把这个问题变成一个真实的问题。如何进行逻辑回归并产生比值比R? 这是我为单变量分析所做的工作: x = glm(Outcome ~ Age, family=binomial(link="logit")) 对于多变量: y = glm(Outcome ~ Age + B + C, family=binomial(link="logit")) 然后,我已经看了x,y,summary(x)和summary(y)。 是x$coefficients任何价值?
40 r  logistic  odds-ratio 

3
均值,中位数和众数之间的经验关系
对于中等偏斜的单峰分布,我们在均值,中位数和众数之间具有以下经验关系: 这种关系如何派生出来的?(平均数-模式)〜3(平均-中位数)(Mean - Mode)∼3(Mean - Median) \text{(Mean - Mode)}\sim 3\,\text{(Mean - Median)} 在形成这个结论之前,卡尔·皮尔森(Karl Pearson)是否绘制了成千上万个这样的关系,还是在这种关系背后有逻辑上的推理?

7
神经网络中的数据标准化和标准化
我正在尝试使用神经网络(ANN)预测复杂系统的结果。结果(相关)值的范围在0到10,000之间。不同的输入变量具有不同的范围。所有变量都具有大致正态分布。 我考虑在训练之前缩放数据的其他选项。一种选择是通过使用每个变量的均值和标准偏差值独立地计算累积分布函数,将输入(独立)变量和输出(独立)变量缩放为[0,1] 。这种方法的问题在于,如果我在输出端使用S形激活函数,则极有可能会错过极端数据,尤其是那些在训练集中看不到的数据 另一种选择是使用z得分。在那种情况下,我没有极端的数据问题。但是,我仅限于输出的线性激活函数。 ANN还在使用哪些其他公认的规范化技术?我试图寻找有关此主题的评论,但未找到任何有用的信息。

3
在某些情况下,PCA比t-SNE更合适吗?
我想看看7种文本纠正行为的度量标准(纠正文本所花费的时间,击键次数等)如何相互关联。措施是相关的。我运行PCA来查看这些度量如何投影到PC1和PC2上,避免了在度量之间运行单独的双向相关性测试的重叠。 我被问到为什么不使用t-SNE,因为某些度量之间的关系可能是非线性的。 我可以看到允许非线性如何改善这一点,但是我想知道是否有充分的理由在这种情况下使用PCA而不是t-SNE?我不希望根据文本与度量的关系来聚类文本,而是对度量本身之间的关系感兴趣。 (我想EFA也可以是一种更好/另一种方法,但这是不同的讨论。)与其他方法相比,此处关于t-SNE的文章很少,因此这个问题似乎值得提出。
39 pca  tsne 

7
人们在收集或解释数据时最常犯的偏见是什么?
我是经济/统计专业。我知道,经济学家试图通过确定人们行为不合理的情况来修改对人类行为和理性的假设。例如,假设我为您提供100%的损失1000 美元的机会或50%的2500 美元损失的机会,人们选择2500 美元的期权,即使后者的期望值比保证的1000 美元的损失更大失利。这被称为“损失厌恶”。行为经济学家现在研究这些模式,并试图确定人类偏离那些通常被认为构成“理性”行为的公理的方式。在这里,我认为选择损失最小的预期是合理的。 我想知道统计学家是否已识别出数据收集中的常见模式,从而在人们解释数据的方式上产生了偏颇的结果。如果本质上是一种“理性”的数据收集方式,那么我认为有些例子表明人类会偏离这种情况并表现出“偏见”。如果是这样,人类在收集或解释数据时最常犯的偏见是什么?
39 bias 



7
贝叶斯会承认有一个固定的参数值吗?
在贝叶斯数据分析中,参数被视为随机变量。这源于贝叶斯概率的主观概念化。但是,贝叶斯理论上是否承认“现实世界”中存在一个真正的固定参数值? 似乎最明显的答案是“是”,因为然后尝试估计参数几乎是荒谬的。对此答案的学术引用将不胜感激。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.