Questions tagged «statistics»

统计学是一种基于数据概率模型的归纳推理和预测的科学方法。通过扩展,它涵盖了为此目的而收集数据的实验和调查设计。

1
如何获得两个类别变量与一个类别变量和连续变量之间的相关性?
我正在建立一个回归模型,我需要计算以下内容以检查相关性 2个多级分类变量之间的相关性 多级分类变量和连续变量之间的相关性 多级分类变量的VIF(方差膨胀因子) 我相信在上述情况下使用Pearson相关系数是错误的,因为Pearson仅适用于2个连续变量。 请回答以下问题 哪种相关系数最适合上述情况? VIF计算仅适用于连续数据,那么有什么替代方法? 在使用您建议的相关系数之前,需要检查哪些假设? 如何在SAS&R中实施它们?

4
神经网络:使用哪个成本函数?
我正在使用TensorFlow主要用于神经网络的实验。尽管现在我已经做了大量的实验(XOR问题,MNIST,一些回归的东西……),但是我为特定的问题选择“正确的”成本函数很困难,因为总的来说我可以被认为是一个初学者。 在上TensorFlow之前,我自己使用Python和NumPy编写了一些完全连接的MLP和一些递归网络,但大多数情况下,我遇到了一个简单的平方误差和简单的梯度设计就足够了的问题。 但是,由于TensorFlow本身提供了很多成本函数以及构建自定义成本函数的功能,所以我想知道是否存在某种专门针对神经网络上的成本函数的教程?(我已经完成了一半的TensorFlow官方教程,但它们并没有真正解释为什么特定成本函数或学习者用于特定问题-至少对于初学者而言) 举一些例子: cost = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(y_output, y_train)) 我猜想它在两个输入上都应用了softmax函数,以便一个向量的总和等于1。但是对数与logits的交叉熵到底是什么呢?我以为它会汇总值并计算交叉熵...那么一些度量标准度量值呢?如果我对输出进行归一化,求和并求平方误差,这是否会完全相同?此外,为什么将其用于MNIST(甚至更困难的问题)?当我想分类为10个甚至1000个类时,汇总这些值是否会完全破坏有关输出实际上是哪个类的任何信息? cost = tf.nn.l2_loss(vector) 这个是来做什么的?我以为l2损失几乎是平方误差,但TensorFlow的API告诉它输入只是一个张量。根本不知道这个主意吗? 此外,我经常看到这种用于交叉熵的方法: cross_entropy = -tf.reduce_sum(y_train * tf.log(y_output)) ...但是为什么要使用它?数学上的交叉熵损失不是: -1/n * sum(y_train * log(y_output) + (1 - y_train) * log(1 - y_output)) 哪里是(1 - y_train) * log(1 - y_output)在最TensorFlow例子的一部分?它不丢失吗? 答:我知道这个问题是很开放的,但是我不希望得到详细列出每个问题/成本函数的10页。我只需要简短总结一下何时使用哪个成本函数(一般而言还是在TensorFlow中,对我来说并不重要),以及有关此主题的一些解释。和/或一些初学者的资源;)

11
C(或C ++)中的数据科学
我是R语言程序员。我也是一群被认为是数据科学家,但来自CS以外的学科的人。 在我作为数据科学家的角色中,这表现得很好,但是,由于我的职业生涯开始R并且仅对其他脚本/网络语言有基本了解,所以我在两个关键领域感到不足: 缺乏扎实的编程理论知识。 缺乏技术人员在像更快和更广泛使用的语言有竞争力的水平的C,C++并且Java,它可以被利用以提高管道和大数据计算的速度以及创建其中可以更容易地发展成快速DS /数据产品后端脚本或独立应用程序。 解决方案当然很简单-继续学习编程,这是我通过注册某些类(当前为C编程)所做的事情。 但是,既然我现在开始解决上述问题#1和#2,我就CC++问自己“ 像数据科学这样的语言以及对于数据科学来说,这些语言的可行性如何? ”。 例如,我可以非常快速地移动数据并与用户进行很好的交互,但是高级回归,机器学习,文本挖掘和其他更高级的统计操作呢? 所以。可以C完成这项工作-哪些工具可用于高级统计,ML,AI和其他数据科学领域?还是我必须放弃C通过调用R脚本或其他语言进行编程而获得的大多数效率? 迄今为止,用C,我发现最好的资源是一个叫库鲨鱼,这使C/ C++使用支持向量机,线性回归(未非线性等先进的回归就像多项概率等)以及其他的短名单的能力(很棒)统计功能。

3
大熊猫相关矩阵的计算与可视化
我有一个带有多个条目的熊猫数据框,并且我想计算某种类型商店的收入之间的相关性。许多商店都有收入数据,活动区域分类(剧院,布料商店,食品...)和其他数据。 我尝试创建一个新的数据框,并插入一列,其中包含属于同一类别的所有种类的商店的收入,返回的数据框仅填充了第一列,其余填充了NaN。我累的代码: corr = pd.DataFrame() for at in activity: stores.loc[stores['Activity']==at]['income'] 我想这样做,所以我可以.corr()用来给出商店类别之间的相关矩阵。 之后,我想知道如何使用matplolib绘制矩阵值(-1到1,因为我想使用Pearson的相关性)。

4
有关数据科学中“科学”的书籍?[关闭]
已关闭。这个问题需要更加集中。它当前不接受答案。 想改善这个问题吗?更新问题,使其仅通过编辑此帖子来关注一个问题。 5年前关闭。 关于数据科学背后的科学和数学的书籍是什么?感觉像是很多“数据科学”书籍都是编程教程,没有涉及数据生成过程和统计推断之类的事情。我已经可以编写代码了,我的弱项是我正在做的事情背后的数学/统计/理论。 如果我准备在书本上烧掉1000美元(那么大约10本书...叹气),那我可以买什么? 示例:Agresti的分类数据分析,纵向数据的线性混合模型等...等等...

9
任何在线R控制台?
我正在寻找一种语言R的在线控制台。就像我编写代码一样,服务器应该执行并向我提供输出。 类似于网站Datacamp。
24 r  statistics 

4
我应该使用哪种统计模型来分析单个事件影响纵向数据的可能性
我试图找到一种公式,方法或模型来分析特定事件影响某些纵向数据的可能性。我很难弄清楚在Google上搜索什么。 这是一个示例方案: 您拥有一家每天平均有100个客户的公司。有一天,您决定要增加每天到达商店的客源客户的数量,因此您会在商店外进行疯狂的表演以引起注意。在下一周,您平均每天会看到125位客户。 在接下来的几个月中,您再次决定要获得更多的业务,也许还要维持更长的时间,因此您尝试其他一些随机的事情来在商店中吸引更多的客户。不幸的是,您不是最佳的营销人员,您的某些策略几乎没有效果,甚至没有效果,有些甚至产生了负面影响。 我可以使用哪种方法来确定任何一个单独事件正面或负面地影响到门顾客数量的可能性?我完全意识到关联并不一定等于因果关系,但是在特定事件发生之后,我可以使用哪些方法来确定您的业务在客户日常活动中可能增加或减少? 我不希望分析您尝试增加无障碍顾客数量之间是否存在关联,而是要分析一个事件是否独立于其他事件是否具有影响力。 我意识到这个示例是非常人为的和简单的,因此,我还将简要介绍一下我正在使用的实际数据: 我正在尝试确定特定的市场营销代理商在发布新内容,进行社交媒体宣传等活动时对其客户的网站的影响。对于任何一个特定的代理商,他们可能拥有1至500个客户。每个客户拥有的网站范围从5页到超过一百万个不等。在过去的5年中,每个代理商都为每个客户注释了他们的所有工作,包括已完成的工作类型,受影响的网站页面数量,花费的时间等。 使用我已经组装到数据仓库中的上述数据(放入一堆星型/雪花模式),我需要确定任何一件工作(及时发生的任何事件)对以下项目产生影响的可能性:流量触及受特定作品影响的任何/所有页面。我已经为网站上找到的40种不同类型的内容创建了模型,这些模型描述了从发布日期到现在,具有所述内容类型的页面可能遇到的典型流量模式。相对于适当的模型进行规范化之后,我需要确定由于特定工作而获得的特定页面所增加或减少的访问者的最高和最低数量。 虽然我有基本数据分析(线性和多元回归,相关性等)的经验,但我对如何解决这个问题一无所知。过去,我通常使用给定轴的多次测量数据来分析数据(例如,温度,口渴和动物之间的关系,并确定温度升高对动物的口渴的影响),但我觉得上面我正在尝试分析影响非线性但可预测(或至少可建模)的纵向数据集在某个时间点的单个事件的统计。我很沮丧:( 任何帮助,提示,指示,建议或指示都将非常有帮助,我将永远感激不已!

4
如何指定重要属性?
假设一组由许多数据源组成的结构松散的数据(例如Web表/链接的打开数据)。数据后面没有通用的模式,每个数据源都可以使用同义词属性来描述值(例如“国籍”与“ bornIn”)。 我的目标是找到一些“重要”属性,以某种方式“定义”它们描述的实体。因此,当我为这样的属性找到相同的值时,我将知道这两个描述很可能是关于同一实体(例如同一个人)的。 例如,属性“ lastName”比属性“国籍”更具区分性。 我怎样才能(统计地)找到比其他更重要的属性? 一个简单的解决方案是获取每个属性值的平均IDF,并将其作为属性的“重要性”因素。一种类似的方法是计算每个属性出现多少个不同的值。 我已经在机器学习中看到了术语“特征”或“属性选择”,但是我不想丢弃其余的属性,我只是想给最重要的属性赋予更高的权重。

5
机器学习入门数学书籍
我是一位计算机科学工程师,没有统计学或高级数学背景。 我正在学习Raschka和Mirjalili撰写的《Python机器学习》一书,但是当我试图理解机器学习的数学时,我无法理解一位朋友向我推荐的《统计学习的要素》这本书。 您知道用于机器学习的更简单的统计资料和数学书籍吗?如果不这样做,我应该怎么走?

2
高维数据:了解哪些有用的技术?
由于维数的各种诅咒,许多常见的预测技术的准确性和速度在高维数据上会下降。什么是最有效地处理高维数据的最有用的技术/技巧/启发式方法?例如, 某些统计/建模方法在高维数据集上表现良好吗? 我们是否可以通过使用某些(定义距离的替代概念)或核(定义点积的替代概念)来提高高维数据预测模型的性能? 高维数据降维最有用的技术是什么?

2
使用独立的t检验分析非正态分布的A / B检验结果
我有一组来自A / B测试的结果(一个对照组,一个功能组),这些结果不符合正态分布。实际上,该分布与Landau分布更相似。 我认为独立的t检验要求样本至少近似正态分布,这使我不愿意将t检验用作有效的显着性检验方法。 但是我的问题是: 在什么时候可以说t检验不是一种重要的重要检验方法? 或换一种说法,仅给出数据集,如何确定t检验的p值的可靠性?


1
使用随机森林采样多少个特征
引用“统计学习的要素”的维基百科页面显示: 通常,对于具有特征的分类问题 ,每个分割中都使用特征。⌊ √ppp⌊ p–√⌋⌊p⌋\lfloor \sqrt{p}\rfloor 我知道这是一个相当有根据的猜测,并且可能已得到经验证据的证实,但是还有其他原因导致人们选择平方根吗?那里有统计现象吗? 这是否有助于减少误差的方差? 回归和分类是否相同?

6
数据集了解最佳实践
我是数据挖掘的CS硕士学生。我的主管曾经告诉我,在运行任何分类器或对数据集执行任何操作之前,我必须完全理解数据,并确保数据干净无误。 我的问题: 理解数据集(具有数值和名义属性的高维)的最佳实践是什么? 如何确保数据集干净? 是否要确保数据集没有错误值?

3
是否有适用于python的好的即用型语言模型?
我正在为一个应用程序制作原型,我需要一个语言模型来计算一些生成的句子的困惑度。 我可以随时使用经过训练的python语言模型吗?简单的东西 model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 我看过一些框架,但找不到我想要的。我知道我可以使用类似: from nltk.model.ngram import NgramModel lm = NgramModel(3, brown.words(categories='news')) 这在Brown Corpus上使用了很好的图林概率分布,但是我正在一些大型数据集(例如1b单词数据集)上寻找精心设计的模型。我可以真正相信一般领域的结果(不仅是新闻)
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.