Questions tagged «statistics»

统计学是一种基于数据概率模型的归纳推理和预测的科学方法。通过扩展,它涵盖了为此目的而收集数据的实验和调查设计。


3
KS,AUROC和Gini之间的关系
诸如Kolmogorov–Smirnov检验(KS),AUROC和Gini系数之类的通用模型验证统计信息在功能上均相关。但是,我的问题与证明它们之间的关系有关。我很好奇是否有人可以帮助我证明这些关系。我无法在网上找到任何东西,但是我真的很感兴趣证明如何工作。例如,我知道Gini = 2AUROC-1,但是我最好的证明是指向图形。我对正式证明很感兴趣。任何帮助将不胜感激!

3
面向数据科学的数据集/统计学硕士研究问题
我想探索“数据科学”。这个词对我来说似乎有点模糊,但是我希望它要求: 机器学习(而不是传统的统计); 一个足够大的数据集,您必须在集群上运行分析。 具有一定编程背景的统计学家可以访问哪些好的数据集和问题,以用于探索数据科学领域? 为了尽可能缩小范围,理想情况下,我希望链接到开放的,使用良好的数据集和示例问题。

3
最佳科学计算语言[关闭]
已关闭。这个问题需要更加集中。它当前不接受答案。 想改善这个问题吗?更新问题,使其仅通过编辑此帖子来关注一个问题。 5年前关闭。 似乎大多数语言都具有一定数量的科学计算库。 Python有 Scipy Rust 有 SciRust C++有几个包括ViennaCL和Armadillo Java具有Java Numerics和Colt其他几个 且不说像语言R和Julia明确的科学计算而设计。 有这么多种选择,您如何选择适合任务的最佳语言?另外,哪种语言的性能最高?Python并且R似乎在该领域具有最大的吸引力,但从逻辑上讲,编译语言似乎是一个更好的选择。会有什么表现胜过Fortran?此外编译语言往往有GPU加速,而解释性语言如R并Python没有。选择一种语言时应该考虑什么?哪些语言可以在效用和性能之间取得最佳平衡?还有我错过的具有重要科学计算资源的语言吗?
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

3
统计+计算机科学=数据科学?[关闭]
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为Data Science Stack Exchange 的主题。 5年前关闭。 我想成为一名数据科学家。我研究了应用统计(精算科学),所以我有很好的统计背景(回归,随机过程,时间序列,仅举几例)。但是现在,我将攻读智能系统领域的计算机科学硕士学位。 这是我的学习计划: 机器学习 先进的机器学习 数据挖掘 模糊逻辑 推荐系统 分布式数据系统 云计算 知识发现 商业情报 信息检索 文字挖掘 最后,以我所有的统计和计算机科学知识,我可以称自己为数据科学家吗?还是我错了? 感谢您的回答。

3
各种统计技术(回归,PCA等)如何根据样本大小和维度进行缩放?
是否有已知的统计技术通用表来解释它们如何随样本大小和维度进行缩放?例如,有一天我的一个朋友告诉我,简单地快速排序大小为n的一维数据的计算时间为n * log(n)。 因此,例如,如果我们对X进行y回归(其中X是d维变量),它是否会变成O(n ^ 2 * d)?如果我想通过精确的Gauss-Markov解与牛顿法的数值最小二乘法来找到解,它将如何缩放?还是只是获得解决方案与使用重要性测试? 我想我比这里的一个好答案更想要一个好的答案来源(例如总结各种统计技术的标度的论文)。举例来说,清单包含多重回归,logistic回归,PCA,cox比例风险回归,K均值聚类等的缩放比例。

3
如何在Python中对相同的值进行分组并计算其频率?
刚开始使用Python分析的新手,请谨慎:-)我找不到该问题的答案-抱歉,如果它已经在其他地方以其他格式回答了。 我有一个零售商店的交易数据的数据集。变量及其说明如下: section:商店的部分,str; prod_name:产品名称,str; 收据:发票编号,整数; 出纳员,出纳员的编号,整数; 成本:物料的成本,浮动; 日期,格式为MM / DD / YY,为str; 时间,格式为HH:MM:SS,为str; 收据对于单笔交易中购买的所有产品具有相同的价值,因此可用于确定单笔交易中购买的平均数量。 最好的方法是什么?我本质上是想使用groupby()按收据变量相同的出现来对收据变量进行分组,以便创建直方图。 在pandas DataFrame中处理数据。 编辑: 以下是一些带有标头的示例数据(prod_name实际上是一个十六进制数字): section,prod_name,receipt,cashier,cost,date,time electronics,b46f23e7,102856,5,70.50,05/20/15,9:08:20 womenswear,74558d0d,102857,8,20.00,05/20/15,9:12:46 womenswear,031f36b7,102857,8,30.00,05/20/15,9:12:47 menswear,1d52cd9d,102858,3,65.00,05/20/15,9:08:20 从该样本集中,我希望获得一个直方图,该直方图显示两次出现的收据102857(因为该人在一项交易中购买了两件物品)和一次出现的收据102856和102858。注意:我的数据集并不庞大,大约一百万行。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.