数据科学

数据科学专业人员,机器学习专家以及有兴趣了解该领域的人员的问答

11
C(或C ++)中的数据科学
我是R语言程序员。我也是一群被认为是数据科学家,但来自CS以外的学科的人。 在我作为数据科学家的角色中,这表现得很好,但是,由于我的职业生涯开始R并且仅对其他脚本/网络语言有基本了解,所以我在两个关键领域感到不足: 缺乏扎实的编程理论知识。 缺乏技术人员在像更快和更广泛使用的语言有竞争力的水平的C,C++并且Java,它可以被利用以提高管道和大数据计算的速度以及创建其中可以更容易地发展成快速DS /数据产品后端脚本或独立应用程序。 解决方案当然很简单-继续学习编程,这是我通过注册某些类(当前为C编程)所做的事情。 但是,既然我现在开始解决上述问题#1和#2,我就CC++问自己“ 像数据科学这样的语言以及对于数据科学来说,这些语言的可行性如何? ”。 例如,我可以非常快速地移动数据并与用户进行很好的交互,但是高级回归,机器学习,文本挖掘和其他更高级的统计操作呢? 所以。可以C完成这项工作-哪些工具可用于高级统计,ML,AI和其他数据科学领域?还是我必须放弃C通过调用R脚本或其他语言进行编程而获得的大多数效率? 迄今为止,用C,我发现最好的资源是一个叫库鲨鱼,这使C/ C++使用支持向量机,线性回归(未非线性等先进的回归就像多项概率等)以及其他的短名单的能力(很棒)统计功能。

3
何时使用什么-机器学习[关闭]
最近,在UPC /巴塞罗那的Oriol Pujol教授的机器学习课程中,他描述了用于各种机器学习相关任务的最常见算法,原理和概念。在这里,我与您分享它们并询问您: 是否有全面的框架将任务与与不同类型的机器学习相关问题相关的方法或方法相匹配? 如何学习简单的高斯? 概率,随机变量,分布;估计,收敛和渐近,置信区间。 如何学习混合高斯(MoG)?可能性,期望最大化(EM);概括,模型选择,交叉验证;k均值,隐藏马尔可夫模型(HMM) 我如何学习密度?参数与非参数估计,Sobolev和其他功能空间;ĺ2错误; 内核密度估计(KDE),最佳内核,KDE理论 如何预测连续变量(回归)?线性回归,正则化,岭回归和LASSO;局部线性回归 条件密度估计。 我如何预测离散变量(分类)?贝叶斯分类器,朴素贝叶斯,生成与区分;感知器,重量衰减,线性支持向量机;最近邻分类器和理论 我应该使用哪个损失函数?最大似然估计理论;l -2估计;贝叶斯估计 极小极大与决策理论,贝叶斯主义与频繁主义 我应该使用哪种型号?AIC和BIC;Vapnik-Chervonenskis理论;交叉验证理论;自举 大概近似正确(PAC)理论;霍夫廷定界 如何学习更高级的(组合)模型?整合学习理论;促进 套袋 堆放 如何学习更高级的(非线性)模型?广义线性模型,逻辑回归;Kolmogorov定理,广义加性模型;内核化,再现内核Hilbert空间,非线性SVM,高斯过程回归 如何学习更出色的(组合)模型?递归模型,决策树,层次聚类;神经网络,反向传播,深度信念网络;图形模型,HMM混合,条件随机字段,最大边距Markov网络;对数线性模型; 文法 如何减少或关联功能?特征选择与降维,特征选择的包装方法;因果性与相关性,偏相关性,贝叶斯网络结构学习 如何创建新功能?主成分分析(PCA),独立成分分析(ICA),多维缩放,流形学习,监督降维,度量学习 如何减少或关联数据?集群,双集群,约束集群;关联规则和市场篮子分析;排名/常规回归 链接分析;关系数据 如何处理时间序列?ARMA;卡尔曼滤波器和统计空间模型,粒子滤波器;功能数据分析;变更点检测;时间序列的交叉验证 如何处理不理想的数据?协变量移位 阶级失衡;数据丢失,采样数据不规则,测量误差;异常检测,鲁棒性 如何优化参数?无约束与约束/凸优化,无导数方法,一阶和二阶方法,后拟合;自然梯度 边界优化和EM 如何优化线性函数?计算线性代数,用于回归的矩阵求逆,用于降维的奇异值分解(SVD) 如何优化约束?凸性,拉格朗日乘数,Karush-Kuhn-Tucker条件,内点方法,用于SVM的SMO算法 如何评估深度嵌套的总和?精确的图形模型推论,总和的变化范围,近似的图形模型推论,期望传播 如何评估大笔款项和搜寻?广义N体问题(GNP),分层数据结构,最近邻居搜索,快速多重方法;蒙特卡洛积分,马尔可夫链蒙特卡洛,蒙特卡洛SVD 我该如何处理更大的问题?并行/分布式EM,并行/分布式GNP; 随机次梯度方法,在线学习 如何在现实世界中应用所有这些?机器学习部分的概述,在用于每个任务的方法,先验知识和假设之间进行选择;探索性数据分析和信息可视化;评估和解释,使用置信区间和假设检验,ROC曲线;机器学习的问题在哪里


3
Keras中的batch_size对结果的质量有影响吗?
我将要训练一个包含2-3百万篇文章的大型LSTM网络,并且正面临着内存错误(我使用AWS EC2 g2x2large)。 我发现一种解决方案是减少batch_size。但是,我不确定此参数是否仅与内存效率问题有关,还是会影响我的结果。实际上,我还注意到batch_size示例中使用的通常是2的幂,我也不理解。 我不介意我的网络需要花费更长的时间来训练,但是我想知道是否减少batch_size会降低我的预测质量。 谢谢。


3
“同等翻译”和“同等翻译”有什么区别
我很难理解翻译的等变量和翻译的不变量之间的区别。 在《深度学习》一书中。麻省理工学院出版社,2016年(I. Goodfellow,A。Courville和Y. Bengio),在卷积网络上可以找到: [...]参数共享的特定形式导致该图层具有一个称为“ 等值转换” 的属性 [...]池有助于使代表成为大致不变的输入小的平移 它们之间是否有区别,或者这些术语可以互换使用?

11
数据科学家会使用Excel吗?
我认为自己是一名熟练的数据科学家。像大多数(我认为)一样,我制作了第一张图表,并使用Excel在高中和大学中进行了第一次汇总。当我上大学,研究生院和大约7年的工作经验时,我很快就选择了我认为是更高级的工具,例如SQL,R,Python,Hadoop,LaTeX等。 我们正在面试一位数据科学家的职位,并且有一位候选人自称是“资深数据科学家”(如今这是一个非常时髦的名词),具有15年以上的经验。当被问到他偏爱的工具集是什么时,他回答说这是Excel。 我以此为依据,证明他没有履历所要求的那样经验丰富,但不确定。毕竟,仅因为它不是我的首选工具,并不意味着它不是其他人的工具。有经验的数据科学家会使用Excel吗?您可以假设主要使用Excel的人缺乏经验吗?
37 tools  career  excel 


2
如何解释XGBoost重要性的输出?
我运行了一个xgboost模型。我不完全知道如何解释的输出xgb.importance。 增益,覆盖率和频率的含义是什么,我们如何解释它们? 另外,Split,RealCover和RealCover%是什么意思?我在这里有一些额外的参数 还有其他参数可以告诉我有关功能重要性的更多信息吗? 从R文档中,我了解到“增益”类似于“信息增益”,“频率”是在所有树中使用某个功能的次数。我不知道什么是Cover。 我运行了链接中给出的示例代码(并且还尝试对我正在处理的问题进行相同的操作),但是在那里给出的拆分定义与我计算出的数字不匹配。 importance_matrix 输出: Feature Gain Cover Frequence 1: xxx 2.276101e-01 0.0618490331 1.913283e-02 2: xxxx 2.047495e-01 0.1337406946 1.373710e-01 3: xxxx 1.239551e-01 0.1032614896 1.319798e-01 4: xxxx 6.269780e-02 0.0431682707 1.098646e-01 5: xxxxx 6.004842e-02 0.0305611830 1.709108e-02 214: xxxxxxxxxx 4.599139e-06 0.0001551098 1.147052e-05 215: xxxxxxxxxx 4.500927e-06 0.0001665320 1.147052e-05 216: xxxxxxxxxxxx 3.899363e-06 …

3
大熊猫相关矩阵的计算与可视化
我有一个带有多个条目的熊猫数据框,并且我想计算某种类型商店的收入之间的相关性。许多商店都有收入数据,活动区域分类(剧院,布料商店,食品...)和其他数据。 我尝试创建一个新的数据框,并插入一列,其中包含属于同一类别的所有种类的商店的收入,返回的数据框仅填充了第一列,其余填充了NaN。我累的代码: corr = pd.DataFrame() for at in activity: stores.loc[stores['Activity']==at]['income'] 我想这样做,所以我可以.corr()用来给出商店类别之间的相关矩阵。 之后,我想知道如何使用matplolib绘制矩阵值(-1到1,因为我想使用Pearson的相关性)。


13
您如何看待数据科学认证?
现在,我已经看到了两个数据的科学认证计划- 约翰·霍普金斯大学一个可在Coursera和Cloudera的一个。 我确定那里还有其他人。 John Hopkins的一组类集中于R作为工具集,但涵盖了一系列主题: R编程 清理并获取数据 数据分析 可重复的研究 统计推断 回归模型 机器学习 开发数据产品 看起来像基于项目的完成任务,类似于Cloudera的数据科学挑战赛 Cloudera程序表面上看起来很薄,但是可以回答两个重要的问题-“您是否知道工具”,“您可以在现实世界中应用这些工具”。他们的程序包括: 数据科学导论 数据科学基础考试 数据科学挑战赛(现实世界中的数据科学项目场景) 我不是在寻找有关程序或质量比较的建议。 我对其他认证,它们涵盖的主题以及社区此时对DS认证的重视程度感到好奇。 编辑:这些都是很好的答案。我正在以投票方式选择正确的答案。
35 education 


6
交叉熵损失的解释
假设我建立了一个用于分类的NN。最后一层是具有softmax激活的密集层。我有五个不同的班级来分类。假设有一个训练示例,true label则[1 0 0 0 0]预测为[0.1 0.5 0.1 0.1 0.2]。我将如何计算此示例的交叉熵损失?

1
`Keras`的`Dense`和`TimeDistributedDense`之间的区别
我仍然感到困惑之间的区别Dense和TimeDistributedDense的Keras,即使已经有一些类似的问题问在这里和这里。人们在讨论很多,但没有共同商定的结论。 即使在这里,@fchollet指出: TimeDistributedDenseDense对3D张量的每个时间步应用相同(完全连接)的操作。 我仍然需要详细说明它们之间的确切区别。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.