Questions tagged «python»

Python是一种通常用于机器学习的编程语言。对于(a)涉及Python作为问题的关键部分或预期答案的所有* on-topic *问题,请使用该标签;&(b)关于如何使用Python的问题“不仅仅”。

2
嵌套交叉验证的实现
我试图弄清楚我对嵌套交叉验证的理解是否正确,因此我写了这个玩具示例来看看我是否正确: import operator import numpy as np from sklearn import cross_validation from sklearn import ensemble from sklearn.datasets import load_boston # set random state state = 1 # load boston dataset boston = load_boston() X = boston.data y = boston.target outer_scores = [] # outer cross-validation outer = cross_validation.KFold(len(y), n_folds=3, shuffle=True, …

3
使用Python进行时间序列异常检测
我需要对几个时间序列数据集执行异常检测。我以前从未做过此事,希望能得到一些建议。我对python非常满意,因此我希望在其中实现解决方案(我的大部分代码在其他工作中都是python)。 数据描述:在过去的两年左右(即只有24-36个时间段)才刚刚开始收集每月的时间序列数据。从本质上讲,每月有多个指标被多个客户监视。 time_period client metric score 01-2013 client1 metric1 100 02-2013 client1 metric1 119 01-2013 client2 metric1 50 02-2013 client2 metric2 500 ... 这就是我的想法:将数据放入数据框(熊猫),然后为每个客户/指标对计算6个月的滚动平均值。如果当前时间段的值超过了基于6个月平均值的某个阈值,则升旗。这个问题似乎很简单。我只想确保我采取可靠的方法。 任何建议,以充实这一想法,将不胜感激。我知道这个问题有点抽象,对此我深表歉意。

1
R线性回归分类变量“隐藏”值
这只是我多次遇到的示例,因此我没有任何示例数据。在R中运行线性回归模型: a.lm = lm(Y ~ x1 + x2) x1是一个连续变量。x2是分类的,具有三个值,例如“低”,“中”和“高”。但是,R给出的输出将类似于: summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 我知道R在这种因素(x2是一个因素)上引入了某种虚拟编码。我只是想知道,如何解释x2“高”值?例如,x2在此处给出的示例中,“ High” 对响应变量有什么影响? 我在其他地方(例如这里)已经看到了这样的示例,但是还没有找到我能理解的解释。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 


1
在GWAS数据集的PCA投影中,孩子如何设法将父母团结在一起?
取20个随机点与每个一万维空间从坐标IID ñ(0 ,1 )ñ(0,1个)\mathcal N(0,1)。将它们分成10对(“对”),并将每对的平均值(“子”)添加到数据集中。然后对所得的30点进行PCA并绘制PC1与PC2的关系图。 发生了一件了不起的事情:每个“家庭”形成一个紧密相连的三元组。当然,在最初的10,000维空间中,每个孩子都更接近其父母中的每个,因此可以期望在PCA空间中每个孩子也都离父母更近。但是,在PCA空间中,每对父母也彼此靠近,即使在原始空间中,它们只是随机点! 在PCA预测中,孩子如何设法将父母团结在一起? \quad\quad\quad\quad 人们可能会担心,这在某种程度上受到以下事实的影响:孩子的规范低于父母。这似乎无关紧要:如果我将子代生成为(x + y)/ 2–√(X+ÿ)/2(x+y)/\sqrt{2},其中XXx和ÿÿy是父母点,那么它们平均具有与父母相同的范数。但是我仍然在PCA领域从质上观察到相同的现象: \quad\quad\quad\quad 这个问题使用的是玩具数据集,但其动机是我在一个全基因组关联研究(GWAS)的真实数据集中所观察到的,其中维度是单核苷酸多态性(SNP)。该数据集包含母婴三重奏。 码 %matplotlib notebook import numpy as np import matplotlib.pyplot as plt np.random.seed(1) def generate_families(n = 10, p = 10000, divide_by = 2): X1 = np.random.randn(n,p) # mothers X2 = np.random.randn(n,p) # fathers X3 = (X1+X2)/divide_by # …

1
根据数学理论从“倾斜均匀分布”生成随机数
出于某种目的,我需要从“倾斜均匀”分布中生成随机数(数据)。该分布的“斜率”可能会在某个合理的间隔内变化,然后我的分布应基于该斜率从均匀变为三角形。这是我的推论: 让我们简化一下,生成数据格式为到000(蓝色,红色是均匀分布)。为了获得蓝线的概率密度函数,我只需要那条线的方程式。从而:乙BB F(x )= t g(φ )X + ÿ(0 )f(x)=tg(φ)x+Y(0)f(x) = tg(\varphi)x + Y(0) 由于(图片): Ť g ^(φ )ÿ(0 )= 1 / B - Y(0 )B / 2= 1乙- 吨克(φ )B2tg(φ)=1/B−Y(0)B/2Y(0)=1B−tg(φ)B2\begin{align} tg(\varphi) &= \frac{1/B - Y(0)}{B/2} \\[5pt] Y(0) &= \frac{1}{B} - tg(\varphi)\frac{B}{2} \end{align} 我们有: F(x )= t g(φ )X + …

2
您将如何可视化细分渠道?(您可以使用Python做到吗?)
我在Moz上看到了这篇帖子,其中介绍了细分的营销渠道: 这种事情在我的工作中将具有很大的价值。我不知道如何可视化原始数据以显示像这样的分段漏斗。这个想法是销售线索来自不同的来源(我们将其用于细分数据),并在转化为交易时经历了多个阶段。从每个阶段到另一个阶段都有下降。每个切片的宽度由每个切片中引线的绝对数量确定。[ 编辑:注意,当涉及每个切片右侧指定的数字时,此处用作参考的图像会产生误导。切片的宽度和数量之间似乎没有任何关系。该图像仅应作为分段漏斗设计的参考]。 无论如何,任何想法如何形象化?如果可能的话,我很想用Python做到这一点。 如果有人需要一些虚拟数据,这是一个Google文档。 期待您的见解。谢谢!

1
scikit学习中的聚类惯性公式
我想使用pandas和scikit learning在python中编码kmeans集群。为了选择好的k,我想对Tibshirani和al 2001(pdf)中的Gap Statistic进行编码。 我想知道是否可以使用scikit的惯性_结果并调整间隙统计公式,而不必重新编码所有距离计算。 有谁知道scikit中使用的惯性公式/是否知道使用高级距离函数重新编码间隙统计信息的简便方法?

2
如何在R中拟合像的回归?
我有一些时间序列数据,其中测得的变量是离散的正整数(计数)。我想测试一下是否随着时间的推移出现上升趋势(或没有)。自变量(x)的范围是0-500,因变量(y)的范围是0-8。 我以为我可以通过y = floor(a*x + b)使用普通最小二乘法(OLS)拟合形式的回归来回答这个问题。 我将如何使用R(或Python)执行此操作?是否有现有的程序包,还是最好编写自己的算法? PS:我知道这不是理想的技术,但是我需要做一个我可以理解的相对简单的分析-我的背景是生物学而不是数学。我知道我违反了有关测量变量误差以及测量随时间变化的独立性的假设。
9 r  regression  python 

2
评估细胞信号数据时间序列中的峰值
我正在测量细胞信号测量中是否存在响应。我要做的是首先对数据的时间序列应用平滑算法(Hanning),然后检测峰值。我得到的是: 如果我想使响应的检测比“是的,您看到连续下降的趋势有所提高”更加客观,那么最好的方法是什么?通过线性回归确定峰与基线之间的距离吗? (我是python编码人员,几乎不了解统计信息) 谢谢

5
计算正态分布的百分位数
参见此维基百科页面: http://en.wikipedia.org/wiki/Binomial_proportion_confidence_interval#Agresti-Coull_Interval 要获得Agresti-Coull间隔,需要计算正态分布的百分位数,称为 žzz。如何计算百分位数?Wolfram Mathematica和/或Python / NumPy / SciPy中是否有现成的函数可以执行此操作?

1
朴素贝叶斯与递归神经网络(LSTM)之间的区别
我想对文本进行情感分析,浏览了几篇文章,其中一些正在使用“朴素贝叶斯”,另一些是“递归神经网络(LSTM)”,另一方面,我看到了用于情感分析的python库,是nltk。它使用“朴素贝叶斯”(Naive Bayes)谁能解释使用两者的区别? 我也阅读了这篇文章,但对两者都不清楚。 贝叶斯网络,神经网络,决策树和Petri网之间的差异

2
为什么这组数据没有协方差?
我对协方差如何工作的理解是,相关数据应具有较高的协方差。我遇到了一种情况,我的数据看起来很相关(如散点图所示),但协方差接近零。如果数据的相关性是相关的,如何将它们设为零? import numpy as np x1 = np.array([ 0.03551153, 0.01656052, 0.03344669, 0.02551755, 0.02344788, 0.02904475, 0.03334179, 0.02683399, 0.02966126, 0.03947681, 0.02537157, 0.03015175, 0.02206443, 0.03590149, 0.03702152, 0.02697212, 0.03777607, 0.02468797, 0.03489873, 0.02167536]) x2 = np.array([ 0.0372599 , 0.02398212, 0.03649548, 0.03145494, 0.02925334, 0.03328783, 0.03638871, 0.03196318, 0.03347346, 0.03874528, 0.03098697, 0.03357531, 0.02808358, 0.03747998, 0.03804655, 0.03213286, 0.03827639, 0.02999955, …

1
如何进行“啤酒和尿布”的相关分析
我的数据等于: shopper_1 = ['beer', 'eggs', 'water',...] shopper_2 = ['diapers', 'beer',...] ... 我想对此数据集进行一些分析,以获得一个具有相似含义的相关矩阵:如果您购买了x,则很可能会购买y。 使用python(或者除MATLAB以外的其他任何东西),我该如何处理?一些基本准则或指向我应该去哪里的指针将有所帮助。 谢谢, 编辑-我学到的东西: 这些类型的问题称为关联规则发现。维基百科上有一篇很好的文章,介绍了一些常用的算法。这样做的经典算法似乎是Apriori,原因是Agrawal等。等 这使我想到了Orange,这是一个python接口的数据挖掘程序包。对于Linux,最好的安装方式似乎是使用提供的setup.py从源代码安装 默认情况下,橙色读取来自文件的输入,格式为几种受支持的方式之一。 最后,一个简单的先验关联规则的学习是简单的橙色。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.