Questions tagged «python»

Python是一种通常用于机器学习的编程语言。对于(a)涉及Python作为问题的关键部分或预期答案的所有* on-topic *问题,请使用该标签;&(b)关于如何使用Python的问题“不仅仅”。


2
逻辑回归:Scikit学习与统计模型
我试图理解为什么这两个库的逻辑回归的输出会给出不同的结果。 我使用从加州大学洛杉矶分校idre数据集教程,预测admit基础上gre,gpa和rank。rank被视为分类变量,因此先将其rank_1删除后转换为虚拟变量。还添加了一个拦截列。 df = pd.read_csv("https://stats.idre.ucla.edu/stat/data/binary.csv") y, X = dmatrices('admit ~ gre + gpa + C(rank)', df, return_type = 'dataframe') X.head() > Intercept C(rank)[T.2] C(rank)[T.3] C(rank)[T.4] gre gpa 0 1 0 1 0 380 3.61 1 1 0 1 0 660 3.67 2 1 0 0 0 800 4.00 3 1 …

3
在Tensorflow中构建自动编码器以超越PCA
Hinton和Salakhutdinov在利用神经网络降低数据的维数方面,《科学》(Science) 2006年提出了通过使用深度自动编码器来实现非线性PCA的方法。我曾多次尝试使用Tensorflow构建和训练PCA自动编码器,但我从未获得过比线性PCA更好的结果。 如何有效地训练自动编码器? (后来由@amoeba编辑:这个问题的原始版本包含Python Tensorflow代码,这些代码无法正常运行。您可以在编辑历史记录中找到它。)

7
验证准确性为何会波动?
我有一个四层的CNN,可以使用MRI数据预测对癌症的反应。我使用ReLU激活来引入非线性。列车精度和损耗分别单调增加和减少。但是,我的测试准确性开始出现剧烈波动。我尝试过更改学习率,减少层数。但是,这并不能阻止波动。我什至阅读了这个答案,并尝试按照该答案中的说明进行操作,但是再没有碰运气了。谁能帮我弄清楚我要去哪里错了?

2
libsvm数据格式
我正在使用libsvm(http://www.csie.ntu.edu.tw/~cjlin/libsvm/)工具进行支持向量分类。但是,我对输入数据的格式感到困惑。 从自述文件: 训练和测试数据文件的格式为: <label> <index1>:<value1> <index2>:<value2> ... . . . 每行包含一个实例,并以“ \ n”字符结尾。对于分类,<label>是指示类标签的整数(支持多类)。为了回归,<label>目标值可以是任何实数。对于一类SVM,不使用它,因此可以是任何数字。该对<index>:<value>提供一个特征(属性)值:<index>是一个从1开始的整数,<value> 是一个实数。唯一的例外是预先计算的内核, <index>从0开始;请参阅预计算内核部分。索引必须按升序排列。测试文件中的标签仅用于计算准确性或错误。如果未知,则在第一列中填入任何数字。 我有以下问题: 有什么用<index>?它有什么作用? 不同数据实例的相同索引值之间是否存在对应关系? 如果我错过/跳过两者之间的索引怎么办? 我问是因为libsvm的软件包中包含的数据文件* heart_scale *在第12行中,索引从2开始。<value>索引1 的for 是否被视为未知/丢失?注意:软件包随附的tools / checkdata.py工具表示* heart_scale *文件正确。


1
sklearn分类报告中的数字是什么意思?
下面是从sklearn的sklearn.metrics.classification_report文档中提取的示例。 我不明白的是,为什么我认为班级是预测变量的标签,为什么每个班级都有f1-得分,精度和召回率值?我认为f1分数可以告诉您模型的整体准确性。另外,支持专栏告诉我们什么?我找不到任何相关信息。 print(classification_report(y_true, y_pred, target_names=target_names)) precision recall f1-score support class 0 0.50 1.00 0.67 1 class 1 0.00 0.00 0.00 1 class 2 1.00 0.67 0.80 3 avg / total 0.70 0.60 0.61 5

1
从lmer模型计算效果的可重复性
我刚刚碰到了这篇论文,该论文描述了如何通过混合效应建模来计算测量的可重复性(又称可靠性,又称类内相关性)。R代码为: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

2
为什么Python的scikit-learn LDA无法正常工作,它如何通过SVD计算LDA?
我使用来自scikit-learn机器学习库(Python)的线性判别分析(LDA)进行降维,并对结果有些好奇。我现在想知道LDA scikit-learn正在做什么,以便使结果看起来不同于例如手动方法或R中完成的LDA。如果有人可以在这里给我一些见解,那将是非常不错的。 基本上最令人担忧的是,该图scikit-plot显示了两个变量之间的相关性,其中应该有一个相关性0。 为了进行测试,我使用了虹膜数据集,前两个线性判别式如下所示: IMG-1。通过scikit-learn进行LDA 这基本上与我在scikit-learn 文档中找到的结果一致。 现在,我逐步进行了LDA,并得到了不同的预测。我尝试了不同的方法,以了解发生了什么事情: IMG-2。基于原始数据的LDA(无中心,无标准化) 如果我先对数据进行标准化(z分数归一化;单位方差),这将是分步方法。我只用均值中心进行了相同的操作,这应该导致相同的相对投影图像(并且确实如此)。 IMG-3。均值居中或标准化后的逐步LDA IMG-4。R中的LDA(默认设置) 我将数据居中的IMG-3中的LDA(这将是首选方法)看起来也与我在R中执行LDA的人在帖子中找到的LDA完全相同 参考代码 我不想将所有代码粘贴到这里,但是我将其作为IPython笔记本上传到这里,该笔记本分为我用于LDA投影的几个步骤(请参见下文)。 步骤1:计算d维平均向量mi=1ni∑x∈Dinxkmi=1ni∑x∈Dinxk\mathbf m_i = \frac{1}{n_i} \sum\limits_{\mathbf x \in D_i}^n \; \mathbf x_k 步骤2:计算散点矩阵 2.1类内散布矩阵由以下等式计算:SWSWS_W SW=∑i=1cSi=∑i=1c∑x∈Din(x−mi)(x−mi)TSW=∑i=1cSi=∑i=1c∑x∈Din(x−mi)(x−mi)TS_W = \sum\limits_{i=1}^{c} S_i = \sum\limits_{i=1}^{c} \sum\limits_{\mathbf x \in D_i}^n (\mathbf x - \mathbf m_i)\;(\mathbf x - \mathbf m_i)^T 2.2类间散布矩阵由以下公式计算: 其中是整体平均值。SBSBS_B SB=∑i=1cni(mi−m)(mi−m)TSB=∑i=1cni(mi−m)(mi−m)TS_B …

5
用于更改点分析的Python模块
我正在寻找一个在时间序列上执行变更点分析的Python模块。有很多不同的算法,我想探索其中一些算法的有效性,而不必手动滚动每种算法。 理想情况下,我需要R中的一些模块,例如bcp(贝叶斯变更点)或strucchange软件包。我希望在Scipy中找到一些模块,但是我无法打开任何东西。 我很惊讶其中没有任何设施: statsmodels.tsa:时间序列统计分析工具 scikits.timeseries:扩展scipy的时间序列分析工具 scipy.signal:scipy中的信号处理工具 Python中是否有带有变更点检测算法的模块?

1
Keras,SGD学习率衰减如何起作用?
如果您查看文档http://keras.io/optimizers/,则SGD中有一个用于衰减的参数。我知道随着时间的推移,这会降低学习率。但是,我无法弄清楚它是如何工作的。它是一个乘以学习率的值,例如lr = lr * (1 - decay) 指数吗?另外,如何查看模型使用的学习率?当我model.optimizer.lr.get_value()经过几次拟合后进行打印时,即使我设置了衰减,它也会恢复原始的学习速度。 我还必须设置nesterov = True来使用动量,还是可以使用两种不同类型的动量?例如这样做有一点意义sgd = SGD(lr = 0.1, decay = 1e-6, momentum = 0.9, nesterov = False)

2
Scikit学习中的平均绝对百分比误差(MAPE)
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 2年前关闭。 我们如何使用Python和scikit-learn计算预测的平均绝对百分比误差(MAPE)? 从文档中,我们只有以下4个用于回归的度量函数: metrics.explained_variance_score(y_true,y_pred) metrics.mean_absolute_error(y_true,y_pred) metrics.mean_squared_error(y_true,y_pred) metrics.r2_score(y_true,y_pred)

5
如何使我的神经网络更好地预测正弦波?
在这里,看看: 您可以确切地看到训练数据的结束位置。训练数据从变为。1−1-1个-111个1 我使用Keras和具有tanh激活功能的1-100-100-2密集网络。我根据p和q这两个值计算出的结果为p / q。这样,我仅使用小于1的值就可以实现任何大小的数字。 请注意,我仍然是该领域的初学者,所以请放轻松。

4
如何将新向量投影到PCA空间上?
执行主成分分析(PCA)之后,我想将一个新向量投影到PCA空间上(即在PCA坐标系中找到其坐标)。 我已经使用R计算了R语言的PCA prcomp。现在,我应该可以将向量乘以PCA旋转矩阵。该矩阵中的主要成分应该按行还是按列排列?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

2
如何在多标签分类器上使用scikit-learn的交叉验证功能
我正在一个5个类的数据集上测试不同的分类器,每个实例可以属于一个或多个这些类,因此我正在使用scikit-learn的多标签分类器sklearn.multiclass.OneVsRestClassifier。现在,我想使用进行交叉验证sklearn.cross_validation.StratifiedKFold。这将产生以下错误: Traceback (most recent call last): File "mlfromcsv.py", line 93, in <module> main() File "mlfromcsv.py", line 77, in main test_classifier_multilabel(svm.LinearSVC(), X, Y, 'Linear Support Vector Machine') File "mlfromcsv.py", line 44, in test_classifier_multilabel scores = cross_validation.cross_val_score(clf_ml, X, Y_list, cv=cv, score_func=metrics.precision_recall_fscore_support, n_jobs=jobs) File "/usr/lib/pymodules/python2.7/sklearn/cross_validation.py", line 1046, in cross_val_score X, y = check_arrays(X, …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.