Questions tagged «python»

Python是一种通常用于机器学习的编程语言。对于(a)涉及Python作为问题的关键部分或预期答案的所有* on-topic *问题,请使用该标签;&(b)关于如何使用Python的问题“不仅仅”。

2
如何在python matplotlib boxplot中命名刻度线
已锁定。该问题及其答案被锁定,因为该问题是题外话,但具有历史意义。它目前不接受新的答案或互动。 Python matplotlib有一个boxplot命令。 通常,图形的所有部分都用数字打勾。如何将刻度线改为名称而不是位置? 为了进行说明,我的意思是在此箱图中类似星期一星期二的标签:

4
边缘情况下精度和召回率的正确值是多少?
精度定义为: p = true positives / (true positives + false positives) 对不对,作为true positives和false positives做法0,精度接近1? 召回相同的问题: r = true positives / (true positives + false negatives) 我目前正在实施统计测试,需要计算这些值,有时分母为0,我想知道在这种情况下应返回哪个值。 PS:请原谅,不恰当的标签,我想用recall,precision和limit,但我不能创造新的标签呢。
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

2
numpy和sklearn中的PCA产生不同的结果
我误会了吗。这是我的代码 使用sklearn import numpy as np import matplotlib.pyplot as plt from mpl_toolkits.mplot3d import Axes3D from sklearn import decomposition from sklearn import datasets from sklearn.preprocessing import StandardScaler pca = decomposition.PCA(n_components=3) x = np.array([ [0.387,4878, 5.42], [0.723,12104,5.25], [1,12756,5.52], [1.524,6787,3.94], ]) pca.fit_transform(x) 输出: array([[ -4.25324997e+03, -8.41288672e-01, -8.37858943e-03], [ 2.97275001e+03, -1.25977271e-01, 1.82476780e-01], [ 3.62475003e+03, …

4
聚类相关矩阵
我有一个相关矩阵,该矩阵说明每个项目如何与另一个项目相关。因此,对于N个项目,我已经具有N * N个相关矩阵。使用此相关矩阵,如何将N个项目聚类在M个仓中,以便可以说第k个仓中的Nk个项目表现相同。请帮我。所有项目值都是分类的。 谢谢。请让我知道是否需要更多信息。我需要使用Python解决方案,但是任何将我推向要求的帮助都会有很大帮助。

3
使用RNN(LSTM)预测时间序列向量(Theano)
我有一个非常简单的问题,但找不到合适的工具来解决。 我有一些长度相同的向量序列。现在,我想在这些序列的训练样本上训练LSTM RNN,然后使其基于几个启动向量来预测长度为的向量的新序列。ññn 我找不到能做到这一点的简单实现。我的基本语言是Python,但是任何几天都不会安装的东西都可以使用。 我尝试使用Lasagne,但是RNN的实现尚未准备好,并且在nntools单独的软件包中。无论如何,我尝试了后者,但是我不知道如何训练它,然后通过一些测试向量对其进行填充,并让它预测新的。块是同样的问题-尽管似乎有些类和函数可以工作(例如blocks.bricks.recurrent),但是LSTM RNN没有可用的文档。 有在Theano,像几个实施RNN LSTM的GroundHog,theano-rnn,theano_lstm和一些文件的代码,但非那些与教程或指导怎么做我想做的。 我发现的唯一可用解决方案是使用Pybrain。但是不幸的是,它缺少Theano的功能(主要是GPU计算),并且是孤立的(没有新功能和支持)。 有谁知道我在哪里可以找到我想要的东西?使用RNN LSTM易于预测载体序列吗? 编辑: 我像这样尝试了Keras: from keras.models import Sequential from keras.layers.core import Dense, Dropout, Activation from keras.layers.embeddings import Embedding from keras.layers.recurrent import LSTM model = Sequential() model.add(Embedding(12, 256)) model.regularizers = [] model(LSTM(256, 128, activation='sigmoid', inner_activation='hard_sigmoid')) model.add(Dropout(0.5)) model.add(Dense(128, 12)) model.add(Activation('sigmoid')) model.compile(loss='mean_squared_error', optimizer='rmsprop') 但是我在尝试适应它时遇到此错误 …

1
在线性回归中使用循环预测变量
我正在尝试使用风速数据(0,359)和一天中的时间(0,23)拟合模型,但是我担心它们不能很好地拟合线性回归,因为它们本身不是线性参数。我想使用Python对其进行转换。我看到有人提到过至少在风速情况下通过取度的正弦和余弦来计算向量均值的方法,但不是很多。 有没有可能有用的Python库或相关方法?

3
朱莉娅(Julia):回顾过去的表现
这篇文章与一个快速变化的事件有关。 我遇到了一个2012年的问题,该问题对朱莉娅进行了很好的讨论,关于朱莉娅是R / Python的替代品,用于各种类型的统计工作。 这是2012年关于朱莉娅的诺言的原始问题 不幸的是,朱莉娅那时还很新,而统计工作所需的工具包有些原始。错误正在被消除。发行版很难安装。等等。 有人对此问题发表了非常恰当的评论: 这就是说,事后才可能回答这个问题还需要5年。到目前为止,Julia缺少统计编程系统的以下关键方面,这些系统可能与R竞争日常用户: 那是在2012年。现在已经到了2015年,并且已经过去了三年,我想知道人们如何看待Julia的成就? 语言本身和整个Julia生态系统是否有更丰富的经验?我会很高兴知道。 特别: 您会建议统计工具的新用户学习R上的Julia吗? 您会建议某人使用哪种Statistics统计用例? 如果R在执行某项任务时很慢,切换到Julia或Python是否有意义? 注意:2015年6月14日首次发布。
19 r  python  computing  julia 

3
如何模拟具有统计意义的数据?
我正在读10年级,正在寻找模拟机器学习科学博览会项目的数据的方法。最终模型将用于患者数据,并将预测一周中某些时间与其在单个患者数据内对药物依从性的影响之间的相关性。坚持值将是二进制的(0表示未服用药物,1表示已服用药物)。我正在寻找一种机器学习模型,该模型能够从一周中的时间之间的关系中学习,并将一周分为21个时间段,一天中的每个时间段分为三个时间段(1是星期一上午,2是星期一下午,等等。)。我正在寻找模拟1,000名患者的数据。每位患者将获得30周的数据。我想插入与一周的时间和遵守相关的某些趋势。例如,在一个数据集中,我可以说一周中的第7个时隙与依从性在统计上有显着关系。为了确定该关系是否具有统计显着性,要求我执行两个样本t检验,将一个时隙与其他每个时隙进行比较,并确保显着性值小于0.05。 但是,与其模拟自己的数据并检查我插入的趋势是否显着,不如倒退工作,也许我使用一个程序,要求我在一定的时隙内分配一个重要的趋势,并坚持执行。二进制数据中包含我所要求的趋势,以及其他时隙中的二进制数据,其中包含一些噪声但没有产生统计上显着的趋势。 是否有任何程序可以帮助我实现这样的目标?或者也许是python模块? 任何帮助(甚至对我的项目的一般性评论)将不胜感激!!

3
如何计算逻辑回归系数的标准误差
我正在使用Python的scikit-learn来训练和测试逻辑回归。 scikit-learn返回自变量的回归系数,但不提供系数的标准误差。我需要这些标准误差来为每个系数计算Wald统计量,然后依次将这些系数进行比较。 我发现了一种关于如何计算逻辑回归系数的标准误差的描述(此处),但是很难理解。 如果您碰巧知道有关如何计算这些标准误差的简单明了的解释,并且/或者可以为我提供一个简单的解释,我将不胜感激!我并不是指特定的代码(尽管请随意发布任何可能有用的代码),而是对所涉及步骤的算法解释。

3
如何在Python中系统地删除共线变量?[关闭]
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 2年前关闭。 到目前为止,我已经通过查看相关表并消除了超过某个阈值的变量,来删除了共线变量作为数据准备过程的一部分。有一种更可接受的方式吗?此外,我知道一次只查看两个变量之间的相关性并不理想,像VIF这样的测量考虑了多个变量之间的潜在相关性。如何系统地选择不表现出多重共线性的变量组合? 我将数据存储在熊猫数据框中,并且正在使用sklearn的模型。

3
在N次成功之前,我该如何模拟翻转?
你和我决定玩一个游戏,大家轮流掷硬币。第一位总共翻转10个头的玩家将赢得比赛。自然,关于谁应该先走有一个争论。 此游戏的模拟结果显示,前一个掷骰的玩家比第二个掷骰的玩家赢6%(第一个掷骰的玩家大约有53%的时间获胜)。我有兴趣对此进行建模分析。 这不是二项式随机变量,因为没有固定的试验次数(直到有人得到10个脑袋时才翻转)。我该如何建模?它是负二项式分布吗? 为了能够重新创建我的结果,这是我的python代码: import numpy as np from numba import jit @jit def sim(N): P1_wins = 0 P2_wins = 0 for i in range(N): P1_heads = 0 P2_heads = 0 while True: P1_heads += np.random.randint(0,2) if P1_heads == 10: P1_wins+=1 break P2_heads+= np.random.randint(0,2) if P2_heads==10: P2_wins+=1 break return P1_wins/N, …


2
是否可以自动化时间序列预测?
我想构建一种算法,该算法能够分析任何时间序列,并“自动”为分析的时间序列数据选择最佳的传统/静态预测方法(及其参数)。 可以做这样的事情吗?如果是,您能给我一些如何解决的技巧吗?

1
Python中的Jenks自然断裂:如何找到最佳断裂数目?
我找到了Jenks Natural Breaks算法的这个Python实现,可以使其在Windows 7计算机上运行。考虑到我的地理数据的大小,它非常快并且可以在很短的时间内找到中断点。在将这种聚类算法用于数据之前,我使用的是(此处)算法。我使用KMeans遇到的问题是找到最佳K值参数,但是我“解决”了它,针对不同的K值启动了算法,并使用(此处)找到了最佳K。sklearn.clustering.KMeans sklearn.metrics.silhouette_score 我的问题是:如果我告诉Natural Breaks算法找到5个类(即K),那么如何确定这是最匹配我的数据的类数?如何验证我选择了最佳的休息时间? 谢谢!

1
在多元线性回归中,为什么预测点的图不位于一条直线上?
我正在使用多元线性回归来描述Y与X1,X2之间的关系。 从理论上,我理解多元回归假设Y与每个X(Y和X1,Y和X2)之间存在线性关系。我没有使用X的任何转换。 因此,我得到的模型具有R = 0.45和所有显着X(P <0.05)。然后我针对X1绘制Y。我不明白为什么作为模型预测的红色圆圈没有形成一条线。正如我之前所说,我希望每对Y和X都由一条线拟合。 该图以这种方式在python中生成: fig, ax = plt.subplots() plt.plot(x['var1'], ypred, 'o', validation['var1'], validation['y'], 'ro'); ax.set_title('blue: true, red: OLS') ax.set_xlabel('X') ax.set_ylabel('Y') plt.show()

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.