Questions tagged «regression»

用于分析一个(或多个)“因变量”和“因变量”之间的关系的技术。

3
多重输出回归的神经网络
我有一个包含34个输入列和8个输出列的数据集。 解决问题的一种方法是采用34个输入并为每个输出列建立单独的回归模型。 我想知道是否可以仅使用一种模型(特别是使用神经网络)解决该问题。 我使用了多层感知器,但是它需要多个模型,就像线性回归一样。序列到序列可以可行吗? 我正在使用TensorFlow。我有代码,但我认为了解多层感知器理论所缺少的内容更为重要。 我了解在MLP中,如果您有一个输出节点,它将提供一个输出。如果您有10个输出节点,那么这是一个多类问题。您从10个输出中选择概率最高的类。但是在我的情况下,可以肯定的是,相同的输入将有8个输出。 可以说,对于一组输入,您将获得某物(X,Y,Z)的3D坐标。就像,输入= {1,10,5,7}输出= {1,2,1}。因此,对于相同的输入{1,10,5,7},我需要为X值Y值和Z建立模型。一种解决方案是使用MLP具有3个不同的模型。但是我想看看我是否可以有一个模型。所以我考虑使用seq2seq。因为编码器接受一系列输入,而解码器提供一系列输出。但是似乎张量流中的seq2seq无法处理浮点值。我对此可能是错的。

5
扩大seaborn热图
我corr()用原始df 创建了df。该corr()DF出来70×70,这是不可能的可视化热图... sns.heatmap(df)。如果我尝试显示corr = df.corr(),则表格不适合屏幕,并且我可以看到所有相关性。它是打印整个df大小而不管其大小还是控制热图大小的方法吗?
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

2
为什么我们需要丢弃一个虚拟变量?
我了解到,为了创建回归模型,我们必须通过将分类变量转换为虚拟变量来加以处理。例如,如果在我们的数据集中存在诸如location之类的变量: Location ---------- Californian NY Florida 我们必须像这样转换它们: 1 0 0 0 1 0 0 0 1 但是,建议无论存在多少个虚拟变量,都必须丢弃一个虚拟变量。 为什么我们需要丢弃一个虚拟变量?

3
为什么我们将偏斜的数据转换为正态分布
我正在针对Kaggle(人类模拟的房价内核:高级回归技术)上的房价竞争解决方案,遇到了以下部分: # Transform the skewed numeric features by taking log(feature + 1). # This will make the features more normal. from scipy.stats import skew skewed = train_df_munged[numeric_features].apply(lambda x: skew(x.dropna().astype(float))) skewed = skewed[skewed > 0.75] skewed = skewed.index train_df_munged[skewed] = np.log1p(train_df_munged[skewed]) test_df_munged[skewed] = np.log1p(test_df_munged[skewed]) 我不确定将偏斜的分布转换为正态分布的需求。请有人可以详细解释一下: 为什么在这里这样做?或这有什么帮助? 这与功能扩展有何不同? 这是功能设计的必要步骤吗?如果我跳过此步骤,可能会发生什么?


2
航空公司票价-应该使用什么分析方法来检测竞争性的价格制定行为和价格相关性?
我想调查航空公司的定价行为-特别是航空公司对竞争对手定价的反应。 就像我说的那样,我对更复杂的分析的知识是非常有限的,我几乎已经完成了所有基本方法来收集数据的整体视图。这包括简单的图形,这些图形已经有助于识别相似的模式。我也在使用SAS Enterprise 9.4。 但是,我正在寻找一种基于数字的方法。 数据集 我正在使用的(自己)收集的数据集包含大约54.000的车费。每天(每天晚上00:00)在60天的时间范围内收集所有票价。 因此,该时间窗口内的每个票价都会出现次,这要取决于票价的可用性以及航班的出发日期(如果超过了票价的收取日期)。 (如果航班的出发日期是过去的日期,则无法为该航班收取票价)nnn 未经格式化的基本上看起来像这样:(伪数据) +--------------------+-----------+--------------------+--------------------------+---------------+ | requestDate | price| tripStartDeparture | tripDestinationDeparture | flightCarrier | +--------------------+-----------+--------------------+--------------------------+---------------+ | 14APR2015:00:00:00 | 725.32 | 16APR2015:10:50:02 | 23APR2015:21:55:04 | XA | +--------------------+-----------+--------------------+--------------------------+---------------+ | 14APR2015:00:00:00 | 966.32 | 16APR2015:13:20:02 | 23APR2015:19:00:04 | XY | +--------------------+-----------+--------------------+--------------------------+---------------+ | 14APR2015:00:00:00 | 915.32 …

2
建模不均匀间隔的时间序列
我有一个连续变量,在一年中以不定期的间隔进行采样。有些日子每小时的观测不只一次,而另一些日子则没有几天。这使得检测时间序列中的模式特别困难,因为某些月份(例如10月)的采样很高,而另一些则没有。 我的问题是对这个时间序列建模的最佳方法是什么? 我相信大多数时间序列分析技术(例如ARMA)都需要固定频率。我可以汇总数据,以获取恒定的样本或选择非常详细的数据子集。使用这两个选项时,我将丢失原始数据集中的某些信息,这些信息可能会揭示不同的模式。 除了可以按周期分解系列之外,我还可以将整个数据集提供给模型,并期望它能够拾取模式。例如,我将分类变量中的小时,工作日和月份进行了转换,并尝试了具有良好结果的多元回归(R2 = 0.71) 我的想法是,诸如ANN之类的机器学习技术也可以从不均匀的时间序列中选择这些模式,但是我想知道是否有人尝试过这种方法,并且可以为我提供一些有关在神经网络中表示时间模式的最佳方法的建议。

1
我应该使用多少个LSTM细胞?
是否有关于我应使用的LSTM电池的最小,最大和“合理”数量的经验法则(或实际规则)?具体来说,我与TensorFlow和property 有关的BasicLSTMCell有关num_units。 请假设我有以下定义的分类问题: t - number of time steps n - length of input vector in each time step m - length of output vector (number of classes) i - number of training examples 例如,训练示例的数量应该大于: 4*((n+1)*m + m*m)*c c单元数在哪里?我基于此:如何计算LSTM网络的参数数量?据我了解,这应该给出参数的总数,该总数应少于训练示例的数量。
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

2
用稀疏数据解方程组
我正在尝试求解一组具有40个自变量(x1,...,x40)和一个因变量(y)的方程式。方程的总数(行数)为〜300,我想求解40个系数的集合,该系数最小化y和预测值之间的总平方误差。 我的问题是矩阵非常稀疏,我不知道用稀疏数据解方程组的最佳方法。数据集的示例如下所示: y x1 x2 x3 x4 x5 x6 ... x40 87169 14 0 1 0 0 2 ... 0 46449 0 0 4 0 1 4 ... 12 846449 0 0 0 0 0 3 ... 0 .... 我目前正在使用一种遗传算法来解决此问题,得出的结果大约是观察到的和预期的两个差异。 任何人都可以提出能够解决稀疏数据方程组的不同方法或技术吗?

3
回归树可以连续预测吗?
假设我有一个平滑函数,如。我有一个训练集d ⊊ { ((X ,Y ^ ),˚F (X ,Y ^ ))| (X ,Y ^ )∈ [R 2 },当然,我不知道˚F虽然我可以评估˚F地方我想要的。F(x ,y)= x2+ y2f(x,y)=x2+y2f(x, y) = x^2+y^2D⊊{((x,y),f(x,y))|(x,y)∈R2}D⊊{((x,y),f(x,y))|(x,y)∈R2}D \subsetneq \{((x, y), f(x,y)) | (x,y) \in \mathbb{R}^2\}ffffff 回归树是否能够找到函数的平滑模型(因此,输入中的微小变化只应该导致输出中的微小变化)? 根据我在第10课:回归树中所读的内容,在我看来,回归树基本上将函数值放入了bin中: 对于经典回归树,每个像元中的模型只是Y的恒定估计值。 当他们写“经典”时,我猜有一个变体,其中的细胞做一些更有趣的事情?

3
在多党系统中使用什么回归来计算选举结果?
我想对议会选举的结果作出预测。我的输出将是每一方收到的百分比。有超过2个参与方,因此逻辑回归不是可行的选择。我可以为每个参与方进行单独的回归,但在那种情况下,结果将在某种程度上彼此独立。它不能确保结果的总和为100%。 我应该使用哪种回归(或其他方法)?是否可以通过特定的库在R或Python中使用此方法?

3
预测最佳通话时间
我有一个数据集,其中包括一组位于加利福尼亚不同城市的客户,呼叫每个客户的时间以及呼叫状态(如果客户接听电话则为True,如果客户未接听则为False)。 我必须找到合适的时间来拜访未来的客户,以便接听电话的可能性很高。那么,解决此问题的最佳策略是什么?我应该将小时数(0,1,2,... 23)归类为分类问题吗?还是应该将其视为时间是连续变量的回归任务?如何确保接听电话的可能性很高? 任何帮助,将不胜感激。如果您让我参考类似的问题,那也很好。 以下是数据的快照。

2
测试数据的功能少于训练数据时该怎么办?
假设我们正在预测商店的销售量,而我的培训数据具有两组功能: 关于带有日期的商店销售的一项(“商店”字段不是唯一的) 一种关于商店类型(此处的“商店”字段是唯一的) 所以矩阵看起来像这样: +-------+-----------+------------+---------+-----------+------+-------+--------------+ | Store | DayOfWeek | Date | Sales | Customers | Open | Promo | StateHoliday | +-------+-----------+------------+---------+-----------+------+-------+--------------+ | 1 | 5 | 2015-07-31 | 5263.0 | 555.0 | 1 | 1 | 0 | | 2 | 5 | 2015-07-31 | 6064.0 | 625.0 …

2
基于向量运算的随机梯度下降?
让我们假设我想使用具有N个样本的数据集来训练随机梯度下降回归算法。由于数据集的大小是固定的,因此我将重复使用数据T次。在每次迭代或“纪元”时,在对整个训练集进行随机重新排序后,我都会使用每个训练样本一次。 我的实现基于Python和Numpy。因此,使用向量运算可以显着减少计算时间。提出批量梯度下降的矢量化实现非常简单。但是,在随机梯度下降的情况下,我无法弄清楚如何避免在每个时期迭代所有样本的外部循环。 有人知道随机梯度下降的任何矢量化实现吗? 编辑:有人问我,如果我的数据集大小固定,为什么要使用在线梯度下降。 从[1]中可以看出,在线梯度下降的收敛速度比批量梯度下降的慢,且经验成本最低。但是,它收敛得更快,达到了预期成本的最小值,从而衡量了通用性能。我想通过交叉验证来测试这些理论结果对我的特定问题的影响。没有矢量化的实现,我的在线梯度下降代码要比批处理梯度下降代码慢得多。这显着增加了完成交叉验证过程所需的时间。 编辑:根据ffriend的要求,我在这里包括了我的在线梯度下降实现的伪代码。我正在解决回归问题。 Method: on-line gradient descent (regression) Input: X (nxp matrix; each line contains a training sample, represented as a length-p vector), Y (length-n vector; output of the training samples) Output: A (length-p+1 vector of coefficients) Initialize coefficients (assign value 0 to all coefficients) Calculate outputs …

1
如何在Octave中实现S形函数?[关闭]
已关闭。这个问题需要细节或说明。它当前不接受答案。 想改善这个问题吗?添加细节并通过编辑此帖子来澄清问题。 2年前关闭。 因此,鉴于将S型函数定义为hθ(x)= g(θ^(T)x),考虑到g = zeros(size(z)),我该如何在Octave中实现此函数?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.