如何将数据框列转换为数字类型?


Answers:


267

由于(仍然)没有人打勾,因此我认为您会遇到一些实际问题,主要是因为您尚未指定要转换为哪种类型的向量numeric。我建议您应该应用transform函数以完成任务。

现在,我将演示某些“转换异常”:

# create dummy data.frame
d <- data.frame(char = letters[1:5], 
                fake_char = as.character(1:5), 
                fac = factor(1:5), 
                char_fac = factor(letters[1:5]), 
                num = 1:5, stringsAsFactors = FALSE)

让我们一目了然 data.frame

> d
  char fake_char fac char_fac num
1    a         1   1        a   1
2    b         2   2        b   2
3    c         3   3        c   3
4    d         4   4        d   4
5    e         5   5        e   5

让我们运行:

> sapply(d, mode)
       char   fake_char         fac    char_fac         num 
"character" "character"   "numeric"   "numeric"   "numeric" 
> sapply(d, class)
       char   fake_char         fac    char_fac         num 
"character" "character"    "factor"    "factor"   "integer" 

现在您可能会问自己:“哪里有异常?” 嗯,我碰到了R中相当独特的东西,这不是最混杂的东西,但它可以迷惑你,特别是如果你滚进睡前阅读。

这里是:前两列是character。我故意叫2 一个fake_char。发现此character变量与Dirk在他的回复中创建的变量的相似性。它实际上是一个numerical转换为的向量character。3 和4 的列是factor,最后一个是“纯粹的” numeric

如果您使用transform函数,则可以将转换fake_charnumeric,但不能将char变量本身转换为。

> transform(d, char = as.numeric(char))
  char fake_char fac char_fac num
1   NA         1   1        a   1
2   NA         2   2        b   2
3   NA         3   3        c   3
4   NA         4   4        d   4
5   NA         5   5        e   5
Warning message:
In eval(expr, envir, enclos) : NAs introduced by coercion

但是,如果您在fake_char和上做同样的事情char_fac,您会很幸运,并且没有NA:

> transform(d, fake_char = as.numeric(fake_char), 
               char_fac = as.numeric(char_fac))

  char fake_char fac char_fac num
1    a         1   1        1   1
2    b         2   2        2   2
3    c         3   3        3   3
4    d         4   4        4   4
5    e         5   5        5   5

如果保存transform data.frame并检查modeclass,则将得到:

> D <- transform(d, fake_char = as.numeric(fake_char), 
                    char_fac = as.numeric(char_fac))

> sapply(D, mode)
       char   fake_char         fac    char_fac         num 
"character"   "numeric"   "numeric"   "numeric"   "numeric" 
> sapply(D, class)
       char   fake_char         fac    char_fac         num 
"character"   "numeric"    "factor"   "numeric"   "integer"

因此,结论是:是的,您可以将charactervector转换为numeric一个,但numeric前提是它的元素可以“转换为” 如果character向量中只有一个元素,则尝试将该向量转换为numerical一个时会出错。

只是为了证明我的观点:

> err <- c(1, "b", 3, 4, "e")
> mode(err)
[1] "character"
> class(err)
[1] "character"
> char <- as.numeric(err)
Warning message:
NAs introduced by coercion 
> char
[1]  1 NA  3  4 NA

现在,仅出于娱乐目的(或练习),尝试猜测以下命令的输出:

> fac <- as.factor(err)
> fac
???
> num <- as.numeric(fac)
> num
???

问候帕特里克·伯恩斯!=)


6
当读取数据文件时,“ stringsAsFactors = FALSE”很重要。
罗伯特·布里斯塔

4
我知道这很旧...但是...为什么选择了而不是df $ fake_char <-as.integer(df $ fake_char)的transform()?在R中有多种方法可以执行相同的操作,而我难以理解执行此操作的“正确”方法。谢谢。
ripvlan

因此,绝对不可能将err <-c(1,“ b”,3,4,“ e”)转换为数值向量吗?在excel中,有一个按钮可让您“转换为数字”。将列的任何值设为数字。我试图模仿R。
Flightless13wings

警告!=错误。将混合数字/字符转换为数字时不会出错,会得到警告和一些NA值。
Gregor Thomas

136

有什么帮助我的:如果您要转换的变量范围(或多于一个),可以使用sapply

有点荒谬,但仅举例来说:

data(cars)
cars[, 1:2] <- sapply(cars[, 1:2], as.factor)

假设您需要将数据框的第3列,第6-15列和第37列转换为数字,则可以:

dat[, c(3,6:15,37)] <- sapply(dat[, c(3,6:15,37)], as.numeric)

1
上面代码中的
as.factor

1
当处理索引的向量而不是变量名时
sapply

@MySchizoBuddy至少在我的数据中是正确的。原始df不会考虑“转换”列。他们将保持个性。如果将sapply呼叫包裹在as.data.frame()右侧,如下面的@Mehrad Mahmoudian所建议,它将起作用。
Knowah

这将适用于矩阵吗?我正在尝试使用完全相同的代码进行操作,但是当我检查之后的列的class()时,它仍然显示“字符”而不是“数字”
namore

87

if x是dataframe的列名dat,并且x是类型因子,请使用:

as.numeric(as.character(dat$x))

3
加入as.character的确是我一直在寻找。否则,转换有时会出错。至少在我看来。
Thieme Hennis 2014年

1
为什么需要as.character?我遇到一个错误:Error: (list) object cannot be coerced to type 'double'尽管我可以合理确定我的矢量没有字符/标点符号。然后我尝试了,as.numeric(as.character(dat$x))并且成功了。现在,我不确定我的列是否仅是整数!
vagabond 2015年

2
如果将as.numeric转换为一个因子,它将把级别转换为数字而不是实际值。因此,需要as.character首先将因子转换为字符,然后再将as.numeric转换
MySchizoBuddy 2015年

这是最好的答案
mitoRibo

25

我会加一个评论(不能低评)

只是添加user276042和pangratz

dat$x = as.numeric(as.character(dat$x))

这将覆盖现有列x的值


16

尽管您的问题严格地讲数字,但开始R时有许多转换难以理解。我将致力于解决问题的方法。这个问题类似于这个问题

类型转换在R中可能会很痛苦,因为(1)无法将因子直接转换为数字,必须先将它们转换为字符类,(2)日期是一种特殊情况,通常需要单独处理,并且(3)跨数据帧列循环可能很棘手。幸运的是,“ tidyverse”解决了大多数问题。

该解决方案用于mutate_each()将函数应用于数据帧中的所有列。在这种情况下,我们要应用该type.convert()函数,该函数将字符串尽可能转换为数字。由于R喜欢因素(不确定原因),因此应保留字符的字符列将更改为因素。为了解决这个问题,该mutate_if()函数用于检测作为因素的列并更改为字符。最后,我想展示如何使用lubridate将字符类中的时间戳更改为日期时间,因为这通常也是初学者的一个难题。


library(tidyverse) 
library(lubridate)

# Recreate data that needs converted to numeric, date-time, etc
data_df
#> # A tibble: 5 × 9
#>             TIMESTAMP SYMBOL    EX  PRICE  SIZE  COND   BID BIDSIZ   OFR
#>                 <chr>  <chr> <chr>  <chr> <chr> <chr> <chr>  <chr> <chr>
#> 1 2012-05-04 09:30:00    BAC     T 7.8900 38538     F  7.89    523  7.90
#> 2 2012-05-04 09:30:01    BAC     Z 7.8850   288     @  7.88  61033  7.90
#> 3 2012-05-04 09:30:03    BAC     X 7.8900  1000     @  7.88   1974  7.89
#> 4 2012-05-04 09:30:07    BAC     T 7.8900 19052     F  7.88   1058  7.89
#> 5 2012-05-04 09:30:08    BAC     Y 7.8900 85053     F  7.88 108101  7.90

# Converting columns to numeric using "tidyverse"
data_df %>%
    mutate_all(type.convert) %>%
    mutate_if(is.factor, as.character) %>%
    mutate(TIMESTAMP = as_datetime(TIMESTAMP, tz = Sys.timezone()))
#> # A tibble: 5 × 9
#>             TIMESTAMP SYMBOL    EX PRICE  SIZE  COND   BID BIDSIZ   OFR
#>                <dttm>  <chr> <chr> <dbl> <int> <chr> <dbl>  <int> <dbl>
#> 1 2012-05-04 09:30:00    BAC     T 7.890 38538     F  7.89    523  7.90
#> 2 2012-05-04 09:30:01    BAC     Z 7.885   288     @  7.88  61033  7.90
#> 3 2012-05-04 09:30:03    BAC     X 7.890  1000     @  7.88   1974  7.89
#> 4 2012-05-04 09:30:07    BAC     T 7.890 19052     F  7.88   1058  7.89
#> 5 2012-05-04 09:30:08    BAC     Y 7.890 85053     F  7.88 108101  7.90

请注意,如果使用mutate_all(type.convert, as.is=TRUE)代替mutate_all(type.convert),则可以删除/避免mutate_if(is.factor, as.character)缩短命令。as.is是一个参数type.convert(),指示是否应将字符串转换为字符或因子。默认情况下,as.is=FALSEin type.convert()(即,将字符串转换为因子类而不是字符类)。
LC数据科学家,

15

蒂姆是正确的,而谢恩则有所遗漏。以下是其他示例:

R> df <- data.frame(a = as.character(10:15))
R> df <- data.frame(df, num = as.numeric(df$a), 
                        numchr = as.numeric(as.character(df$a)))
R> df
   a num numchr
1 10   1     10
2 11   2     11
3 12   3     12
4 13   4     13
5 14   5     14
6 15   6     15
R> summary(df)
  a          num           numchr    
 10:1   Min.   :1.00   Min.   :10.0  
 11:1   1st Qu.:2.25   1st Qu.:11.2  
 12:1   Median :3.50   Median :12.5  
 13:1   Mean   :3.50   Mean   :12.5  
 14:1   3rd Qu.:4.75   3rd Qu.:13.8  
 15:1   Max.   :6.00   Max.   :15.0  
R> 

data.frame现在,我们获得了-的因子列(计数)和-的数字摘要的摘要,as.numeric()这是错误的,因为它获得了数字因子水平---和(正确的)摘要as.numeric(as.character())


1
我的荣幸。这是该语言比较愚蠢的角落之一,我认为它是此处较旧的“ R Gotchas”问题的特征。
Dirk Eddelbuettel

14

通过以下代码,您可以将所有数据框列转换为数值列(X是我们要转换其列的数据框):

as.data.frame(lapply(X, as.numeric))

为了将整个矩阵转换成数字,您有两种方法:

mode(X) <- "numeric"

要么:

X <- apply(X, 2, as.numeric)

另外,您可以使用data.matrix函数将所有内容转换为数字,尽管请注意,这些因素可能无法正确转换,因此将所有内容转换为character第一更安全:

X <- sapply(X, as.character)
X <- data.matrix(X)

如果要同时转换为矩阵和数字,通常会使用最后一个


12

如果您遇到以下问题:

as.numeric(as.character(dat$x))

看一下您的小数点。如果它们是“,”而不是“。” (例如“ 5,3”)无效。

潜在的解决方案是:

as.numeric(gsub(",", ".", dat$x))

我相信这在一些非英语国家非常普遍。


8

type.convert()和使用的通用方式rapply()

convert_types <- function(x) {
    stopifnot(is.list(x))
    x[] <- rapply(x, utils::type.convert, classes = "character",
                  how = "replace", as.is = TRUE)
    return(x)
}
d <- data.frame(char = letters[1:5], 
                fake_char = as.character(1:5), 
                fac = factor(1:5), 
                char_fac = factor(letters[1:5]), 
                num = 1:5, stringsAsFactors = FALSE)
sapply(d, class)
#>        char   fake_char         fac    char_fac         num 
#> "character" "character"    "factor"    "factor"   "integer"
sapply(convert_types(d), class)
#>        char   fake_char         fac    char_fac         num 
#> "character"   "integer"    "factor"    "factor"   "integer"

3
这是最灵活的解决方案-值得赞扬!
理查德·博德

应该是一个最佳答案。as.is = TRUE如果要将字符转换为数字或因子,只需删除即可
qfazille

试图更改data.frame中的一堆列,这些列的类型matrix更改为classes=matrix错误的数字更改,第一个参数必须为模式字符
add-semi-colons

1
这是该主题中的最佳答案。
yuk

3

要将数据框列转换为数字,您只需要做:-

数值因素:-

data_frame$column <- as.numeric(as.character(data_frame$column))

同样,此答案不会在当前答案中添加任何内容。此外,这也不是将因子转换为数值的首选方法。有关首选方法,请参见stackoverflow.com/q/3418128
BenBarnes

更好的答案是:sapply(data_frame,function(x) as.numeric(as.character(x)))
data-frame-gg 2015年

2

尽管其他人已经很好地涵盖了该主题,但我想补充一下其他快速思考/提示。您可以使用regexp来预先检查字符是否可能仅由数字组成。

for(i in seq_along(names(df)){
     potential_numcol[i] <- all(!grepl("[a-zA-Z]",d[,i]))
}
# and now just convert only the numeric ones
d <- sapply(d[,potential_numcol],as.numeric)

有关更复杂的正则表达式以及学习/体验其强大功能的巧妙方法,请访问以下网站:http : //regexr.com/


1

考虑到可能存在char列,这基于Excel工作表的Get列类型中的 @Abdou 自动回答:

makenumcols<-function(df){
  df<-as.data.frame(df)
  df[] <- lapply(df, as.character)
  cond <- apply(df, 2, function(x) {
    x <- x[!is.na(x)]
    all(suppressWarnings(!is.na(as.numeric(x))))
  })
  numeric_cols <- names(df)[cond]
  df[,numeric_cols] <- sapply(df[,numeric_cols], as.numeric)
  return(df)
}
df<-makenumcols(df)

0

在我的PC(R v.3.2.3)中,apply或提示sapply错误。lapply效果很好。

dt[,2:4] <- lapply(dt[,2:4], function (x) as.factor(as.numeric(x)))

0

如果数据框具有多种类型的列,某些字符,某些数字,请尝试以下操作将仅包含数字值的列转换为数字:

for (i in 1:length(data[1,])){
  if(length(as.numeric(data[,i][!is.na(data[,i])])[!is.na(as.numeric(data[,i][!is.na(data[,i])]))])==0){}
  else {
    data[,i]<-as.numeric(data[,i])
  }
}

0

hablar :: convert

要轻松地将多列转换为不同的数据类型,可以使用hablar::convert。简单语法:df %>% convert(num(a))将a列从df转换为数字。

详细的例子

让我们将的所有列转换mtcars为字符。

df <- mtcars %>% mutate_all(as.character) %>% as_tibble()

> df
# A tibble: 32 x 11
   mpg   cyl   disp  hp    drat  wt    qsec  vs    am    gear  carb 
   <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr>
 1 21    6     160   110   3.9   2.62  16.46 0     1     4     4    
 2 21    6     160   110   3.9   2.875 17.02 0     1     4     4    
 3 22.8  4     108   93    3.85  2.32  18.61 1     1     4     1    

hablar::convert

library(hablar)

# Convert columns to integer, numeric and factor
df %>% 
  convert(int(cyl, vs),
          num(disp:wt),
          fct(gear))

结果是:

# A tibble: 32 x 11
   mpg     cyl  disp    hp  drat    wt qsec     vs am    gear  carb 
   <chr> <int> <dbl> <dbl> <dbl> <dbl> <chr> <int> <chr> <fct> <chr>
 1 21        6  160    110  3.9   2.62 16.46     0 1     4     4    
 2 21        6  160    110  3.9   2.88 17.02     0 1     4     4    
 3 22.8      4  108     93  3.85  2.32 18.61     1 1     4     1    
 4 21.4      6  258    110  3.08  3.22 19.44     1 0     3     1   

0

要将字符转换为数字,必须通过应用将其转换为因数

BankFinal1 <- transform(BankLoan,   LoanApproval=as.factor(LoanApproval))
BankFinal1 <- transform(BankFinal1, LoanApp=as.factor(LoanApproval))

您必须使两列具有相同的数据,因为一列不能转换为数值。如果进行一次转换,则会出现以下错误

transform(BankData, LoanApp=as.numeric(LoanApproval))
Warning message:
  In eval(substitute(list(...)), `_data`, parent.frame()) :
  NAs introduced by coercion

因此,在执行两列相同数据后适用

BankFinal1 <- transform(BankFinal1, LoanApp      = as.numeric(LoanApp), 
                                    LoanApproval = as.numeric(LoanApproval))

它将成功将字符转换为数字



0

如果您不关心保留这些因素,并且想将其应用于可以转换为数值的任何列,则可以使用下面的脚本。如果df是您的原始数据帧,则可以使用以下脚本。

df[] <- lapply(df, as.character)
df <- data.frame(lapply(df, function(x) ifelse(!is.na(as.numeric(x)), as.numeric(x),  x)))

我引用了ShaneJoran的解决方案

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.