Answers:
由于(仍然)没有人打勾,因此我认为您会遇到一些实际问题,主要是因为您尚未指定要转换为哪种类型的向量numeric
。我建议您应该应用transform
函数以完成任务。
现在,我将演示某些“转换异常”:
# create dummy data.frame
d <- data.frame(char = letters[1:5],
fake_char = as.character(1:5),
fac = factor(1:5),
char_fac = factor(letters[1:5]),
num = 1:5, stringsAsFactors = FALSE)
让我们一目了然 data.frame
> d
char fake_char fac char_fac num
1 a 1 1 a 1
2 b 2 2 b 2
3 c 3 3 c 3
4 d 4 4 d 4
5 e 5 5 e 5
让我们运行:
> sapply(d, mode)
char fake_char fac char_fac num
"character" "character" "numeric" "numeric" "numeric"
> sapply(d, class)
char fake_char fac char_fac num
"character" "character" "factor" "factor" "integer"
现在您可能会问自己:“哪里有异常?” 嗯,我碰到了R中相当独特的东西,这不是在最混杂的东西,但它可以迷惑你,特别是如果你滚进睡前阅读。
这里是:前两列是character
。我故意叫2 次一个fake_char
。发现此character
变量与Dirk在他的回复中创建的变量的相似性。它实际上是一个numerical
转换为的向量character
。3 次和4 次的列是factor
,最后一个是“纯粹的” numeric
。
如果您使用transform
函数,则可以将转换fake_char
为numeric
,但不能将char
变量本身转换为。
> transform(d, char = as.numeric(char))
char fake_char fac char_fac num
1 NA 1 1 a 1
2 NA 2 2 b 2
3 NA 3 3 c 3
4 NA 4 4 d 4
5 NA 5 5 e 5
Warning message:
In eval(expr, envir, enclos) : NAs introduced by coercion
但是,如果您在fake_char
和上做同样的事情char_fac
,您会很幸运,并且没有NA:
> transform(d, fake_char = as.numeric(fake_char),
char_fac = as.numeric(char_fac))
char fake_char fac char_fac num
1 a 1 1 1 1
2 b 2 2 2 2
3 c 3 3 3 3
4 d 4 4 4 4
5 e 5 5 5 5
如果保存transform data.frame
并检查mode
和class
,则将得到:
> D <- transform(d, fake_char = as.numeric(fake_char),
char_fac = as.numeric(char_fac))
> sapply(D, mode)
char fake_char fac char_fac num
"character" "numeric" "numeric" "numeric" "numeric"
> sapply(D, class)
char fake_char fac char_fac num
"character" "numeric" "factor" "numeric" "integer"
因此,结论是:是的,您可以将character
vector转换为numeric
一个,但numeric
前提是它的元素可以“转换为” 。如果character
向量中只有一个元素,则尝试将该向量转换为numerical
一个时会出错。
只是为了证明我的观点:
> err <- c(1, "b", 3, 4, "e")
> mode(err)
[1] "character"
> class(err)
[1] "character"
> char <- as.numeric(err)
Warning message:
NAs introduced by coercion
> char
[1] 1 NA 3 4 NA
现在,仅出于娱乐目的(或练习),尝试猜测以下命令的输出:
> fac <- as.factor(err)
> fac
???
> num <- as.numeric(fac)
> num
???
问候帕特里克·伯恩斯!=)
有什么帮助我的:如果您要转换的变量范围(或多于一个),可以使用sapply
。
有点荒谬,但仅举例来说:
data(cars)
cars[, 1:2] <- sapply(cars[, 1:2], as.factor)
假设您需要将数据框的第3列,第6-15列和第37列转换为数字,则可以:
dat[, c(3,6:15,37)] <- sapply(dat[, c(3,6:15,37)], as.numeric)
sapply
呼叫包裹在as.data.frame()
右侧,如下面的@Mehrad Mahmoudian所建议,它将起作用。
if x
是dataframe的列名dat
,并且x
是类型因子,请使用:
as.numeric(as.character(dat$x))
as.character
的确是我一直在寻找。否则,转换有时会出错。至少在我看来。
Error: (list) object cannot be coerced to type 'double'
尽管我可以合理确定我的矢量没有字符/标点符号。然后我尝试了,as.numeric(as.character(dat$x))
并且成功了。现在,我不确定我的列是否仅是整数!
尽管您的问题严格地讲数字,但开始R时有许多转换难以理解。我将致力于解决问题的方法。这个问题类似于这个问题。
类型转换在R中可能会很痛苦,因为(1)无法将因子直接转换为数字,必须先将它们转换为字符类,(2)日期是一种特殊情况,通常需要单独处理,并且(3)跨数据帧列循环可能很棘手。幸运的是,“ tidyverse”解决了大多数问题。
该解决方案用于mutate_each()
将函数应用于数据帧中的所有列。在这种情况下,我们要应用该type.convert()
函数,该函数将字符串尽可能转换为数字。由于R喜欢因素(不确定原因),因此应保留字符的字符列将更改为因素。为了解决这个问题,该mutate_if()
函数用于检测作为因素的列并更改为字符。最后,我想展示如何使用lubridate将字符类中的时间戳更改为日期时间,因为这通常也是初学者的一个难题。
library(tidyverse)
library(lubridate)
# Recreate data that needs converted to numeric, date-time, etc
data_df
#> # A tibble: 5 × 9
#> TIMESTAMP SYMBOL EX PRICE SIZE COND BID BIDSIZ OFR
#> <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr>
#> 1 2012-05-04 09:30:00 BAC T 7.8900 38538 F 7.89 523 7.90
#> 2 2012-05-04 09:30:01 BAC Z 7.8850 288 @ 7.88 61033 7.90
#> 3 2012-05-04 09:30:03 BAC X 7.8900 1000 @ 7.88 1974 7.89
#> 4 2012-05-04 09:30:07 BAC T 7.8900 19052 F 7.88 1058 7.89
#> 5 2012-05-04 09:30:08 BAC Y 7.8900 85053 F 7.88 108101 7.90
# Converting columns to numeric using "tidyverse"
data_df %>%
mutate_all(type.convert) %>%
mutate_if(is.factor, as.character) %>%
mutate(TIMESTAMP = as_datetime(TIMESTAMP, tz = Sys.timezone()))
#> # A tibble: 5 × 9
#> TIMESTAMP SYMBOL EX PRICE SIZE COND BID BIDSIZ OFR
#> <dttm> <chr> <chr> <dbl> <int> <chr> <dbl> <int> <dbl>
#> 1 2012-05-04 09:30:00 BAC T 7.890 38538 F 7.89 523 7.90
#> 2 2012-05-04 09:30:01 BAC Z 7.885 288 @ 7.88 61033 7.90
#> 3 2012-05-04 09:30:03 BAC X 7.890 1000 @ 7.88 1974 7.89
#> 4 2012-05-04 09:30:07 BAC T 7.890 19052 F 7.88 1058 7.89
#> 5 2012-05-04 09:30:08 BAC Y 7.890 85053 F 7.88 108101 7.90
mutate_all(type.convert, as.is=TRUE)
代替mutate_all(type.convert)
,则可以删除/避免mutate_if(is.factor, as.character)
缩短命令。as.is
是一个参数type.convert()
,指示是否应将字符串转换为字符或因子。默认情况下,as.is=FALSE
in type.convert()
(即,将字符串转换为因子类而不是字符类)。
蒂姆是正确的,而谢恩则有所遗漏。以下是其他示例:
R> df <- data.frame(a = as.character(10:15))
R> df <- data.frame(df, num = as.numeric(df$a),
numchr = as.numeric(as.character(df$a)))
R> df
a num numchr
1 10 1 10
2 11 2 11
3 12 3 12
4 13 4 13
5 14 5 14
6 15 6 15
R> summary(df)
a num numchr
10:1 Min. :1.00 Min. :10.0
11:1 1st Qu.:2.25 1st Qu.:11.2
12:1 Median :3.50 Median :12.5
13:1 Mean :3.50 Mean :12.5
14:1 3rd Qu.:4.75 3rd Qu.:13.8
15:1 Max. :6.00 Max. :15.0
R>
data.frame
现在,我们获得了-的因子列(计数)和-的数字摘要的摘要,as.numeric()
这是错误的,因为它获得了数字因子水平---和(正确的)摘要as.numeric(as.character())
。
通过以下代码,您可以将所有数据框列转换为数值列(X是我们要转换其列的数据框):
as.data.frame(lapply(X, as.numeric))
为了将整个矩阵转换成数字,您有两种方法:
mode(X) <- "numeric"
要么:
X <- apply(X, 2, as.numeric)
另外,您可以使用data.matrix
函数将所有内容转换为数字,尽管请注意,这些因素可能无法正确转换,因此将所有内容转换为character
第一更安全:
X <- sapply(X, as.character)
X <- data.matrix(X)
如果要同时转换为矩阵和数字,通常会使用最后一个
type.convert()
和使用的通用方式rapply()
:
convert_types <- function(x) {
stopifnot(is.list(x))
x[] <- rapply(x, utils::type.convert, classes = "character",
how = "replace", as.is = TRUE)
return(x)
}
d <- data.frame(char = letters[1:5],
fake_char = as.character(1:5),
fac = factor(1:5),
char_fac = factor(letters[1:5]),
num = 1:5, stringsAsFactors = FALSE)
sapply(d, class)
#> char fake_char fac char_fac num
#> "character" "character" "factor" "factor" "integer"
sapply(convert_types(d), class)
#> char fake_char fac char_fac num
#> "character" "integer" "factor" "factor" "integer"
as.is = TRUE
如果要将字符转换为数字或因子,只需删除即可
matrix
更改为classes=matrix
错误的数字更改,第一个参数必须为模式字符
要将数据框列转换为数字,您只需要做:-
数值因素:-
data_frame$column <- as.numeric(as.character(data_frame$column))
sapply(data_frame,function(x) as.numeric(as.character(x)))
尽管其他人已经很好地涵盖了该主题,但我想补充一下其他快速思考/提示。您可以使用regexp来预先检查字符是否可能仅由数字组成。
for(i in seq_along(names(df)){
potential_numcol[i] <- all(!grepl("[a-zA-Z]",d[,i]))
}
# and now just convert only the numeric ones
d <- sapply(d[,potential_numcol],as.numeric)
有关更复杂的正则表达式以及学习/体验其强大功能的巧妙方法,请访问以下网站:http : //regexr.com/
考虑到可能存在char列,这基于Excel工作表的Get列类型中的 @Abdou 自动回答:
makenumcols<-function(df){
df<-as.data.frame(df)
df[] <- lapply(df, as.character)
cond <- apply(df, 2, function(x) {
x <- x[!is.na(x)]
all(suppressWarnings(!is.na(as.numeric(x))))
})
numeric_cols <- names(df)[cond]
df[,numeric_cols] <- sapply(df[,numeric_cols], as.numeric)
return(df)
}
df<-makenumcols(df)
与hablar :: convert
要轻松地将多列转换为不同的数据类型,可以使用hablar::convert
。简单语法:df %>% convert(num(a))
将a列从df转换为数字。
详细的例子
让我们将的所有列转换mtcars
为字符。
df <- mtcars %>% mutate_all(as.character) %>% as_tibble()
> df
# A tibble: 32 x 11
mpg cyl disp hp drat wt qsec vs am gear carb
<chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr>
1 21 6 160 110 3.9 2.62 16.46 0 1 4 4
2 21 6 160 110 3.9 2.875 17.02 0 1 4 4
3 22.8 4 108 93 3.85 2.32 18.61 1 1 4 1
与hablar::convert
:
library(hablar)
# Convert columns to integer, numeric and factor
df %>%
convert(int(cyl, vs),
num(disp:wt),
fct(gear))
结果是:
# A tibble: 32 x 11
mpg cyl disp hp drat wt qsec vs am gear carb
<chr> <int> <dbl> <dbl> <dbl> <dbl> <chr> <int> <chr> <fct> <chr>
1 21 6 160 110 3.9 2.62 16.46 0 1 4 4
2 21 6 160 110 3.9 2.88 17.02 0 1 4 4
3 22.8 4 108 93 3.85 2.32 18.61 1 1 4 1
4 21.4 6 258 110 3.08 3.22 19.44 1 0 3 1
要将字符转换为数字,必须通过应用将其转换为因数
BankFinal1 <- transform(BankLoan, LoanApproval=as.factor(LoanApproval))
BankFinal1 <- transform(BankFinal1, LoanApp=as.factor(LoanApproval))
您必须使两列具有相同的数据,因为一列不能转换为数值。如果进行一次转换,则会出现以下错误
transform(BankData, LoanApp=as.numeric(LoanApproval))
Warning message: In eval(substitute(list(...)), `_data`, parent.frame()) : NAs introduced by coercion
因此,在执行两列相同数据后适用
BankFinal1 <- transform(BankFinal1, LoanApp = as.numeric(LoanApp),
LoanApproval = as.numeric(LoanApproval))
它将成功将字符转换为数字
如果您不关心保留这些因素,并且想将其应用于可以转换为数值的任何列,则可以使用下面的脚本。如果df是您的原始数据帧,则可以使用以下脚本。
df[] <- lapply(df, as.character)
df <- data.frame(lapply(df, function(x) ifelse(!is.na(as.numeric(x)), as.numeric(x), x)))