4
在R中清洗格式不一致的数据?
我经常处理凌乱的调查数据,这需要大量清理才能完成任何统计数据。我曾经在Excel中“手动”执行此操作,有时使用Excel公式,有时一个接一个地检查条目。我开始通过编写脚本在R中完成这些任务来做越来越多的任务,这是非常有益的(好处包括记录已完成的操作,减少出错的机会以及在数据集为更新)。 但是我仍然无法有效处理某些类型的数据。例如: > d <- data.frame(subject = c(1,2,3,4,5,6,7,8,9,10,11), + hours.per.day = c("1", "2 hours", "2 hr", "2hr", "3 hrs", "1-2", "15 min", "30 mins", "a few hours", "1 hr 30 min", "1 hr/week")) > d subject hours.per.day 1 1 1 2 2 2 hours 3 3 2 hr 4 4 …
16
r
data-cleaning