R语言字符串类整理
2021/3/1大约 1 分钟
R语言常用字符串类整理。
字符串类
提示
字符串类允许指定完整类别的字符,如数字、字母等。字符类有两种风格,一种使用[:和:]括在方括号内的预定义名称周围,另一种使用\和特殊字符。
| 字符类 | 说明 |
|---|---|
[:digit:]/\d | 数字 0 1 2 3 4 5 6 7 8 9,相当于[0-9]。 |
\D | 非数字,相当于[^0-9]。 |
[:lower:] | 小写字母,相当于[a-z]。 |
[:upper:] | 大写字母,相当于[A-Z]。 |
[:alpha:] | 所有字母,相当于[[:lower:][:upper:]] or [A-z]。 |
[:alnum:] | 字母和数字,相当于[[:alpha:][:digit:]]或[A-z0-9]。 |
\w | 单词字符,相当于[[:alnum:]_] or [A-z0-9_]。 |
\W | 非单词字符,相当于[^A-z0-9_]。 |
[:xdigit:] | 16进制字符组,相当于[0-9A-Fa-f]。 |
[:blank:] | 空白字符,比如空格和制表符。 |
[:space:] | 间隔字符,包括制表符,换行符,垂直制表符,换页符,回车以及空格。 |
\s | 空格。 |
\S | 非空格。 |
[:punct:] | 标点符号,包括``! " # $ % & ’ ( ) * + , - . / : ; < = > ? @ [ ] ^ _ { |
[:graph:] | 图形字符(人类友好字符),相当于[[:alnum:][:punct:]]。 |
[:print:] | 可打印字符,相当于[[:alnum:][:punct:]\\s]。 |
[:cntrl:] | 控制符,例如\n、\r,相当于[\x00-\x1F\x7F]。 |
示例
# Function to clean text
clean.text <- function(text){
text <- gsub("[^[:alnum:]]", "", text)
text <- gsub(" ", "", text)
text <- tolower(text)
return(text)
}