转自公众号『机械生探路互联网』

作者: @赵之宇

数据清洗是数据分析师

的基本功,可以说是没个数据分析师都必须要掌握的技能,这其中的基础就是用EXCEL进行数据分析,下面介绍一下一些比较常用的数据清洗的函数。

1、Trim

功能:去除单元格两端的空格。

语法:=TRIM(text)

text指要移除空格的文本或者单元格名称

说明:此方法只能删除字元串首尾的空格,而不能删除字元串中间的空格!因为英文单词之间的空格是必须的,Excel不会去除这种空格!

2、Clean

有时文字值包含起始空格、 尾随或多个嵌入的空格字元。这些字元进行排序、 筛选或搜索时,有时会导致意外的结果。

功能:删除文本中所有不能列印的字元。

语法:=CLEAN(text)

CLEAN 函数语法具有以下特点:

单元格中的软回车会生成代码,虽然肉眼看不到,事实是存在于表格中,此类字元输出至别的文本,可能会产生乱码.用CLEAN函数删除。

3、Concatenate

功能:连接单元格内的内容

语法:= CONCATENATE(text1, [text2], ...)

text1为必需,要联接的第一个项目。项目可以是文本值、数字或单元格引用。

[text2]表示text2为选填的意思,下同。

说明:concatenate能够连接的参数最多只有30个,而&则没有限制。

4、Mid

功能:提取字元串中间的字元串

语法:= MID(text, start_num, num_chars)

text必填。包含要提取字元的文本字元串。

Start_num必填。文本中要提取的第一个字元的位置。文本中第一个字元的 start_num 为 1,以此类推。

Num_chars必填。指定希望 MID 从文本中返回字元的个数。

5、Left

如果继续想从出生年月里提取年份,则需要用到left函数。

功能:提取字元串左边的字元串

语法:= LEFT(text, [num_chars])

Text,必需。包含要提取的字元的文本字元串。

num_chars,可选。指定要由 LEFT 提取的字元的数量。

Num_chars 必须大于或等于零。

如果 num_chars 大于文本长度,则 LEFT 返回全部文本。

如果省略 num_chars,则假定其值为 1。

6、right

与left类似,如果想从出生年月里提取月日,则需要用到right函数。

功能:提取字元串右边的字元串

语法:=RIGHT(text,[num_chars])

text 必需。包含要提取字元的文本字元串。

num_chars可选。指定希望RIGHT提取的字元数。

7、repalce

功能:替换字元串中的连续几个字元或者某个字元

语法:= REPLACE(old_text, start_num, num_chars, new_text)

Old_text必填。要替换其部分字元的文本。

Start_num必填。old_text 中要替换为 new_text 的字元位置。

Num_chars必填。old_text 中希望 REPLACE 使用 new_text 来进行替换的字元数。

New_text必填。将替换 old_text 中字元的文本。

8、substitute

功能:替换字元串中的连续几个字元或者某个字元

语法:=SUBSTITUTE(text, old_text, new_text, [instance_num])

text必填。需要替换其中字元的文本,或对含有文本(需要替换其中字元)的单元格的引用。

Old_text必填。需要替换的文本。

New_text必填。用于替换 old_text 的文本。

Instance_num虽然日程表需要数据点之间常量的步骤,预测.指定要用 new_text 替换 old_text 的事件。如果指定了 instance_num,则只有满足要求的 old_text 被替换。否则,文本中出现的所有 old_text 都会更改为 new_text。

9、find

功能:用于查找其他文本字元串(within_text)内的文本字元串(find_text),并从within_text的首字元开始返回find_text的起始位置编号。也可使用SEARCH查找其他文本字元串中的某个文本字元串,但是,FIND和SEARCH不同,FIND区分大小写并且不允许使用通配符。

用大白话解释为查找内容在第几个字的位置,大小写算不同内容。

语法:=FIND(find_text,within_text,start_num)

find_text必填。是要查找的文本。

within_text必填。是包含要查找文本的文本。

start_num。指定开始进行查找的字元。within_text中的首字元是编号为1的字元。如果忽略start_num,则假设其为1。

find函数还可以和left等函数结合,效率更高

Tao:小白从零开始数据分析02—Excel常用数据聚类及统计方法汇总?

zhuanlan.zhihu.com
图标

更多知识可以关注公众号『机械生探路互联网

机械生探路互联网

有一起转行的小伙伴可以私信我,加个好友分享资料


推荐阅读:
相关文章