轉自公眾號『機械生探路互聯網』

作者: @趙之宇

數據清洗是數據分析師

的基本功,可以說是沒個數據分析師都必須要掌握的技能,這其中的基礎就是用EXCEL進行數據分析,下面介紹一下一些比較常用的數據清洗的函數。

1、Trim

功能:去除單元格兩端的空格。

語法:=TRIM(text)

text指要移除空格的文本或者單元格名稱

說明:此方法只能刪除字元串首尾的空格,而不能刪除字元串中間的空格!因為英文單詞之間的空格是必須的,Excel不會去除這種空格!

2、Clean

有時文字值包含起始空格、 尾隨或多個嵌入的空格字元。這些字元進行排序、 篩選或搜索時,有時會導致意外的結果。

功能:刪除文本中所有不能列印的字元。

語法:=CLEAN(text)

CLEAN 函數語法具有以下特點:

單元格中的軟回車會生成代碼,雖然肉眼看不到,事實是存在於表格中,此類字元輸出至別的文本,可能會產生亂碼.用CLEAN函數刪除。

3、Concatenate

功能:連接單元格內的內容

語法:= CONCATENATE(text1, [text2], ...)

text1為必需,要聯接的第一個項目。項目可以是文本值、數字或單元格引用。

[text2]表示text2為選填的意思,下同。

說明:concatenate能夠連接的參數最多隻有30個,而&則沒有限制。

4、Mid

功能:提取字元串中間的字元串

語法:= MID(text, start_num, num_chars)

text必填。包含要提取字元的文本字元串。

Start_num必填。文本中要提取的第一個字元的位置。文本中第一個字元的 start_num 為 1,以此類推。

Num_chars必填。指定希望 MID 從文本中返回字元的個數。

5、Left

如果繼續想從出生年月裏提取年份,則需要用到left函數。

功能:提取字元串左邊的字元串

語法:= LEFT(text, [num_chars])

Text,必需。包含要提取的字元的文本字元串。

num_chars,可選。指定要由 LEFT 提取的字元的數量。

Num_chars 必須大於或等於零。

如果 num_chars 大於文本長度,則 LEFT 返回全部文本。

如果省略 num_chars,則假定其值為 1。

6、right

與left類似,如果想從出生年月裏提取月日,則需要用到right函數。

功能:提取字元串右邊的字元串

語法:=RIGHT(text,[num_chars])

text 必需。包含要提取字元的文本字元串。

num_chars可選。指定希望RIGHT提取的字元數。

7、repalce

功能:替換字元串中的連續幾個字元或者某個字元

語法:= REPLACE(old_text, start_num, num_chars, new_text)

Old_text必填。要替換其部分字元的文本。

Start_num必填。old_text 中要替換為 new_text 的字元位置。

Num_chars必填。old_text 中希望 REPLACE 使用 new_text 來進行替換的字元數。

New_text必填。將替換 old_text 中字元的文本。

8、substitute

功能:替換字元串中的連續幾個字元或者某個字元

語法:=SUBSTITUTE(text, old_text, new_text, [instance_num])

text必填。需要替換其中字元的文本,或對含有文本(需要替換其中字元)的單元格的引用。

Old_text必填。需要替換的文本。

New_text必填。用於替換 old_text 的文本。

Instance_num雖然日程表需要數據點之間常量的步驟,預測.指定要用 new_text 替換 old_text 的事件。如果指定了 instance_num,則只有滿足要求的 old_text 被替換。否則,文本中出現的所有 old_text 都會更改為 new_text。

9、find

功能:用於查找其他文本字元串(within_text)內的文本字元串(find_text),並從within_text的首字元開始返回find_text的起始位置編號。也可使用SEARCH查找其他文本字元串中的某個文本字元串,但是,FIND和SEARCH不同,FIND區分大小寫並且不允許使用通配符。

用大白話解釋為查找內容在第幾個字的位置,大小寫算不同內容。

語法:=FIND(find_text,within_text,start_num)

find_text必填。是要查找的文本。

within_text必填。是包含要查找文本的文本。

start_num。指定開始進行查找的字元。within_text中的首字元是編號為1的字元。如果忽略start_num,則假設其為1。

find函數還可以和left等函數結合,效率更高

Tao:小白從零開始數據分析02—Excel常用數據聚類及統計方法匯總?

zhuanlan.zhihu.com
圖標

更多知識可以關注公眾號『機械生探路互聯網

機械生探路互聯網

有一起轉行的小夥伴可以私信我,加個好友分享資料


推薦閱讀:
相關文章