R語言之數據處理(三)

終於來到數據處理的最後一部分——特殊文本的處理，這章節主要介紹R語言一些對文本的處理函數，此處我們需要了解一下stringr包中的相關函數。除了函數之後，也會說一下正則表達式的相關內容。如果能夠熟練地使用stringr包和正則表達式，在文本挖掘任務和網路文本抓取上必定是有很大的方便。

一、正則表達式

正則表達式其實如果有一些編程基礎的小夥伴都應該會接觸過，就和資料庫或者excel的通配符用處一樣，正則表達式通過用特定的字元去代表一類字元，從而在文本處理的時候能夠識別出整類字元並加以操作，下面就介紹一下R語言中正則表達式一些基礎。

·在R中，句號「.」是最為廣義化的正則式，它可是匹配任意字元。而中括弧「[]」，括弧中所包含的字元都會被匹配到，比如[A-Z]表示A-Z共26個大寫字母任意一個。

·上箭頭"^"與"[]"結合，如[^[A-D]]，表示匹配A-D四個字元以外的字元。·為了提高編寫代碼的效率，可以加入字元量化符，比如cccc可以用c{4}代替，具體的量化符下面會有總結表，就不再敘述。·如果先按照固定的字元模式匹配時，可以使用小括弧「()」,將字元模式用()括住。

·在正則表達式中，將有特殊含義的字元稱為元字元，比如有上面"."，"[]"，"()"，"^"等等。為了準確匹配它們，需要在其前加上兩個斜槓""。在R中""會被解釋為單個字元，在正則表達式中單個斜槓""會被解釋為引入一個轉義序列。所以在使用特殊含義字元中(下面會有總結表)時，就需要注意轉義的問題了。

1.預定義的字符集