R 語言數據分析師養成計劃——從零開始的 14 個任務

4 人贊了文章

1992年,肉絲(Ross Ihaka)和蘿蔔特(Robert Gentleman)兩個人在S語言(貝爾實驗室開發的一種統計用編程語言)的基礎上開始構思一種新的用於統計學分析的開源語言,直到1995年第一個版本正式發布(和各位年齡相仿)。因為他們名字的第一個字母都是R,所以這門語言就被叫做R。這兩個人都是統計學教授出身,再加上R語言的生父S語言,所以R語言在統計學方面有著純正的血統!

如果你平時的工作會涉及到統計學,那麼接觸R語言實在是太正常不過了。因為R語言本身為統計而生,所以你能想到的所有統計相關的工作,R都可以非常簡潔的用幾行命令(甚至1行命令)幫你完成。

在R官網有這樣幾句介紹:「R provides a wide variety of statistical (linear andnonlinear modelling, classical statistical tests, time-series analysis,classification, clustering, …) and graphical techniques, and is highlyextensible. One of Rs strengths is the ease with whichwell-designed publication-quality plots can be produced, including mathematicalsymbols and formulae where needed.」

* R高度的可擴展性正是體現在它那1萬多個包上,你想做的幾乎所有事情都可以用現有的R包來輔助完成(當然,有些工作即便能完成但也不適合)。

* R另一個殺手鐧就是其強大的繪圖功能,正如上面的英文介紹所言,R可以畫圖,畫各種各樣的圖,畫各種各樣高逼格的圖,畫各種各樣高逼格可以直接出版的圖。

* 完善的統計學功能再加上強大的繪圖功能,就是你學習的最大理由。

C君推薦:扎紮實實的養成R語言數據分析師!R語言數據分析師養成計劃——從零開始的14個任務本課程主要是面向小白人士,課程將回答為什麼要學習數據分析?如何學習數據分析?並且從R語言安裝、數據結構探索、R基本語句以及數據可視化、決策樹等內容重點剖析14個任務的操作,並在課後有相應作業的布置、修改,使零基礎的學員完全掌握R語言,完成數據分析師計劃的學習。

大 綱

引言——關於數據分析學習的3個問題

(1)為什麼要學習數據分析

(2)如何學習數據分析

(3)如何理解我們的課程大綱

任務1 走進R語言與Rstudio

任務1是整個課程的開篇,主要介紹R的下載與安裝、R包的管理,幫助學員快速掌握編程界面。

任務2 R的數據結構探析

任務2中,我們主要學習向量、矩陣、列表、數據框、因子等數據類型,學習數據類型的相互轉換。

任務3 熟悉R的基本語句

任務3中,循環、條件、自定義函數是我們的主要學習內容,這裡我們會用到while, for, if, function等命令,這些命令將讓我們處理數據變得遊刃有餘。

任務4 數據可視化——R的基本作圖

可視化是數據分析的核心之一,畢竟大多數人沒有數據分析基礎,也很難從海量數據中直接提煉信息,這時我們就需要運用散點圖、直方圖、餅圖等可視化工具來幫助我們發現數據規律,展示模型結果。

任務5 數據可視化——R的可視化進階

地理信息可視化,簡單的說就是在地圖上做數據展示,我們將用Remap等功能包,讓你的可視化效果變得十分酷炫。

任務6 多元線性回歸——上市企業盈率的影響因素分析

多元線性回歸是所有數據分析模型的入門級模型,它能有效的幫助我們對進行影響因素分析,客戶價值評估等工作。這一任務中,我們將用儘可能通俗的語言來闡述原理,並以案例的方式進行模型實踐。

案例摘要:市盈率往往是評價上市企業的重要指標,但市盈率=每股市價/每股收益,股價在很大程度上由投資者和市場決定,有投機的因素存在,時常偏離這支股票的內在價值,對企業來說,通過改善每股收益來改善市盈率更為實際。因此,我們的案例將選擇把每股收益作為被解釋變數進行分析。

任務7 主成分分析——上市公司財務數據的主成分分析

主成分分析的作用有很多,其中最常用的就是降維、處理多重共線性、構造指標排名。在這一任務中,我們將結合主成分的基本原理來闡述和實踐。

案例摘要:為了分析財務狀況是如何影響企業市盈率的變化,我們整理了128 家該板塊的公司財務報表,但由於財務數據眾多,而且存在多重共線性問題,所以我們運用主成分方法,將各種財務比率變數降維,再建立回歸模型進行研究。

任務8 聚類分析——基於能力指標的基金經理人分類

物以類聚,人以群分。在互聯網2.0時代深耕細分市場是大多企業的共識。那麼如何進行有效的分類才能在這一講中我們將講述聚類的基本方法,其中包括均值聚類和密度聚類。

案例摘要:我們對基金經理人能力指標數據進行了整理,我們在案例中將對經理人按照其能力指標進行分類,給投資者提供參考。

任務9 邏輯回歸——網貸平台信用風險影響因素與識別

邏輯回歸是最常用的分類模型之一,它最大的優勢在於不但能夠分類,而且等給出屬於哪個分類的概率,其影響因素可以分別進行單調性分析。

案例摘要:本案例以國內85家P2P平台為研究樣本(已屏蔽平台名稱),從運營時間(月),平均年化收益率,註冊資金(萬元),平台高管人數,高管信息詳細比例等來評價影響P2P平台出現問題的原因,並對平台進行風險識別。

任務10 決策樹 —— 銀行貸款風險識別

決策樹是最為直觀的決策模型,在這一節中,我們將介紹信息熵,信息增益等概念來幫助大家快速理解決策樹。在案例方面,我們將介紹主流的CART和C5.0模型的應用。

案例摘要:貸款違約風險是銀行面對的主要風險之一,一筆正常的貸款,銀行的利潤是10%左右的利息,但是一筆違約的貸款,銀行則需要付出100%的本金。在我們的案例中,我們將給出如何應用決策樹來進行風險識別的解決方案。

任務11 支持向量機(SVM)——智能投顧方案設計

支持向量機(SVM,Support vector machines)技術是以數學和統計這兩門學科為基礎支持的學習演算法。在業務場景下,SVM通常被用來進行目標識別,樣本分類和回歸分析。在機器學習領域,「機」(machine)表示演算法的意思。雖然同屬監督學習演算法,但與神經網路、決策樹不同,支持向量機有著明顯的數學運算和優化技術的基因。

案例摘要:對於股票投資者,選股是基於自身對於市場情況判斷等人為因素來篩選市場中的優質股票,即在當下買入這些優質股持有一定的時間段中,也就是說在選擇時找出自己未來看漲的股票。用SVM來選股的核心在於設計樣本股票的指標,為了能夠綜合不同證券分析方法,本案例SVM模型的特徵選擇會從各個角度選取股票樣本的輸入變數。

任務12 關聯分析——互聯網投資標的的智能推薦

關聯分析的一個典型例子是購物籃分析。該過程通過發現顧客放入其購物籃中的不同商品之間的聯繫,分析顧客的購買習慣。通過了解哪些商品頻繁地被顧客同時購買,這種關聯的發現可以幫助零售商制定營銷策略。其他的應用還包括價目表設計、商品促銷、商品的排放和基於購買模式的顧客劃分。進入互聯網時代,關聯分析的應用已經被各類平台發揮得淋漓盡致,其主要應用場景包括:

網購商品的智能推薦。(互聯網零售)

電信產品的捆綁銷售。(電信運營商)

互聯網投資標的的智能推薦。(互聯網投資平台)

音、視頻節目的智能推薦。(音、視頻平台)

案例摘要:隨著互聯網金融的飛速發展,在互聯網金融平台上尋找投資標的,進行資產投資,已經成為了越來越多投資者的選擇。然而,在互聯網金融平台上進行投資通常需要面對以下三方面特徵(以P2P網貸為例):(1)一個標的(一筆借款)需要多個投資人(出借人)投標才能滿足;(2)投資人通常不具備專業知識;(3)互聯網金融市場的單個標的金額較小,通常一個標的(一筆借款)金額都被限定在1萬元-10萬元之間,而每個投資人都投資每個標的的一部分,那麼投資人就需要完成多個的投標行為才能達成自己的投資需求。因此在互聯網金融平台上,投資人的決策成本較高。

那麼從平台的角度,除了強化風險管理和提高信息透明度以外,還有那些工作可以吸引投資者,降低投資者決策成本,提高平台效率呢?投資標的的智能推薦就是一個不錯的選擇,下面我們就基於關聯演算法來介紹一個投資標的的智能推薦案例。

任務13 神經網路—— P2P網貸的逾期風險識別

神經網路是目前最為熱門的模型,它是通往深度學習的基石,這裡我們將詳細介紹神經網路的基礎知識,為大家的進一步學習後期的深度學習打下堅實的基礎。

案例摘要:在互聯網金融蓬勃發展的環境下,P2P 網貸在我國迅速發展起來。P2P網貸是指通過藉助專業網路平台幫助借貸雙方確立借貸關係並完成相關交易手續的網路借貸,是一種將小額度的資金聚集起來借貸給有資金需求人群的商業模型。對P2P信用風險進行識別是一個十分有意義的研究主題,它能夠幫助P2P網貸投資者降低投資風險,也在一定程度上促進P2P行業的發展。本案例就將基於神經網路對P2P網貸中的信用風險進行識別。

任務14 樸素貝葉斯與文本分析—— 散戶投資者情緒識別

樸素貝葉斯分類方法是一種十分簡單的分類演算法。之所以這個方法叫做樸素貝葉斯分類方法,是因為這種方法的思想真的很樸素,樸素貝葉斯的思想基礎可以簡單的表述為:對於給出的待分類項,求解在此項出現的條件下各個類別出現的概率,哪個最大,就認為此待分類項屬於哪個類別。

案例摘要:投資者情緒識別是業界和學界共同關心的話題。我們認為,當投資者表現出樂觀(正面)情緒,這種情緒將轉化為做多行為,這有助於股票價格上漲;反之,當投資者表現出悲觀(負面)情緒,這種情緒將轉化為做空行為,這有助於股票價格下跌(相關的文獻對於這方面觀點仍有各自的表述)。在這個案例中,我們並不研究情緒與股價的關係,而是希望通過模型來識別論壇中的評論情緒類型。這項工作是後期各種基於情緒指標的交易策略的前提和基礎。

任務15 總結

(1)對所有學習的模型進行綜述

(2)對後期學習給出建議

來源: CDA數據分析師

圖片未顯示,點擊後可以關注微信公眾號「四川CDA數據分析師」。


推薦閱讀:
查看原文 >>
相关文章