全文共3226字,預計學習時長6分鐘

數據科學、大數據、數據湖、人工智慧、數據挖掘、機器學習、深度學習、商業智能、商業分析……近些年,眾多的文章和言論都探討了上述術語。像往常一樣,當某樣東西變得流行時,它的概念、定義和限制就會逐漸消失。

如果你註冊了Linkedin還經常使用的話,你能已經注意到了,光看標題越來越猜不出別人到底在做什麼。我們已經厭倦了眼花繚亂的科技辭彙和縮略詞,也越來越沒有費心去了解它們的含義。

「但是你……你到底是做什麼的?」

有趣的時刻來了……

· 如果詢問者與你職位相同,你可以詳細解釋(或者你應該能做到)。

· 如果詢問者和你是一個部門的,你可能會假設他知道你使用的所有技術,並給出解釋,但你可能會解釋不清。

· 詢問者和你從事的領域不同:那麼考驗你的時候到了。尤其是他開始問你問題的時候……

· 要是你不得不向你的祖母解釋呢?

有一句「名言」(作者被誤傳為阿爾伯特·愛因斯坦)是這樣說的:

如果你能向你的祖母解釋清楚一件事,那你纔是真的理解了。

另一種說法說的是6歲的孩子而不是祖母,但如果我們要說的是技術,那還是祖母吧。

1. 數據科學(DS)

簡單定義為:數據科學是從數據中提取有用知識的一系列技能和技術。

這些技能通常用德魯·康威(Drew Conway)創造的維恩圖(或它的變體)來表示:

三個圓圈分別代表三個不同的領域:編程領域(語言知識、語言庫、設計模式、體系結構等);數學(代數、微積分等)和統計學領域;數據領域(特定領域的知識:醫療、金融、工業等)。

這些領域共同構成了定義中的技能和技術。它們包括獲取數據、數據清理、數據分析、創建假設、演算法、機器學習、優化、結果可視化等等。

數據科學彙集了這些領域和技能,支持和改進了從原始數據中提取見解和知識的過程。

什麼是「有用的知識」?就是可以具有某種價值、可以回答或解決現實世界中問題的知識。

數據科學也可以定義為:研究應用數據處理和分析方面的進展,為我們提供解決方法和答案的領域。

2. 大數據

這個解釋起來就簡單了:大數據就是大量的數據。

要定義大數據,通常會用3V來解釋,這是產生大數據的3個主要原因:

· 容量:收集的數據量每分鐘都在巨幅增長,我們需要使用分散式解決方案(使用多臺機器,而不是非常非常昂貴的超級計算機/主機)來調整我們的存儲和處理工具以適應該容量。

· 速度:處理數據的緊急程度與產生/獲取數據的頻率相關,還與決策中迫切使用數據的需求有關;即使是實時(或者幾乎實時)。

· 種類:數據不再(僅)是結構化的,所以我們得忘記適用於傳統資料庫的東西。我們必須為添加各種格式的新數據源做準備;純文本和多媒體內容都包括在內。

之後更多V被添加進來:真實性 (數據必須真實、可靠、可用)、價值(數據應有商業或社會價值)、易損性(數據必須合法、尊重隱私,並以安全的方式存儲和訪問)。

大數據可能是解決這些問題的方案。不要把它和本文解釋的第一個概念混淆了:大數據就是實現或促進應用數據科學領域先進技術的事物,是數據的本質要求。例如,作為數據科學家,我們試圖從數據集中得到答案。數據集不僅超過了RAM的大小,還超過了硬碟的大小。大數據為我們提供了跨多臺機器承載數據的分散式存儲技術,以及並行處理數據的分散式處理技術。

3. 數據湖

數據湖是一個集中存儲庫,用於存儲各種數據:結構化數據(我們填入表格的數據)、半結構化數據(數據幾乎符合所有格式:CSV,日誌,JSON,XML等)和非結構化數據(文檔、電子郵件、PDF、圖片、視頻、音頻等)。數據是在公司內部生成的還是在公司外部生成的並不重要。

「集中」意味著一切都將存儲在同一個地方,每個人都將訪問那兒獲取數據。這並不是說所有的數據都在同一個機器裏或公司裏;分散式存儲將成為一種慣例,數據還可以儲存在雲端。

不要忽略一個重要的細節:數據是以原始格式存儲的,沒有進行任何更改。這意味著未來進行分析時信息都是完整的;數據只有在使用時才會被處理和轉換。此外,把魚煮熟了再放回湖裡有什麼意義呢? :)

4. 人工智慧

機器能思考嗎?

1950年,艾倫·圖靈(Alan Turing)提出了這個問題,他甚至發明瞭一個著名的測試,來評估機器給出的答案是否與人類的答案相似。從那以後,對人工智慧的幻想就開始了,重點在於模仿人類行為。

你做過那個測試嗎?

人工智慧不是《銀翼殺手》中的複製人,也不是《太空堡壘卡拉狄加》中的賽昂人。我們可以把人工智慧定義為任何具有某種智能行為的機器或軟體。

什麼是智能行為?

問得好!這就是有分歧的地方。隨著機器不斷被開發出新功能,以前被認為是智能的任務也從人工智慧環境中剝離了出來。

我們可將人工智慧定義為能夠從其環境中正確解釋數據、從中學習,並在不斷變化的環境中使用所獲得的知識來執行特定任務的機器或軟體。

例如:一輛會自行停車的汽車不是智能汽車;它只是按照常規測量距離和移動。我們認為能夠自動駕駛的汽車就是智能的,因為它能夠根據周邊發生的事件(在完全不確定的環境中)做出決定。

人工智慧領域包括幾個分支,它們目前正處於鼎盛時期。將其可視化後就能準確地知道我們在說什麼:

5. 數據挖掘

數據挖掘是一項使用數據探索技術發現一些有趣(而不明顯)的模式的技術。

什麼模式?例如:根據某些特徵對數據進行分組的方式、異常檢測(罕見值)、某些觀察值與其他值之間的相關性、某些事件的連續性、行為的識別等。

數據挖掘使用機器學習等方法。

6. 機器學習

機器學習是人工智慧最重要的分支。它的任務是:研究和開發技術,使機器能夠在沒有人類明確指令的情況下自學,從而執行特定的任務。

機器將從輸入數據集(稱為樣本或訓練數據)中學習,根據演算法檢測到的模式建立數學模型。該模型的最終目標是對之後來自相同數據源的數據進行(準確的)預測或決策。

傳統的機器學習主要有兩種類型:

· 監督學習:當訓練數據被「標記」時。這意味著,對於每個樣本,我們都有與觀察到的變數(輸入)和我們想要學習預測或分類的變數(輸出、目標或因變數)相對應的值。在這種類型中,我們找到了回歸演算法(預測數值的演算法)和分類演算法(輸出僅限於某些分類值時)。

· 無監督學習:當訓練數據沒有標記時(我們沒有目標變數)。這裡的目標是找到某種結構或模式,例如對訓練樣本進行分組,這樣我們就可以對未來的樣本進行分類。

傳統的機器學習已經讓位於更複雜或更現代的學習類型:

· 集成方法:基本上是幾種演算法聯合使用,將它們的結果結合起來以獲取更好的結果。儘管XGBoost憑藉在Kaggle的勝利而得名,但最常見的例子還是隨機森林。

· 強化學習:機器通過反覆試誤來學習,這得益於它對周圍環境的迭代做出的反饋。你可能聽說過AlphaGo或AlphaStar(在《星際爭霸2》中實力碾壓人類)。

· 深度學習:皇冠上的寶石……

7. 深度學習

深度學習是機器學習中的一個子領域。

它基於人工神經網路的應用。人工神經網路是一個計算模型,具有分層結構,由相互連接的節點共同工作而形成。這個名字的靈感來自(或試圖模仿)大腦的生物神經網路。

雖然神經網路已經被研究和使用多年,但該領域的進展一直很緩慢;主要是限於計算能力不足。儘管深度學習近些年來取得蓬勃發展,這多少要歸功於神經網路訓練採用了CPU,但其開始不過才十年。

人們普遍認為:任何機器學習問題,無論多麼複雜,都可以通過神經網路解決,只要把它做得足夠大就行了。如今,深度學習的發展帶動了人工智慧其他領域的發展;無論是更傳統的領域(改善獲得的結果),還是最流行的領域:自然語言處理、人工視覺、語音識別、逼真多媒體內容的生成等。

8. 商業智能(BI)

這個術語指在公司內部使用數據,幫助經理做出決策。

BI工具(報告、儀錶板)告訴我們發生了什麼,因此基於這些工具的決策將是被動的。

一個隨機儀錶板

9. 商業分析(BA)

它是傳統商業智能的進化,利用大數據的進步,使企業能夠探索數據,並與更多的數據交互,這些數據不限類型不限來源;所有這些(幾乎)都是實時的。它還利用了數據科學領域的進步,因此從數據中獲得的發現將更有價值。

BA工具告知我們過去和現在發生的;它們也會根據我們的行為預測未來,甚至模擬可能的未來。因此,所做的決定可能是主動的,而不是被動的。

BA的目的是使整個公司都能從這些發現中受益,這意味著公司在所有領域都能做出更好(和更快)的決策。

留言 點贊 關注

我們一起分享AI學習與發展的乾貨

歡迎關注全平臺AI垂類自媒體 「讀芯術」


推薦閱讀:
相關文章