所在公司為交通行業,需要記錄和查詢日常城市過車記錄,一般情況下,抓拍機獲取過車信息經介面給到資料庫,記錄存到資料庫,實際的過車圖片等內容放到存儲單元裡面,後面的查詢就類似與翻看字典,資料庫是目錄,存儲就好比實際的頁數,這樣的模型可以理解。過車數據量猛增以後,傳統的查字典速度太慢,效率不行,需要解決這一問題,就上大數據,那麼大數據是如何做到的呢?網上看了很多也沒能理解到位啊,哪位大神可以解惑啊
謝邀!
希望能通過一個通俗易懂的例子給大家講清楚大數據分散式計算技術。大數據技術雖然包含存儲、計算和分析等一系列龐雜的技術,但分散式計算一直是其核心,想要了解大數據技術,不妨從 MapReduce 分散式計算模型開始。
本文是一篇科普性質的文章,希望能通過一個通俗易懂的例子給大家講清楚大數據分散式計算技術。
大數據分散式計算
正所謂大道至簡,萬變不離其宗,理解了 MapReduce 就理解了大數據分散式處理技術,而理解大數據分散式處理技術,也就理解了大數據技術的核心。
大數據(big data),指無法在一定時間範圍內用常規軟體工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。
大數據需要特殊的技術,以有效地處理大量的容忍經過時間內的數據。適用於大數據的技術,包括大規模並行處理(MPP)資料庫、數據挖掘、分散式文件系統、分散式資料庫、雲計算平台、互聯網和可擴展的存儲系統。
這個問題場景,之前也遇到過。當時主要是通過不同的組件來實現大流量數據的實時處理。
大數據的做法就是分散式計算,或者是流式計算,通過這種方式來提高響應效率。
大數據(big?data),或稱巨量資料,指的是所涉及的資料量規模巨大到無法透過目前主流軟體工具,在合理時間內達到擷取、管理、處理、並整理成為幫助企業經營決策更積極目的的資訊。在北京理工大學大數據搜索與挖掘實驗室張華平博士看來:大數據可以認為是指從客觀存在的全量超大規模、多源異構、實時變化的微觀數據中,利用自然語言處理、信息檢索、機器學習等技術抽取知識,轉化為智慧的方法學。也可以理解為運用計算機技術整合已有資源。
根據樓主遇到的問題我來分享一個案例,來理解大數據挖掘:
某大廈電力數據挖掘
得到的數據情況為:238個房間每一天的用電數據,總共是三百多天,期間工作日是256天,計算其單日用電量。基於這個數據傳統的數據聚合、數據基本分類、數據統計曲線等簡單工作便略去了。
這裡涉及到的一項工作便是計算空置率,空置率的計算對經濟預測,尤其是微觀經濟的洞察和宏觀經濟的研判具有很強的現實意義。可以看到,這裡空置房間的標準是經過大量數據計算出來的。其實在二三線城市不錯的寫字樓,其空置率也達到了32%。除此之外,還可以精確預測每個房間的總體用電情況,由此來推導房間中辦公的人數。
以上是對大數據的簡單介紹,希望可以幫助到您,為您推薦一本北京理工大學大數據搜索與挖掘實驗室張華平博士著作的書籍《大數據搜索與挖掘》,裡面介紹的非常全面,同時也可以下載一下張華平博士研發的NLPIR大數據語義智能分析平台(http://ictclas.nlpir.org),進行實際數據分析,幫助您解決數據挖掘上面的問題。
謝邀。說說自己的看法。
首先你這個問題是要解決一個業務需求問題。你先把業務需求等相關場景想明白,不要一上來就大數據。
在我看來抓拍機是一個重點,抓拍機是有固定位置的,無論是在路邊,還是在桿塔上,其高度、清晰度等都是有一定的。這是在當初架設的時候就應該有調試確定的。這就決定了它能抓拍到的東西是啥。交通管理行業說到底管的是車牌。如果車輛沒有車牌你就無從管。也很難追查。因此這裡關鍵就是識別車牌。而識別車牌是圖像識別技術的工作。也就是說一旦識別出並掌握了這個信息,相關的時間地點等都不是問題,從而找到涉事的相關車輛人員信息易如反掌。進而想分析什麼都是手到擒來。所以你這個系統的關鍵不是一上來就搞什麼大數據,而是先要搞圖像識別,一旦做好這個那就算用普通的數據統計分析,也輕鬆可以搞定你這個業務需求。
可懂我的意思了?你自己再核計核計吧!
我們來舉個例子,飯館裡會和面的,叫做面案。宣傳隊裡面,用白面來做漿糊的,其實也是和面,是宣傳員。那麼,和面的到底是面案還是宣傳員呢?用白面的,到底是宣傳隊還是飯館呢。不是用了hadoop,spark,hive等就是大數據了,大數據是一個理念。
你真的是搞大數據的嗎?(1)
讓數據能賺錢
題主的問題本身就已經很好的詮釋了大數據的前生今世,也很好的定義了大數據的實質。
事實上截至到今天為止 (2019年4月), 資料庫(關係型資料庫,非關係型資料庫) 仍然是大多數環境下、大數據背景下的核心解決方案。無論如何理解大數據,核心目的就是要查詢快!
假如我告訴你,隨著硬體技術、存儲技術的發展(如量子計算),PB 級別的數據都秒查,還有人關心什麼大數據小數據和解決方案嗎?所以說現在所有的方案都是基於硬體還沒nb到那種程度說的。
作為一個技術人員,我用幾句簡單的技術術語來幫助理解大數據:大資料庫,把表(欄位,記錄)分開放 (表可以是傳統資料庫表,或者直接文件CSV,JSON等),使用類似傳統的SQL 語句來查詢 (HIVE,HBASE,SPARK), 如果不會SQL 就用其他語言如 R,Python 來查詢。
無論什麼大網站小網站,核心是分布計算(也就是怎麼通過現有的硬體軟體怎麼化整為零),而不是什麼大數據本身。
其實我就是想表達從數據量小,用傳統的方式處理和數據量大了後,用大數據來處理,兩者的架構有什麼區別;或者說以前的數據量很小,用傳統方式,那麼數據量大了以後,需要建新基於大數據的存儲資料庫,老的資料庫就不用或者什麼的,我的表述也可能有些問題吧