數據的安全性是最大的隱患;

對接觸數據的人的綜合素質要求也會更高,首先就是要保證數據的完整性避免倒買倒賣或其他一些對數據不利的行為產生;

信息的暴露短時間內會影響到個人的聲譽,長時間來說也有可能規範大家的行為。


大數據中資料庫方面迫切需要解決的幾個問題:

第一類技術是存儲——同樣的信息在當下設備中佔用的空間比之前小。當然,這並不是簡簡單單的數據壓縮。從資訊理論的角度講,就是要去除數據的冗餘,但是在去除冗餘的時候,對應的數據讀寫處理要做一些調整改變。例如在郵件中,同一份附件在所有的郵件中只存一份,就可以大大節省空間,當然這會導致郵件中文件ERP管理系統的改變。再例如,圖像的存儲由點陣變成向量,也可以大大節省空間,但是這樣就要改變圖像的讀和寫的方式,這是我們還未攻克下來的難題。

第二類技術涉及數據安全,這裡所提到的「數據安全」是指數據不丟失、不損壞,而不是指防止數據被盜。在過去,防止數據不丟失的最簡單的辦法就是多存幾個拷貝,放到不同的地點,這樣做雖然數據是安全了,但是顯然並不經濟實惠。後來改進成存3+1份,前3份內容完全相同,最後一份是為了方便校驗和恢複信息,內容不同,這樣只需要存4份即可,大大節省了存儲的空間。

信息存儲相關技術並不侷限在研究如何文件儲存大小上,還需要研究怎樣存儲信息才能便於用戶調用使用。在大數據之前,人們在設計文件系統和數據存儲格式時,主要考慮的是規模較小、維度較少的結構化的數據。到了大數據時代,因為數據量和維度都劇增,大數據在形式上也並不遵循什麼固定的格式,導致了數據在形式上難以整合,所以我們需要對過去的數據進行重組優化。按照過去數據特點,對大使據的使用並不是高效的、因此需要重新設計通用、有效和便於使用的數據表示方式和存儲方式。

我們可以通過一個例子來說明大數據的存儲和過去數據的不同。大數據由於量大,隨機的訪問就成為一個難題,為了做到這一點,需要對數據建立索引,而過去數據量不大時,索引實際上並非急需的。建立素引對於有些數據並非難事,比如機器系統產生的日去和互聯網的網頁數據。前者雖然量大,但是每一條記錄中欄位

是清晰的,它們的描述、檢索和隨機訪問並不是什麼大問題。網頁的數據雖然顯得雜亂一些,但是它們都是通過超鏈接文本組織起來的,從一個網頁就可以找到下一個,而且網頁文本的顆粒度(所涉及到的辭彙)都很小,因此我們很容易通過關鍵詞把它們索引起來。但是到了媒體數據大量出現時,要想隨機訪問它們就不那麼容易了,比如要想從視頻中找出一個畫面就非常複雜,因為我們就算找到了視頻每一個主幀,也很難根據那些畫面對所有的視頻建立索引。當數據量更大,尤其顆粒度更大之後,這就是一個非常難的技術問題了。比如對很多與醫療相關的數據的隨機訪問就不是那麼容易,它們的基本單元動不動就是幾百兆、上千兆、用現有的技術來檢索它們是不可能的。如果不檢索,就無法隨機訪問,那麼使用時在這麼大量的數據中找到所需要的,耗時特別長,很不實用。除了醫療,還有很多行業,比如半導體設計、飛機設計製造,它們的數據量都很大,而且很複雜。

大數據面臨的另一個技術難題就是如何標準化數據格式,為什麼要實現數據的標準化,這樣更便於不同領域服務同一對象時,能夠達到數據便於溝通交流的目的。在過去,各個公司都有自己的數據格式,它們只在自己的領域使用自己的數據。但是,到了大數據時代,我們希望提高各個領域數據之間的相關性,尤其是大數據多維度的特性,找到各種事物之間的關聯。舉個例子,如果我們能夠將每一個用戶的飲食習慣收集起來,通過可穿戴式設各瞭解他們的生活習慣,然後再和他們的醫療數據甚至是基因數據聯繫起來,就能研究出不同人、不同生活習慣下各種疾病的發病可能性,並且可以建議他們改進飲食習慣,預防疾病。這個前景看起來很美好,但是要實現它就必須先解決數據的描述、檢索和隨機訪問等問題。顯然,對於當下世界上各種各樣的大數據,無法用一個統一的格式來描述,所以這將是大數據當下急需要面臨且攻克的技術之一。


1.大學論文,和這種大學生研究生學術類競賽,動不動就瞎寫大數據,真的很讓人頭大。

2.隱私,隱私泄露,雖然現在也沒啥隱私保護可言,單這個問題應該會隨著改進。

3.大數據發展到極致,會限制感性的行為,完事都用大數據對比,消費,工作,學習,甚至結婚生子都偏向專家化,全理性選擇,想想就可怕。


任何新生事物都會與存量科技有所衝突,衝突在發展中都會解決。

對於大數據時代來說,所有數據的安全性及數據主體的隱私是不能迴避的問題。

歷史洪流的特點是:利大於弊,就會趨利前行,最終為人類服務。


一下僅是個人觀點

信息交流是每個時代都必不可少的一種交流方式,在沒有大數據這個概念之前,人們也每天都在產生和消費這數據,只是在有了大數據這個概念之後這些數據本人們有意的收集整理的起來,所謂的潛在問題大數據本身是沒有問題的,你想一下,在沒有這個概念之前你的身份信息,銀行賬戶聯繫方式等信息也都是存在的,只是這些數據只是形式上的數據,並沒有什麼使用價值,真正有價值的數據是那些在潛意識下所產生的數據也就是行為數據。

而所謂的大數據時代只是人們利用技術手段你平時產生的各種行為數據進行收集整理(搜索方式,行為習慣等數據),當這些數據達到一定的量級就產生了一個質的變化,這就是大數據的實際應用,當然隨著互聯網的發展人們所能產生數據的途徑越來越多,隨著人們和互聯網的融合越來越緊密,這些數據的價值也就越來越大了。

所以對於大數據時代的潛在問題無非就是數據安全與使用許可權的問題,保證數據的合法採集與使用其實並不能完全避免數據的濫用,只有從根本上解決問題纔行。


學歷固然重要


推薦閱讀:
相關文章