NLP或機器學習中什麼是結構化數據和非結構化數據?
如題!感謝!
來一圖流。用百度的信息抽取數據集做個例子。
貼個圖吧,圖象,文本,視頻,語音,以及社交類網路數據。。。這類屬於典型的非結構化數據
比如一段話就是非結構化的數據,kaggle或天池的比賽裡面,提供的各種csv文件數據,有對應的各個欄位,這些就屬於結構化數據。
這些問題其實谷歌或百度一下,很容易就能得到答案。建議以後多自己嘗試去尋找答案~
自然語言包含的文字、語音、圖像和視頻,都可稱為非結構化數據,這些數據要讓機器讀懂理解,並形成一個結構化的知識庫體系,具有商業化價值,纔是完整的智能系統。
結構化數據一般是存儲在資料庫或其他地方中的結構完好的數據,數值型數據,標籤啊等等都是結構化數據,可以直接拿來各種用,非結構化數據一般是指文本數據等,這類數據一般需要從中做信息抽取啊,或者是用端到端的深度學習來用它。
非結構化數據:
NLP或機器學習中什麼是結構化數據和非結構化數據?
~~~~~
半結構化數據:
領域:NLP或機器學習
問題:什麼是結構化數據和非結構化數據?
~~~~
結構化數據:
領域:[nlp,機器學習]
問題類型:什麼型
子領域:數據類型
問題關注:[結構化,非結構化]
推薦閱讀: