一個250多萬行的csv文件如何轉化為excel進行數據處理?最好是在1個表格中,聽說power pivot 可以處理?


Excel的Power query和Powerpivot可以處理,但還是建議直接Power BI吧。

解決問題才是目的。



方法一:excel的powerquery+powerpivot+dax studio

方法二:powerbi+dax studio

方法三:access+excel

方法四:snapde


用Power query載入成連接和模型,就可以用Power Pivot分析了,兩百萬行的數據,沒問題的。


Excel不支持250萬行,最多104.58萬行。


兩百萬行還導毛Excel,我Excel用到5000行的時候拉都拉不動了。


首先,導入到Excel工作表是不可能了 因為你已經超過了104萬行。確實可以使用使用power pivot建立數據模型然後做分析,但千萬別把數據載入到工作表。這裡雖然power pivot可以處理,但也會非常卡。這麼大的數據你要麼就是存入資料庫比如Access裡面然後再加工處理。或者使用Python或者R做分析,直接使用Excel來處理,還是算了吧。


250萬行的Excel 貌似是不行的。

用pandas吧,250萬行數據,輕輕鬆鬆讀取,數據處理也很快。

如果一定要保存成excel,就用pandas先將數據分割成多個dataframe,然後分別保存就行了,用to_excel方法。


首先可以肯定是可以的, 但是不能載入到表格中, 只能存放在查詢里.

這個示例文件, 200w, 大概30多列. 總共有2000w數據, 載入完過, 但是只能簡單計算~8G內存不夠用

使用Excel中的PQ導入(版本office365, 版本要求至少2010)

這時候數據就載入進來了

由於數據比較多, 而且也已經超出了excel的行數限制, 所以選擇載入

然後選擇僅創建連接即可, 這樣他就是一個"查詢", 但是不載入到表格中, 你可看不到

載入完畢後

==============================================

為了能夠使用它們, 我們可以藉助導入到PP

選擇載入到模型

提示什麼的不管~直接確認

檢索過程會有提示, 慢慢等, 至於顯示的錯誤是因為自動轉換數據格式導致的, 比如數值列中存在文本, 無法轉換為數字~

大概一分鐘以後...載入完成進PP中. 第一次用的話需要手動開啟PP, 具體步驟自己去搜索"開啟Excel Power Pivot"

需要注意的是好像家庭版的系統自帶的Office似乎沒有這個功能~

界面長這樣

至於後續自己琢磨吧~~~~~~~~~~~~~~~~~~~

對了, 200w數據載入以後, 為了壓縮特意保存為了xlsb格式~將近200m


可以考慮一下用python pandas.

import pandas as pd
pd.read_csv() #讀數據
pd.to_excel() #寫數據

如果你之前沒接觸過python, 先裝個IDE,直接安裝Anaconda就好,詳細可看這裡:

最好用的兩款Python IDE?

zhuanlan.zhihu.com圖標

遇到了同樣的問題,只不過比200多萬還要多一些,總共有300多萬行。

因為想看到原始數據到底是什麼情況,所以一直堅持不懈地利用「數據-自文本」將原始的csv文件一點一點導入,Excel2016每個sheet表最多只有1048576行,所以我試圖通過多次導入的方式,將原本的數據分割成多個sheet表保留下來,然而……我發現除了第一次導入的數據外,後面導入的數據總是被截斷,也就是說到了第二個sheet表的時候就會導入失敗(第二次導入時,開始行設置為1048577了),目前也還沒有找到原因。

雖說前幾次一直失敗,但是多了幾次後,轉折也來到了——我突然意識到,csv導入時是通過「自文本」進行的,也就是說,用文本打開csv可以進行編輯,那我把多餘的行數刪掉了不就行了,試了一下果然可以了,最後也就把原始的數據存放在了4張sheet中。

這是一種很笨的方法,也有一點文不對題(沒辦法放到一頁),但是倒是也解決了我眼下的問題,如果有需要的小夥伴,不妨一試~


推薦閱讀:
相关文章