48/ BigQuery分析区块链数据入门指南

主流加密货币的数据全是公开透明的，我们可以用http://blockchain.com、http://etherscan.io之类开放的区块链浏览器方便地查询余额等基本信息。但若要作一些非常规的数据查询就没那么容易了。

比方说，在众多以太坊ERC20代币之中，货币符号重名率最高的是哪些？期货交易所BitMEX余额最多的比特币冷钱包有哪些？回答这些问题通常需要运行全节点同步区块，再写程序遍历资料库。

这两步都颇为麻烦。首先，下载区块需要大量存储空间，如果从零开始同步至少需要几十个小时。比特币的数据相对较小，不计索引大约210GB（2019年三月）；以太坊则早就超过1TB，即使放弃全同步，用geth fast sync也要130GB（参阅《8/ 应对区块链数据大爆炸》）。其次，即使有开源库的辅助，定制程序遍历区块数据也费时费力。

在体验过以上痛苦后再接触BigQuery这件宝物时，我感到格外欣喜，所以写下此文介绍它的基本用法，帮助读者提高数据分析的效率。

BigQuery（https://cloud.google.com/bigquery/）是Google Cloud Platform的大数据高性能查询服务。配合Google免费发布的区块链数据集，我们现在只要写SQL语句就能快速查询BTC、BCH、ETH、ETC、LTC、Dash、ZCash、Dogecoin多种加密货币了。

首先，我假定你已掌握科学上网的基本技能或肉身翻墙了。如果你还没有开通Google Cloud账号，请访问https://cloud.google.com/start/免费申请。登录后访问https://console.cloud.google.com/bigquery，如下所示。