本文是一篇深度介绍比特币和区块链知识的文章,笔者按照「自顶向下、逐次求精」的原则,用剥洋葱的方式将比特币和区块链知识一层一层地深入剖析下去,让读者每剥下一层都有完整的知识收获。

去中心化

区块链原本是一种基于互联网的信息编码、传输、加密、解密、验证技术,但在我看来,现在已经上升到了一种「去中心化」的理念,本质上是一种理念上的革新。而比特币就是这种理念的一个具体应用。

所以,我们要理解什么是区块链,必须先理解什么是去中心化。我举两个例子来帮助你理解:

第一个例子:是从网上下载电影。早期,我们下载电影都是到一些知名的电影网站进行下载,这些网站会把电影文件存放在一台或者一组伺服器上,大家都访问这台(组)伺服器下载影片——这叫中心化。

在这个游戏规则中,电影网站的伺服器就是中心,每一个下载电影的人只不过是这个中心拉出来的线而已。在中心化的游戏中,每个玩家的地位是不平等的,网站主占据绝对强势地位,他想让你下载就下载,想给你限速就限速。后来,一种去中心化的下载模式出现了——这就是BT下载,也叫P2P(peer to peer)下载。现在我们讲到P2P,就是个人到个人,点到点。BT下载的原理与电影网站完全不同,影片并不是存在某个伺服器上,而是大家互相从网路上的临近的用户那里去下载这个影片的一小部分,最后拼成一个完整的文件。

在这个游戏中,所有玩家的地位是完全平等的,任何一个玩家都可以随时离场、随时加入,只要还有人在线,整个游戏就能正常运行,没有人拥有特别的权力。这就叫去中心化。

第二个例子,就是我们每天都在使用的银行卡或者支付宝、微信这些人民币支付手段,现金我们先抛开不谈。我们用无现金的方式支付人民币买东西,就是一个中心化的游戏,它的中心有好多级,比如说,支付宝的伺服器是第一级中心,支付宝资金的托管银行如工商银行、中信银行的伺服器就是第二级中心,这些银行的再上一级中心就是央行——中国人民银行的伺服器。

在这个游戏中,不同级别玩家的权力、地位是不平等的,最大的Boss当然是央行,它甚至能发行货币,它的权力可以大到分分钟就把我们的钱全部抢光,很简单,它只需要突然增发货币就可以了,物价突然上涨一百倍,我们的钱就等于被抢光了。那货币游戏能不能像下载电影一样去中心化呢?也是可以的,比特币系统就是这样一个去中心化的货币游戏系统,你可以把它看成是一个大型的货币实验。

比特币的游戏是这么玩的,就两条核心规则。第一,它的货币发行不是由某个机构说了算,而是公开一套演算法,每算出一个符合要求的数字,就相当于挖到了若干个比特币。谁都可以去算,绝对公平,谁也作不了弊,因为演算法本质上就是一个个数字去凑,凑出一个满足条件的数据。第二,比特币的交易信息不是记在某一台伺服器上的,而是所有参与这个游戏的玩家电脑中一人一份,同步记录,这种交易记录在理论上几乎是无法篡改的。这就是「去中心化账本」。

这样一来,所有游戏玩家的地位和权力就完全平等了,几乎没有任何一个玩家是特殊的。为什么要加上「几乎」两个字呢?因为,毕竟能够有能力挖比特币的那些矿主还是有点特殊的,但这种特殊性并不是太大,而且矿主也没有任何壁垒,只要你买得起好电脑,谁都可以当矿主。

不得不说,比特币的这个「去中心化」设计非常之妙。

理解了去中心化,就等于理解了区块链。一个真正的区块链项目,就是通过合理的游戏规则设计,辅以信息技术,来践行去中心化理念的项目。比特币系统就是去中心化理念和区块链技术的一个优秀示范项目。

不夸张地说,我觉得这是一场互联网的理念革命,是人类的又一次平等化革命。上一次革命是打破了人与人之间在身份地位上的不平等,这一次则是打破了游戏规则本身的不平等。正因为这样,区块链才能激发人们如此大的热情,这是一个听上去可以颠覆一切旧规则的新生事物。

然而,笔者认为,比特币系统并不是一个成功的区块链应用,甚至先天不足。为什么这么说呢?因为,看前面介绍的两条比特币核心游戏规则就知道,它有以下这些天生的缺陷:

第一,比特币客户端软体需要巨大无比的存储空间,因为每一个节点都必须记录下从比特币系统诞生的第一天起所有的交易记录,而且只会增加不会减少。

第二,为防止有人作弊,比特币系统有一套很复杂的游戏规则来确保交易记录是真实的,这样就导致每一笔交易的确认时间一般需要一个小时甚至几天。

第三,最多只有2100万枚比特币,而且,无论有多少人在挖矿,系统规则决定了平均每十分钟才能产出若干枚比特币(2018年是每十分钟12.5枚)。矛盾正如那句话:人民群众日益增长的比特币需求与比特币总量不足之间的矛盾。

但比特币不能代表区块链,区块链也不是比特币。区块链在未来可以有哪些应用呢?

实际上,区块链解决的核心问题是信任问题。所有的金融机构,银行、保险、券商等等,让它们赖以生存的根本是信用,我们之所以会放心地买股票、买期货、买纸黄金,都是因为我们信任充当交易中介的机构,而这些交易中介,就是金融活动的中心,我们宁愿为此付出一定的手续费、交易费,金融机构也因此挣得盆满钵满。

但是,当区块链在人们的观念上和技术上都成熟后,这种中心化的金融机构是有可能被颠覆掉的,因为我们可以利用区块链的理念和技术来改写游戏规则,让所有的金融产品交易都不再需要一个中心,而全部以点对点的方式完成,并且从理论上能够保证信用问题。到了那时,一定会有很多商业金融机构受到区块链的冲击。

比特币基本原理

数字指纹和非对称加密

去中心化的账本还是很容易理解的,只要把所有的交易记录都记在每一台电脑的账本上,然后就可以用计算机的强大计算能力,随时随地查出每个人的余额是多少。

但是大家不要忘了,在网路上记账与线下记账不同。网路上都是消息来消息去的,大家根本不见面。如果你收到一条信息,上面写著「A支付5元钱给B」。这时,你不禁要问:

第一,如何确保这条信息内容的完整性?

第二,如何确保信息的真实性?

这两个问题不解决,去中心化账本的理想就无法实现。解决办法是有的。我们先来看怎么解决第一个问题:确保记账信息的完整性。任何原始信息都可以转换成一串数字,有了数字就可以做数学运算,玩出各种花样了。

现在,我们给数学家提出一个要求:请设计一个演算法,将任何一条信息,不论长短,都计算出一个唯一的「数字指纹」与它对应。但有两个附加条件:一、指纹的长度必须固定;二、只能从「原始信息」计算出「指纹」,谁也无法从「指纹」反向计算出「原始信息」。

有了数字指纹,就可以解决第一个问题:确保记账信息的完整性。怎么做?很简单,我们只要做出一个规定,任何发出信息的一方,必须同时发出原始信息的指纹。那么收到信息的一方只需要用公开的SHA-256演算法把原始信息也生成一个指纹,和收到的指纹比对一下,如果一致,就说明收到的信息是完整的;如果不一致,说明收到的原始信息由于某种原因被修改过了,这个原因可能是数据传输过程中的错误,也可能是被人篡改了等等。

不过,你可能也想到了,还有一种可能性,就是黑客恶意篡改。因为SHA演算法是公开的,如果有一个黑客拦截了原始信息和指纹,他把原始信息修改掉,比如把「A支付5元钱给B」改为「A支付5元钱给C」,同时生成新的指纹发送给你。这该怎么办呢?这就是我们要解决的第二个问题:如何确保信息的真实性?解决这个问题,等于也解决了信息发送方想抵赖的问题。

解决第二个问题的关键就是给指纹加密,但是,这种加密还不能是我们在谍战剧里看到的那种电报加密的方式。大家不妨回忆一下看过的谍战剧,我地下工作者收到一封电报,上面写著2352,于是他从书架上拿出一本书,翻到第23页,再数到第52个字,写著一个「撤」字。这就是组织上通知这位同志马上撤退,有人叛变了。这种加密方式的坏处在于,只要敌人也掌握了密码本,不但可以破译电报,还能发送假电报钓鱼,原因就在于加密和解密的方法是完全一样的,能解密就能加密,所以,这种加密方法被叫作「对称加密」,解密的过程只不过是加密的逆过程而已。

「对称加密」用在我们想要的去中心化账本系统中就不好使了,因为我们既要让网路上的每一个信息接收者能够解开密文知道原始信息,又要让黑客即使拿到密文也只能干瞪眼,无法篡改密文。

个中关键,在于加密和解密的方法必须不一样。所以,就要求数学家搞出一种全新的加密演算法,这种演算法是非对称的,加密、解密不是互逆的过程。

能不能搞出这样一个巧妙的加密演算法呢?当然是能的,否则就不会有比特币了嘛。下面我用一个简化版的非对称加密演算法模拟一下我们想实现的效果。

原始信息是一组数字:269。

现在,我用一种只有我自己才知道的加密演算法得到一个密文:24479。

然后,我把24479告诉所有人的同时,还宣布:解开我这条密文的钥匙就是数字11(后面我们就把这个公开的钥匙称为公钥),任何人只要用24479乘以11,取结果的后三位,就能得到我想要告诉大家的原始信息。不信吗?我们试试看:

24479×11=269269

哇,好有意思,不单后三位,连前三位都是原始信息。我是怎么加密的呢?很简单,我把原始信息乘以91就是密文,而这个91就可以叫「私钥」,我私人的加密钥匙。这样就实现了加密和解密是完全不一样的两种演算法。

你可以试试看,用任意一个三位数字乘以91,得到的结果再乘以11,最终得到的结果一定是原始三位数写两遍。例如:218×91×11=218218。

如果用任意一个二位数字乘以91,得到的结果再乘以11,最终得到的结果后二位数字也一定与原始数字相同。例如:18×91×11=18018,至于它背后的数学原理,稍微琢磨一下就能想明白了。

但是请记住,我举的这个例子只是让你体会一下什么叫非对称加密,因为这个例子的演算法太过简单,所以知道了公钥是11的人,很容易猜出私钥是91。但是比特币系统采用的演算法比这个复杂多了,那个演算法确保了任何人即使知道原文、密文、公钥,也无法猜到私钥。也就是说,黑客只能解密,但不会加密,无法修改密文。

这么牛的演算法,就是声名远播的「椭圆曲线演算法」,简称为ECC演算法。

有了这个演算法,就能确保去中心化的记账系统中,每条交易记录的真实性。我们来演示一下比特币的去中心化记账系统如何利用SHA和ECC演算法确保账本的完整性和真实性(以下是简化后的原理说明,真实过程还要复杂很多,但原理不变)。

例如:

需要记账的原始交易信息:A支付5元钱给B(以下简称「原文」)。

第一步:利用SHA将原文生成数字指纹:

f7bb29badf05d41e60b1036d749f134a901c7a97daef7a1fe4e1e14471bd4833

第二步:随机生成一个私钥,它的格式与指纹是完全一样的,例如:

18E14A7B6A307F426A94F8114701E7C8E774E7F9A47E2C2035DB29A206321725

第三步:利用ECC将第一步得到的数字指纹通过私钥加密,得到密文:

869ac57b83ccf75ca9da8895823562fffb611e3c297d9c2d4612aeeb32850078

第四步:根据私钥生成一个公钥:

600FFE422B4E00731A59557A5CCA46CC183944191006324A447BDB2D98D4B408

第五步:将原文、密文和公钥广播到整个比特币网路中。信息发送步骤到此结束,以下是信息接收步骤。

第六步:接收方利用ECC将密文通过公钥解密,得到指纹1。

第七步:利用SHA将原文生成数字指纹,得到指纹2。

第八步:比对指纹1是否等于指纹2。

第九步:如果相等,则确认该条信息是合法交易信息,添加到自己的账本中。如果不相等,则抛弃该信息。至此全部结束。在真实的比特币网路中,交易双方都是完全匿名的,交易者A或者B都是账号(有些文章中称「地址」,含义一样),账号背后的主人信息是没有任何记录的,可以是一条狗,也可以是一个人工智慧,而账号则是根据公钥,通过一定的演算法生成的。

一个私钥几乎可以生成无数个不同的对应公钥,也就意味著可以生成几乎无数个不同的对应账号。谁掌握了私钥,谁就是账号的主人。

到此为止,我们去中心化账本的理想只实现了一半,并没完全实现,为什么呢?因为还有两个重大的问题没有解决。

第一个问题:账本同步问题。比特币网路中有那么多台电脑,一条交易信息发送出来的时候,当然不可能所有的电脑都开机,必然有一些处于离线状态,开了电脑也未必开著比特币客户端,所以总有一些电脑无法立刻收到这条信息。这样就会导致不同电脑上的记录不同步,到底以谁的电脑记录为准呢?

第二个问题:如何防止同一个比特币被重复使用?假如有一个黑客,他只有一个比特币,但是他却同时把这个比特币付给A和B(虽然理论上无法真正同时,但可以做到间隔时间极短),于是就会在网路上广播两条信息,一条是支付给A的信息,一条是支付给B的信息,因为网速的关系,必然有的电脑先收到信息1,有的电脑先收到信息2,这就产生了矛盾,如何确定哪一条信息是有效的呢?

为解决上面这两个难题,区块链技术横空出世。

中本聪的论文真正在全世界掀起大风大浪,不是因为上一节介绍的比特币基本工作原理——数字指纹和非对称加密都是成熟的技术,真正让他一战成名的是区块链技术。但请记住:比特币不是区块链,它只是区块链技术的一个具体应用。

到底什么是区块链?它怎样巧妙地解决了账本同步和信息不重复的问题呢?

中本聪的总体思路是这样的:比特币网路中的所有电脑都只认可唯一的一个账本,任何一台电脑在接入比特币网路时,首先要同步这个唯一的账本,任何一台电脑想要往这个账本上写入新的信息,必须完成一套繁琐的「手续」,这套手续复杂到几乎不太可能被同时完成两次,即便真的发生了巧合,被同时完成了两次甚至多次,也有一个规则可以判定哪条信息是合法的,哪条信息该被抛弃。

让我一步步为你揭开区块链技术的面纱。

为什么要叫「区块链」?因为中本聪把这个账本设计成了由一个个「信息包」首尾相连而成的长链,每一个信息包被称为一个「区块」,这些区块每一个都有唯一的编号——在比特币系统中,编号被称为高度(height),这些编号就是自然数1、2、3、4……一直往下排,不允许跳跃,也不允许中断和重复。

下面讲解区块的具体规则。

第一个区块当然是由区块链的发明人中本聪亲自创建的,那是北京时间2009年1月4日,在芬兰赫尔辛基的一台小型伺服器上,第一个区块诞生了,这也被称作「创世区块」(genesis block)。

从第二个区块开始,以后每个区块就必须严格按照比特币系统的规则来创建了。区块的规则有(至少包含以下信息):

前一个区块的数字指纹+固定信息+收到的交易记录+一个随机数

区块链的一个奥妙之处在于尾巴上加的这个随机数(nonce),因为它实在太奥妙,让我等凡夫俗子只能大呼过瘾,所以后面我就把它称为「奥数」,以方便讲解。

区块链的一个奥妙之处在于尾巴上加的这个随机数(nonce),因为它实在太奥妙,让我等凡夫俗子只能大呼过瘾,所以后面我就把它称为「奥数」,以方便讲解。

中本聪规定:这个新区块的数字指纹(一个256位的二进位数)的前72位必须全部为0。

回忆一下我们前面介绍过的数字指纹的知识。因为SHA算出来的指纹是毫无规律可循的一组数字,所以,想要满足中本聪的这个变态规定,唯一的办法就只能凭运气凑奥数,从0开始不断地去尝试,直到满足要求为止。这是一个纯粹的概率问题。我们来算一下要满足这个要求的概率是多大。

因为二进位数,每一位只有两种可能性,0或者1,所以,凑出一个奥数的可能性是2的72次方分之一,也就是:

1/4722366482869645213696

这个数字已经长到看花眼了吧,它大约就是4.7万亿亿分之一。换句话说,就是平均要进行4.7万亿亿次SHA计算,才可能得到一个奥数,可见每一个奥数的金贵。

最巧妙的是,奥数并不是某一个方程的解,解出一个少一个,因为每一个区块的字元串都不同,所以,每一次寻找奥数都需要从0开始,任何一个数字都有可能成为新的奥数,完全没有规律可循。

一旦成功找到一个奥数,就获得了一次记账权力,可以给账本上新增加一个区块。那么,为什么要花时间找奥数,去给账本记账呢?因为好处实在太大了。

比特币系统规定,每成功增加一个区块,这台记账的电脑(实际上是某个账号)就能获得12.5个比特币的奖励(截止到本文写作时的奖金额),以及这个区块中所有交易的手续费,总额取决于交易频繁程度(平均约2比特币)。这样一来,相当于每找到一个奥数,可以获得14.5比特币奖励,按照本文写作时的比特币市场价,相当于12万美元。这么丰厚的奖励,自然就会吸引大量的电脑去抢夺记账权。

寻找奥数就是抢记账权,抢记账权也就是挖比特币。因此,寻找奥数也被形象地称为「挖矿」。挖矿的电脑就叫「矿机」,一个装满矿机的房间当然就可以叫「矿场」了,矿场的主人就是「矿主」,他们是比特币江湖中的弄潮儿。

但是,我需要给你解释一下挖矿的难度,让你打消去挖矿的冲动。个人电脑的运算速度大约是每秒可以进行60万次SHA计算,也就意味著,一台个人电脑平均需要花一千万年才有可能凑出一个奥数。当然,这是一种概率计算,我不能从理论上排除某人的人品超新星爆发,只算一次奥数就中了4.7万亿亿分之一概率的奖。但我还是想劝你不要相信自己有那个命。

给你看看人家专业的矿场是怎样的:

大规模的矿场据说有几万甚至几十万台矿机同时运行。我在《看看新闻》2017年6月17日的一则新闻中看到,记者采访了一个位于中国四川的矿场,根据报道,这个矿场有5000多台矿机,属于小规模,平均每天耗电超过20万度,当地的电价是每度3毛,一天光是电费就6万多元,平均每天可以挖出大约50个比特币,一年左右回本,之后能做到20%左右的利润。

不过我觉得这个报道中的数据前后矛盾,便查了一下,当时比特币的市场价是大约每个2500美元,美元兑人民币的汇率大约是6.8,所以,每天的收入大约是85万人民币,一年的收入大约3.1亿元,一台矿机的成本均价在一到两万元,矿场的矿机总成本是5000万到1亿元,即使算上电费等,一年起码有两亿的利润。

在充分的市场竞争下,出现这种暴利的可能性很低。所以,不是记者搞错了,就是被采访对象吹牛不打草稿。由于比特币的价格和全网算力的波动很大,所以投资比特币矿场很难做长期预测,不确定因素太多。

根据我们前面掌握的比特币知识,50个比特币,相当于找到了4个奥数,抢到了4次记账权。目前,整个比特币网路的所有矿机,加起来的总算力能达到的水平,大约平均每10分钟可以找到一个奥数,也就意味著平均每10分钟生成一个新的区块。当然,这个10分钟是平均数,快一点的话三四分钟生成一个区块,慢一点的话15分钟左右。

正因为奥数太难找,每个区块平均要10分钟才能生成一个,所以就能基本解决本节开头提出的第一个问题「如何同步账本」,只要有个三四分钟的时间,足以让所有在线的电脑同步到这个区块了,那些不在线的电脑或者第一次运行客户端的电脑,上线以后必须先做一件事情,就是从相邻的节点上获取最新的账本。

请注意,我用了「基本解决」这个词,也就意味著,并没有完全解决「账本同步」的问题。这是因为总会有极小的概率两台矿机恰好同时(只要在网路上所有在线的节点没有完成区块链同步之前都可以算同时)找到奥数,也就意味著同时抢到了记账权。因为矿机实在太多了,这样的小概率事件时不时也会发生一次,同时抢到记账权的矿机都能将自己生成的新区块广播到比特币网路中。

遇到这种情况,比特币系统怎么处理呢?

在这种情况下,相当于网路上的其他节点收到了两个合法的新区块,因为网路节点的地域分布不同,所以,不同的节点收到这两个新区块的先后次序就会不同。此时,所有的节点会暂时保留两个新区块,并且把区块链做一个临时的分叉,如下图所示:

接下来,比特币网路中必然又会有其中一个节点(矿机)抢到了记账权,这时该节点就会将生成的最新区块接到其中的一个分支上,那到底是接到新区块1,还是新区块2上呢?系统规则是:这个节点先收到哪个区块,就接到哪个区块上,同时放弃另一个区块,然后全网广播,如下图所示:

比特币网路上的所有节点在收到最新的区块链后,只要发现其中一个分支比另外一个分支多两个区块了,就立即也放弃那个短的分支。总之,比特币网路永远只承认更长的那条分支。

你可能会想,那如果小概率事件再次发生,在区块链第一次分叉后,又是同时产生了两个新区块,而恰好两个新区块产生在两个不同的分支上,这时候,其他节点收到的区块链还是两个一样长的分支,那怎么办?很好办,还是同样的规则,只要分支一样长就暂时保留,直到出现两个分支不一样长时,就放弃短于两个区块的,保留长的。那个被放弃的分支中所有交易和比特币奖励都会被判定为无效。

因为有了这个临时分叉的规则,所以,比特币玩家在完成一笔交易后,不能立即认为这笔交易是成功的,有可能会被取消,必须等到一定数量的新区块生成后,如果交易依然没有被取消,这才能放心地认为交易成功了。那到底要等到多少个新区块产生才能放心呢?

但是小额交易确认的时间往往会更长,甚至长达好几天。听到这个你可能会有点儿糊涂,刚才不是还说小额交易一般只要三个新区块产生就够了吗?怎么确认时间反而会更长呢?比特币网路刚刚诞生的头几年,确实不会出现这样的怪事,但是这几年随著交易量的猛增,就会出现这种怪事了。为什么?先回忆一下每个区块的规则:

前一个区块的数字指纹+固定信息+收到的交易记录+奥数

你的交易记录要被写到区块链上,有一个前提:矿工将你的这笔交易记录打包到这个区块上。你可能想问:为什么会不打包?难道系统规则还允许不打包吗?打包成功了不是还要给矿工交税吗?矿工好不容易抢到一次记账权,怎么会有钱不赚呢?

是的,允许不打包。原因不是矿工不想赚钱,而是「不可抗力」,关键问题是每一个区块允许存储的数据量有限。中本聪当初设计比特币系统时,规定了每一个区块最大只能是1MB,一条交易记录大概是0.25KB,那么一个区块最多可以储存4000多条交易记录,如果在一个新区块产生的时段中,发生的交易请求超过4000条,那就肯定存不下了。我们可以算算,这个量大概是一个怎样的交易频率,每个区块的平均产生时间是10分钟,也就意味著,平均每秒钟的交易量如果超过7条,那么就一定会出现排队等待打包的交易记录了。这个交易频率实在很低,要知道支付宝一秒钟大约要处理上万笔交易。这一秒钟七笔交易对于全球来说,实在是太不够用了。

一般来说,大额交易优先打包,小额交易中手续费越高的交易越优先打包,打包规则矿工有一定的自主权。比特币交易手续费的规则比较复杂,不同的矿工收的还不一样,不是三言两语能说清,但有一点可能会让你感到诧异,越是大额的交易反而收费越低,甚至免费。交易额越小反而费率越高。这是因为,交易手续费除了鼓励矿工挖矿,还有一个非常重要的功能,就是防止有人恶意发布大量的小额交易造成信息拥堵。

现在,比特币交易滞留是非常普遍的现象,很多小额交易甚至等上好几天都确认不了,因此,很多人不惜附加很高的交易手续费来让矿工提前替他们打包。

到这里,有关区块链的核心原理就讲完了,关键要记住,中本聪利用区块链技术,巧妙地解决了账本同步和信息不重复的问题,这就使得去中心化账本的理想最终得以实现。

weixin.qq.com/r/3ihpcXX (二维码自动识别)


推荐阅读:
相关文章