[武汉|荣耀师兄]JAVA-宋哲明|2017年10月05日的日报-技能树.IT修真院

发表于： 2017-10-05 18:27:03

1 818

今天完成的事情：
今天学习了MD5算法
MD5即Message-Digest Algorithm 5（信息-摘要算法5），用于确保信息传输完整一致。是计算机广泛使用的杂凑算法之一（又译摘要算法、哈希算法）。MD5的作用是让大容量信息在用数字签名软件签署私人密钥前被”压缩”成一种保密的格式（就是把一个任意长度的字节串变换成一定长的十六进制数字串）。
步骤1：
我们是对一个字符串进行MD5加密，所以我们先从字符串的处理开始。首先我们要知道一个字符的长度是8位（bit），即一个字节的长度。现在我们要做的就是将一个字符串Str1分割成每512位为一个分组，形如N*512+R，最后多出来的不足512位的R部分先填充一个1，再接无数个0，直到补足512位。这里要注意，R为0时也要补位，这时候补512位，最高位1，形如1000…00；如果R超出448，除了要补满这个分组外，还要再补上一个512位的分组（因为超过448位则不能留64位出来存放字符串的原长）。
接着，讲讲将字符串分块保存部分。一个512位的字符串分组要分成16个32位的子分组，在每个32位中，以字节为单位通过小端规则存入一个32位的变量中，可以考虑用int类型的变量（一个int变量32位），也可以考虑用unsigned int，这样之后涉及的循环移位就不用考虑符号位了，这里还是以int为例。因为一个字符就是一个字节（8位），所以一个int类型变量能存放4个字符，假设一个字符串abcd，那么存在一个int类型变量中就是dcba。因此这里我们将字符串每4个字符分成一块，每一个块都以小端规则存放在一个int类型的变量中。什么是大小端规则？
补充好后的Str2长度为（N+1）*512位（如果R超出448，则是（N+2）*512），此时最低的64位预留，用来存放之前str1的长度length（长度为字符个数*8 bit）的值，如果这个length值的二进制位数大于64位，则只保留最低的64位。将这个64位的length放入之前填充好的str2的最后64位又要注意了：将length的64位分成2个32位，相当于2个字（1个字32位），再将这个2个字用类似小端规则排列，分别填入预留的64位。之前我就是这点没有领悟，估计大家也不是很懂，我具体说明一下：假设64位分成AB（A,B分别表示32位的二进制数，A是高位，B是低位），按小端规则排列后就是BA，将形如BA的64位按B（高位）到A（低位）的顺序填入str2预留的64位,而对A，B内部显示的每个字节则不用做处理。假设长度 0x12，则按A,B两个字来补位可以得：A=0x0000 0000，B=0x0000 0012。
至此，补位的思想已经讲完了，这里再讲讲我的具体实现。我的思路是用一个长度为16的int类型的数组int M[16]。因为一个int类型数据有32位，16个加起来刚好一共512位，是一个分组的长度。我刚好就按顺序M[0]…M[15]表示一个512位的数。我再声明一个容器vector，用来存放每个M[16]，因为分组个数不一定只有一个。
最后我举个例子方便大家理解。首先介绍一些常识：a – 61, b – 62, c – 63, d – 64, e – 65。这里“a – 61”表示a的ASCII码十六进制表示是0x61，其他以此类推。
好，假设一个字符串abcde，一共5个字符，长度length 为 5* 8 = 40 = 0x28。512位转化成十六进制就是64位。原字符串十六进制表示：61 62 63 64 65 00 00…00。完成补位后共512位，只有1个分组，形如： 61 62 63 64 65 80 00… 00（“80”的二进制是1000 0000，即之前的先补一个1，再补很多0的做法）。一个int M[16]的数组就够存了，即
M[0] = 64 63 62 61，
M[1] = 00 00 80 65，
M[2] = 0，
M[3] = 0
…
M[14] = 00 00 00 28，
M[15] = 0
M[0]~M[15]设好之后，在内存中就是这样存的61 62 63 64 65 80 00…00（注意这里我们用MD5处理字符串时都考虑内存中的数据的排列顺序，得出的MD5也是需要按内存中的数据输出，所以经常要用小端规则转换）
看完这个例子，大家应该对步骤1的内容有比较全面的了解了。
步骤2：
MD5有四个32位的被称作链接变量的整数参数，我们进行如下设置：
A=0x67452301，
B=0xefcdab89，
C=0x98badcfe，
D=0x10325476。
数据这样设置之后，存在内存中就按小端规则排列：01 23 45 67 89 ab cd ef …32 10
再声明四个中间变量a,b,c,d，赋值：a = A, b = B, c = C, d = D。
接着再设置四个非线性函数：
F(X,Y,Z) =(X&Y)|((~X)&Z)
G(X,Y,Z) =(X&Z)|(Y&(~Z))
H(X,Y,Z) =X^Y^Z
I(X,Y,Z)=Y^(X|(~Z))
（&是与，|是或，~是非，^是异或）
这四个函数的说明：如果X、Y和Z的对应位是独立和均匀的，那么结果的每一位也应是独立和均匀的。
假设M[j]表示消息的第j个子分组（从0到15）：
FF(a, b, c, d, M[j], s, ti)表示 a = b + ((a + F(b, c, d) + Mj + ti) <<< s)
GG(a, b, c, d, M[j], s, ti)表示 a = b + ((a + G(b, c, d) + Mj + ti) <<< s)
HH(a, b, c, d, M[j], s, ti)表示 a = b + ((a + H(b, c, d) + Mj + ti) <<< s)
II(a, b, c, d, M[j], s, ti)表示 a = b + ((a + I(b, c, d) + Mj + ti) <<< s)
要确保形参a在内存中的值改变了，可以在形参中用按引用调用（&a），或返回a值取代原来a值。
步骤3：
接下来就是要进行一个MD5算法的主要循环了，这个循环的循环次数为512位分组的个数（即之前提到的N+1或者N+2）。每次循环执行以下的步骤，我就不用文字表述了，直接用代码展示，相信大家能理解：
步骤4：
处理完所有的512位的分组后，得到一组新的A,B,C,D的值，将这些值按ABCD的顺序级联，然后输出。这里还要注意，输出的MD5是按内存中数值的排列顺序，所以我们要分别对A,B,C,D的值做一个小端规则的转换。举个例子：A有32位，分成4个字节A1A2A3A4。输出A的时候，要这样输出：A4A3 A2A1。这样就能输出正确的MD5了。
学习完了之后对于任务和以后的了解，我觉得这个东西对于我们初学者来说的话，可能还是只需要会用就好了，因为要研究透彻真的很繁琐
前面的例子只能说马马虎虎明白，然后又在网上学习了一个小例子
一般我们任务中就把它弄做工具类调用下就好了