对网址进行哈希处理
概览
Web Risk 列表包含长度不一的 SHA256 哈希值。如需了解详情,请参阅列表内容。如要根据本地或服务器上的 Web Risk 列表检查网址,客户端必须先计算该网址的哈希前缀。
如要计算网址的哈希前缀,请按以下步骤操作:
- 按照规范化中的说明对网址进行规范化。
- 按照后缀/前缀表达式下的说明为网址创建后缀/前缀表达式。
- 按照哈希计算中的说明计算每个后缀/前缀表达式的完整哈希。
- 按照哈希前缀计算中的说明计算每个全长哈希的哈希前缀。
请注意,这些步骤反映了 Web Risk 服务器用于维护 Web Risk 列表的流程。
规范化
首先,我们假设客户端已解析该网址,并根据 RFC 2396 将其设为有效。如果该网址使用国际化域名 (IDN),则客户端应将网址转换为 ASCII Punycode 表示法。网址必须包含路径部分;也就是说,它必须有前导斜杠 (http://google.com/
)。
首先,请从网址中移除 Tab (0x09
),CR (0x0d
) 和 LF (0x0a
) 字符。请勿移除这些字符的转义序列,例如 %0a
。
其次,如果网址以片段结尾,请移除片段。例如,将 http://google.com/#frag
缩短为 http://google.com/
。
第三,反复从网址中删除转义百分比,直到它不再有转义百分比。
主机名规范化
从网址中提取主机名,然后:
- 移除所有前导和尾随的点。
- 用单点替换连续的点。
- 如果可以将主机名解析为 IP 地址,请将其标准化为 4 个以英文句点分隔的十进制值。客户端应处理任何合法的 IP 地址编码,包括八进制、十六进制以及少于四个的组件。
- 将整个字符串小写。
路径规范化
- 通过将
/./
替换为/
并移除/../
和上述路径组件,可解析路径中的序列/../
和/./
。 - 将连续斜杠替换成单个斜杠字符。
请勿将这些路径规范化应用于查询参数。
在网址中,对所有小于等于 ASCII 32、大于等于 127、#
或 %
的字符进行百分比转义。转义字符应使用大写的十六进制字符。
以下是有助于验证规范化实施的测试。
Canonicalize("http://host/%25%32%35") = "http://host/%25"; Canonicalize("http://host/%25%32%35%25%32%35") = "http://host/%25%25"; Canonicalize("http://host/%2525252525252525") = "http://host/%25"; Canonicalize("http://host/asdf%25%32%35asd") = "http://host/asdf%25asd"; Canonicalize("http://host/%%%25%32%35asd%%") = "http://host/%25%25%25asd%25%25"; Canonicalize("http://www.google.com/") = "http://www.google.com/"; Canonicalize("http://%31%36%38%2e%31%38%38%2e%39%39%2e%32%36/%2E%73%65%63%75%72%65/%77%77%77%2E%65%62%61%79%2E%63%6F%6D/") = "http://168.188.99.26/.secure/www.ebay.com/"; Canonicalize("http://195.127.0.11/uploads/%20%20%20%20/.verify/.eBaysecure=updateuserdataxplimnbqmn-xplmvalidateinfoswqpcmlx=hgplmcx/") = "http://195.127.0.11/uploads/%20%20%20%20/.verify/.eBaysecure=updateuserdataxplimnbqmn-xplmvalidateinfoswqpcmlx=hgplmcx/"; Canonicalize("http://host%23.com/%257Ea%2521b%2540c%2523d%2524e%25f%255E00%252611%252A22%252833%252944_55%252B") = "http://host%23.com/~a!b@c%23d$e%25f^00&11*22(33)44_55+"; Canonicalize("http://3279880203/blah") = "http://195.127.0.11/blah"; Canonicalize("http://www.google.com/blah/..") = "http://www.google.com/"; Canonicalize("www.google.com/") = "http://www.google.com/"; Canonicalize("www.google.com") = "http://www.google.com/"; Canonicalize("http://www.evil.com/blah#frag") = "http://www.evil.com/blah"; Canonicalize("http://www.GOOgle.com/") = "http://www.google.com/"; Canonicalize("http://www.google.com.../") = "http://www.google.com/"; Canonicalize("http://www.google.com/foo\tbar\rbaz\n2") ="http://www.google.com/foobarbaz2"; Canonicalize("http://www.google.com/q?") = "http://www.google.com/q?"; Canonicalize("http://www.google.com/q?r?") = "http://www.google.com/q?r?"; Canonicalize("http://www.google.com/q?r?s") = "http://www.google.com/q?r?s"; Canonicalize("http://evil.com/foo#bar#baz") = "http://evil.com/foo"; Canonicalize("http://evil.com/foo;") = "http://evil.com/foo;"; Canonicalize("http://evil.com/foo?bar;") = "http://evil.com/foo?bar;"; Canonicalize("http://\x01\x80.com/") = "http://%01%80.com/"; Canonicalize("http://notrailingslash.com") = "http://notrailingslash.com/"; Canonicalize("http://www.gotaport.com:1234/") = "http://www.gotaport.com/"; Canonicalize(" http://www.google.com/ ") = "http://www.google.com/"; Canonicalize("http:// leadingspace.com/") = "http://%20leadingspace.com/"; Canonicalize("http://%20leadingspace.com/") = "http://%20leadingspace.com/"; Canonicalize("%20leadingspace.com/") = "http://%20leadingspace.com/"; Canonicalize("https://www.securesite.com/") = "https://www.securesite.com/"; Canonicalize("http://host.com/ab%23cd") = "http://host.com/ab%23cd"; Canonicalize("http://host.com//twoslashes?more//slashes") = "http://host.com/twoslashes?more//slashes";
后缀/前缀表达式
规范化网址后,下一步是创建后缀/前缀表达式。每个后缀/前缀表达式都包含一个主机后缀(或完整主机)以及一个路径前缀(或完整路径),如以下示例所示。
后缀/前缀表达式 | 等效正则表达式 |
---|---|
a.b/mypath/ |
http\:\/\/.*\.a\.b\/mypath\/.* |
c.d/full/path.html?myparam=a |
http\:\/\/.*.c\.d\/full\/path\.html?myparam=a |
客户端将形成多达30种可能的主机后缀和路径前缀组合。这些组合仅使用网址的主机和路径部分。方案、用户名、密码和端口会被舍弃。如果网址包含查询参数,则至少有一个组合会包含完整路径和查询参数。
对于主机,客户端最多可尝试 5 个不同的字符串。他们分别是:
- 网址中的确切主机名。
- 最多四个主机名,方法是从最后五个组件开始,然后依次移除前导组件。可以跳过顶级域名。如果主机是 IP 地址,则不应检查这些额外的主机名。
对于路径,客户端最多可尝试 6 个不同的字符串。他们分别是:
- 网址的确切路径包括查询参数。
- 网址的确切路径不包含查询参数。
- 从根 (
/
) 开始并依次附加路径组件(包括尾部斜杠)形成的四个路径。
以下示例演示了检查行为:
对于网址 http://a.b.c/1/2.html?param=1
,客户端将尝试以下可能的字符串:
a.b.c/1/2.html?param=1 a.b.c/1/2.html a.b.c/ a.b.c/1/ b.c/1/2.html?param=1 b.c/1/2.html b.c/ b.c/1/
对于网址 http://a.b.c.d.e.f.g/1.html
,客户端将尝试以下可能的字符串:
a.b.c.d.e.f.g/1.html a.b.c.d.e.f.g/ (Note: skip b.c.d.e.f.g, since we'll take only the last five hostname components, and the full hostname) c.d.e.f.g/1.html c.d.e.f.g/ d.e.f.g/1.html d.e.f.g/ e.f.g/1.html e.f.g/ f.g/1.html f.g/
对于网址 http://1.2.3.4/1/
,客户端将尝试以下可能的字符串:
1.2.3.4/1/ 1.2.3.4/
哈希计算
创建一组后缀/前缀表达式后,下一步是计算每个表达式的全长 SHA256 哈希值。以下是一个伪 C 语言单元测试,您可以使用它来验证您的哈希计算。
来自 FIPS-180-2 的示例:
// Example B1 from FIPS-180-2 string input1 = "abc"; string output1 = TruncatedSha256Prefix(input1, 32); int expected1[] = { 0xba, 0x78, 0x16, 0xbf }; assert(output1.size() == 4); // 4 bytes == 32 bits for (int i = 0; i < output1.size(); i++) assert(output1[i] == expected1[i]); // Example B2 from FIPS-180-2 string input2 = "abcdbcdecdefdefgefghfghighijhijkijkljklmklmnlmnomnopnopq"; string output2 = TruncatedSha256Prefix(input2, 48); int expected2[] = { 0x24, 0x8d, 0x6a, 0x61, 0xd2, 0x06 }; assert(output2.size() == 6); for (int i = 0; i < output2.size(); i++) assert(output2[i] == expected2[i]); // Example B3 from FIPS-180-2 string input3(1000000, 'a'); // 'a' repeated a million times string output3 = TruncatedSha256Prefix(input3, 96); int expected3[] = { 0xcd, 0xc7, 0x6e, 0x5c, 0x99, 0x14, 0xfb, 0x92, 0x81, 0xa1, 0xc7, 0xe2 }; assert(output3.size() == 12); for (int i = 0; i < output3.size(); i++) assert(output3[i] == expected3[i]);
哈希前缀计算
最后,客户端需要为每个全长的 SHA256 哈希计算哈希前缀。对于 Web Risk,哈希前缀由 SHA256 哈希中最重要的 4 到 32 个字节组成。
来自 FIPS-180-2 的示例:
- 来自 FIPS-180-2 的示例 B1
- 输入为“abc”。
- SHA256 摘要为
ba7816bf 8f01cfea 414140de 5dae2223 b00361a3 96177a9c b410ff61 f20015ad
。 - 32 位哈希前缀为
ba7816bf
。
- 来自 FIPS-180-2 的示例 B2
- 输入内容为
abcdbcdecdefdefgefghfghighijhijkijkljklmklmnlmnomnopnopq
。 - SHA256 摘要为
248d6a61 d20638b8 e5c02693 0c3e6039 a33ce459 64ff2167 f6ecedd4 19db06c1
。 - 48 位哈希前缀为
248d6a61 d206
。
- 输入内容为