这篇文章主要介绍了UUencode 编码,UU编码介绍、UUencode编码转换原理与算法,需要的朋友可以参考下
UUencode编码起先用在unix网络中,先是Unix系统下将二进制的资料借由uucp邮件系统传输的一个编码程式,也是一种二进制到文字的编码。不属于MIME编码中一员。它也是定义了用可打印字符表示二进制文字一种方法,并不是一种新的编码集合。主要解决,二进制字符在传输、存储中问题。它早期在电子邮件中使用较多,最近这些年来基本上被MIME 中Base64所取代了。E-mail中一般采用UU、MIME、BINHEX三种编码标准! 我想,了解下这种编码将二进制字符转换为可打印字符实现思路!对我们以后做类似处理工作,应该会有很多的启示。
UUencode编码过程
Uuencode将输入资料以每三个字节为单位进行编码,如此重复进行。如果最后剩下的资料少于三个字节,不够的部份用零补齐。这三个字节共有24个Bit,以6-bit为单位分为4个群组,每个群组以十进制来表示所出现的数值只会落在0到63之间。将每个数加上32,所产生的结果刚好落在ASCII字符集中可打印字符(32-空白…95-底线)的范围之中。每60个编码输出(相当于45个输入字节)将输出为独立的一行,每行的开头会加上长度字符,除了最后一行之外,长度字符都应该是'M'这个ASCII字符(77=32+45),最后一行的长度字符为32+剩下的字节数目这个ASCII字符。如果是一个 0字节那它应该被转换为0×60而不是0×20,因为(前引用'`')优于 0×20(空格' ‘)。
特点一:看到特点了吧,也是64字符,也是一组6位。怎么,怎么,跟我们的base64这么相似呢?是的,从这个定义中,我们确实发现它跟base64比起来很相似了。
特点二:它定义64字符,不用写映射表,是通过加32转换到可打印字符范围中。比起base64,更为简单!
思考问题:它的字符范围都是可打印字符,我们会发现64字符集合中,有很多是特殊字符:”!”#¥%&‘()*+='” 等等。这些字符在不同应用中,可能都有些特殊用途。因此,在使用该编码时候,或许会出现一些问题。我想这也许是UUencode编码方法,逐渐被Base64所取代的原因吧。
UUencode 64字符集
可打印字符 |
十进制ASCII值 |
uuencode
二进制表示 |
uuencode
十进制表示 |
|
可打印字符 |
十进制ASCII值 |
uuencode
二进制表示 |
uuencode
十进制表示 |
(space) |
32 |
000 000 |
0 |
|
@ |
64 |
100 000 |
32 |
! |
33 |
000 001 |
1 |
|
A |
65 |
100 001 |
33 |
" |
34 |
000 010 |
2 |
|
B |
66 |
100 010 |
34 |
# |
35 |
000 011 |
3 |
|
C |
67 |
100 011 |
35 |
$ |
36 |
000 100 |
4 |
|
D |
68 |
100 100 |
36 |
% |
37 |
000 101 |
5 |
|
E |
69 |
100 101 |
37 |
& |
38 |
000 110 |
6 |
|
F |
70 |
100 110 |
38 |
' |
39 |
000 111 |
7 |
|
G |
71 |
100 111 |
39 |
( |
40 |
001 000 |
8 |
|
H |
72 |
101 000 |
40 |
) |
41 |
001 001 |
9 |
|
I |
73 |
101 001 |
41 |
* |
42 |
001 010 |
10 |
|
J |
74 |
101 010 |
42 |
+ |
43 |
001 011 |
11 |
|
K |
75 |
101 011 |
43 |
, |
44 |
001 100 |
12 |
|
L |
76 |
101 100 |
44 |
- |
45 |
001 101 |
13 |
|
M |
77 |
101 101 |
45 |
. |
46 |
001 110 |
14 |
|
N |
78 |
101 110 |
46 |
/ |
47 |
001 111 |
15 |
|
O |
79 |
101 111 |
47 |
0 |
48 |
010 000 |
16 |
|
P |
80 |
110 000 |
48 |
1 |
49 |
010 001 |
17 |
|
Q |
81 |
110 001 |
49 |
2 |
50 |
010 010 |
18 |
|
R |
82 |
110 010 |
50 |
3 |
51 |
010 011 |
19 |
|
S |
83 |
110 011 |
51 |
4 |
52 |
010 100 |
20 |
|
T |
84 |
110 100 |
52 |
5 |
53 |
010 101 |
21 |
|
U |
85 |
110 101 |
53 |
6 |
54 |
010 110 |
22 |
|
V |
86 |
110 110 |
54 |
7 |
55 |
010 111 |
23 |
|
W |
87 |
110 111 |
55 |
8 |
56 |
011 000 |
24 |
|
X |
88 |
111 000 |
56 |
9 |
57 |
011 001 |
25 |
|
Y |
89 |
111 001 |
57 |
: |
58 |
011 010 |
26 |
|
Z |
90 |
111 010 |
58 |
; |
59 |
011 011 |
27 |
|
[ |
91 |
111 011 |
59 |
< |
60 |
011 100 |
28 |
|
\ |
92 |
111 100 |
60 |
= |
61 |
011 101 |
29 |
|
] |
93 |
111 101 |
61 |
> |
62 |
011 110 |
30 |
|
^ |
94 |
111 110 |
62 |
? |
63 |
011 111 |
31 |
|
_ |
95 |
111 111 |
63 |
|
|
|
|
|
` |
96 |
(1) 000 000 |
64 |
UUencode编码转换过程
原始字符 |
C |
a |
t |
原始ASCII码(十进制) |
67 |
97 |
116 |
ASCII码(二进制) |
0 |
1 |
0 |
0 |
0 |
0 |
1 |
1 |
0 |
1 |
1 |
0 |
0 |
0 |
0 |
1 |
0 |
1 |
1 |
1 |
0 |
1 |
0 |
0 |
新的十进制数值 |
16 |
54 |
5 |
52 |
+32 |
48 |
86 |
37 |
84 |
编码后的Uuencode字符 |
0 |
V |
% |
T |
字符串:'Cat‘ 编码后是:oV%T
UUencode PHP实现过程
编码转换过程,与Base64类似!下面代码是实现过程,我们可以看看转换方法!
/**
*uuencode编码*
*@author 程默
*@copyright http://blog.chacuo.net/
*@param string $src 待处理字符串
*@return string encode编码完字符串
*/
function c_uu_encode($src)
{
///每次读取3个字节
$lbyte = 3;
////将原始的3个字节转换为4个字节
$slen=strlen($src);
$smod = ($slen%$lbyte);
$snum = floor($slen/$lbyte);
$desc = array();
//将剩下字节以0字节补齐
$src = $smod===0?$src:$src.str_repeat("\0",$lbyte-$smod);
$snum = $smod===0?$snum:$snum+1;
for($i=0;$i<$snum;$i++)
{
////读取3个字节
$_arr = array_map('ord',str_split(substr($src,$i*$lbyte,$lbyte)));
///计算每一个6位值
$_dec = array();
$_dec[]=$_arr[0]>>2;
$_dec[]=(($_arr[0]&3)<<4)|($_arr[1]>>4);
$_dec[]=(($_arr[1]&0xF)<<2)|($_arr[2]>>6);
$_dec[]=$_arr[2]&63;
///对每个6位值加上32,读取ascii码 如果6位值是0,以字符"`"代替
foreach ($_dec as &$v)
{
$v = $v===0?'`':chr($v+32);
}
$desc = array_merge($desc,$_dec);
}
//return implode('',$desc);
///以上代码只是进行转换,没有进一步进行
//每60个编码输出(相当于45个输入字节)将输出为独立的一行,每行的开头会加上长度字符,除了最后一行之外,长度字符都应该是'M'这个ASCII字符(77=32+45),最后一行的长度字符为32+剩下的字节数目这个ASCII字符。
$abyte = 60;
$crlf = "\r\n";
$alen = count($desc);
$anum = floor($alen/$abyte);
$amod = ($alen%$abyte);
$adesc = array();
for ($i=0;$i<$anum;$i++)
{
$adesc[]='M'.implode('',array_slice($desc,$i*$abyte,$abyte)).$crlf;
}
///截取后面剩余数组长度
if($amod!==0)
{
///以下计算不满45字节编码情况
$adesc[]=chr($amod/4*3+32+($smod?$smod-$lbyte:$smod)).implode('',array_slice($desc,-$amod)).$crlf;
}
return implode('',$adesc);
}
以上只是按照转换过程,通过PHP代码实现方法!目前PHP没有UUencode转换模块!
该代码转换结果,跟使用工具转换结果一致。我查看了线上一些转换方法,很多结果不一致!最好,大家使用在线工具转换前,做一下比较!没有做过验证的代码,可能会给你带来麻烦!欢迎分享你的方法! |