|
php下我们想把uft-8,转成unicode可以用下面的函数来实现
UTF编码 UTF-8就是以8位为单元对UCS进行编码。从UCS-2到UTF-8的编码方式如下: UCS-2编码(16进制) UTF-8 字节流(二进制) 0000 - 007F 0xxxxxxx 0080 - 07FF 110xxxxx 10xxxxxx 0800 - FFFF 1110xxxx 10xxxxxx 10xxxxxx 例如“汉”字的Unicode编码是6C49。6C49在0800-FFFF之间,所以肯定要用3字节模板了:1110xxxx 10xxxxxx 10xxxxxx。将6C49写成二进制是:0110 110001 001001, 用这个比特流依次代替模板中的x,得到:11100110 10110001 10001001,即E6 B1 89。 终于将unicode和utf8互转搞定。 如果utf-8编码的字符ch是3个字节。xx yy zz 将xx和1F AND 操作得到 a 将yy和7F AND 操作得到 b 将zz和7F AND 操作得到 c (64a+b)*64+c = ch(unicode编码) echo.php没什么。就是几个函数。 "); //写入unicode文件 $ucs2data = utf8ToUnicode($data,"little"); $endian = chr(0xFE).chr(0xFF); $endian = chr(0xFF).chr(0xFE); $rt = file_put_contents ( "ucs2.txt", $endian.$ucs2data); //19:32,utf8toUnicode函数ok. //20:09。发现little endian 和big endian问题。并解决。 //big endian 方式存入的unicode字符串,ue和editplus均不能 //识别。只有notepad正常识别。 $rt = file_put_contents ( "usc2ys_data.txt", $ucs2_ysdata); //写入utf8文件 $utf8data = unicodeToUtf8($ucs2data); // 20:52. 将字串转回utf8码ok. $rt = file_put_contents ( "utf8.txt", $utf8data); echo(urlencode($utf8data));echo(""); $esc = utf8Escape($data); echot($esc); $esc = phpEscape($data); echot($esc); $unesc = phpUnescape($esc); echot($unesc); /** * 此函数将utf8编码字串转为unicode编码字符串 * 参数 str ,utf8编码的字符串。 * 参数 order,存放数据格式,是big endian还是little endian,默认的unicode存放次序是little. * 如:"大"的unicode码是 5927。little方式存放即为:27 59 。big方式则顺序不变:59 27. * little 存放格式文件的开头均需有FF FE。big 存放方式的文件开头为 FE FF。否则。将会产生严重混乱。 * 本函数只转换字符,不负责增加头部。 * iconv转换过来的字符串是 big endian存放的。 * 返回 ucs2string , 转换过的字符串。 * 感谢唠叨(xuzuning) */ function utf8ToUnicode($str,$order="little") { $ucs2string =""; $n=strlen($str); for ($i=0;$i0x80) { //110xxxxx 10xxxxxx $a = (ord($str[$i]) & 0x3F )0x80 && ord($str[$i+2])>0x80) { //1110xxxx 10xxxxxx 10xxxxxx $a = (ord($str[$i]) & 0x1F)转为utf8编码字符串 * 参数 str ,unicode编码的字符串。 * 参数 order ,unicode字串的存放次序,为big endian还是little endian. * 返回 utf8string , 转换过的字符串。 * */ function unicodeToUtf8($str,$order="little") { $utf8string =""; $n=strlen($str); for ($i=0;$i转回来。 $i++; //两个字节表示一个unicode字符。 $c = ""; if($val utf8string .= $c; } return $utf8string; } // end func
/* * 将utf8编码的字符串编码为unicode 码型,等同escape * 之所以只接受utf8码,因为只有utf8码和unicode之间有公式转换,其他的编码都得查码表来转换。 * 不知道查找utf8码的正则是否完全正确。迷茫ing * 虽然调用utf2ucs对每个字符进行码值计算。效率过低。然而,代码清晰,要是把那个计算过程嵌入。 * 代码就不太容易阅读了。 */ function utf8Escape($str) { preg_match_all("/[\xC0-\xE0].|[\xE0-\xF0]..|[\x01-\x7f]+/",$str,$r); //prt($r); $ar = $r[0]; foreach($ar as $k=>$v) { $ord = ord($v[0]); if( $ordutf8码 $ar[$k] = "%u".utf2ucs($v); } elseif ($ordutf8码 $ar[$k] = "%u".utf2ucs($v); } }//foreach return join("",$ar); } /** * * 把utf8编码字符转为ucs-2编码 * 参数 utf8编码的字符。 * 返回 该字符的unicode码值。知道了码值,你就能使用chr将字符弄出来了。 * * 原理:unicode转为utf-8码的算法是。头部固定位或。 该过程的逆向算法就是这个函数了,头部固定位反位和。 */ function utf2ucs($str){ $n=strlen($str); if ($n=3) { $highCode = ord($str[0]); $midCode = ord($str[1]); $lowCode = ord($str[2]); $a = 0x1F & $highCode; $b = 0x7F & $midCode; $c = 0x7F & $lowCode; $ucsCode = (64*$a + $b)*64 + $c; } elseif ($n==2) { $highCode = ord($str[0]); $lowCode = ord($str[1]); $a = 0x3F & $highCode; //0x3F是0xC0的补数 $b = 0x7F & $lowCode; //0x7F是0x80的补数 $ucsCode = 64*$a + $b; } elseif($n==1) { $ucscode = ord($str); } return dechex($ucsCode); }
/* * 用处 :此函数用来逆转javascript的escape函数编码后的字符。 * 关键的正则查找我不知道有没有问题. * 参数:javascript编码过的字符串。 * 如:unicodeToUtf8("%u5927")= 大 * 2005-12-10 * */ function phpUnescape($escstr){ preg_match_all("/%u[0-9A-Za-z]{4}|%.{2}|[0-9a-zA-Z.+-_]+/",$escstr,$matches); //prt($matches); $ar = &$matches[0]; $c = ""; foreach($ar as $val){ if (substr($val,0,1)!="%") { //如果是字母数字+-_.的ascii码 $c .=$val; } elseif (substr($val,1,1)!="u") { //如果是非字母数字+-_.的ascii码 $x = hexdec(substr($val,1,2)); $c .=chr($x); } else { //如果是大于0xFF的码 $val = intval(substr($val,2),16); if($val %u".bin2hex( iconv( 'gbk' ,"UCS-2",$chars[$i].$chars[$i+1] ) ); $i++; } }//foreach return $ar; } ?>
php下我们想把uft-8,转成unicode可以用下面的函数来实现
c#实现代码 /** * utf-8 转换成 unicode * @author fanhui * 2007-3-15 * @param inStr * @return */ public static String utf8ToUnicode(String inStr) { char[] myBuffer = inStr.toCharArray();
StringBuffer sb = new StringBuffer(); for (int i = 0; i < inStr.length(); i++) { UnicodeBlock ub = UnicodeBlock.of(myBuffer[i]); if(ub == UnicodeBlock.BASIC_LATIN){ //英文及数字等 sb.append(myBuffer[i]); }else if(ub == UnicodeBlock.HALFWIDTH_AND_FULLWIDTH_FORMS){ //全角半角字符 int j = (int) myBuffer[i] - 65248; sb.append((char)j); }else{ //汉字 short s = (short) myBuffer[i]; String hexS = Integer.toHexString(s); String unicode = "\\u"+hexS; sb.append(unicode.toLowerCase()); } } return sb.toString(); }
/** * unicode 转换成 utf-8 * @author fanhui * 2007-3-15 * @param theString * @return */ public static String unicodeToUtf8(String theString) { char aChar; int len = theString.length(); StringBuffer outBuffer = new StringBuffer(len); for (int x = 0; x < len;) { aChar = theString.charAt(x++); if (aChar == '\\') { aChar = theString.charAt(x++); if (aChar == 'u') { // Read the xxxx int value = 0; for (int i = 0; i < 4; i++) { aChar = theString.charAt(x++); switch (aChar) { case '0': case '1': case '2': case '3': case '4': case '5': case '6': case '7': case '8': case '9': value = (value << 4) + aChar - '0'; break; case 'a': case 'b': case 'c': case 'd': case 'e': case 'f': value = (value << 4) + 10 + aChar - 'a'; break; case 'A': case 'B': case 'C': case 'D': case 'E': case 'F': value = (value << 4) + 10 + aChar - 'A'; break; default: throw new IllegalArgumentException( "Malformed \\uxxxx encoding."); } } outBuffer.append((char) value); } else { if (aChar == 't') aChar = '\t'; else if (aChar == 'r') aChar = '\r'; else if (aChar == 'n') aChar = '\n'; else if (aChar == 'f') aChar = '\f'; outBuffer.append(aChar); } } else outBuffer.append(aChar); } return outBuffer.toString(); }
php下我们想把uft-8,转成unicode可以用下面的函数来实现
UTF编码 UTF-8就是以8位为单元对UCS进行编码。从UCS-2到UTF-8的编码方式如下: UCS-2编码(16进制) UTF-8 字节流(二进制) 0000 - 007F 0xxxxxxx 0080 - 07FF 110xxxxx 10xxxxxx 0800 - FFFF 1110xxxx 10xxxxxx 10xxxxxx 例如“汉”字的Unicode编码是6C49。6C49在0800-FFFF之间,所以肯定要用3字节模板了:1110xxxx 10xxxxxx 10xxxxxx。将6C49写成二进制是:0110 110001 001001, 用这个比特流依次代替模板中的x,得到:11100110 10110001 10001001,即E6 B1 89。 终于将unicode和utf8互转搞定。 如果utf-8编码的字符ch是3个字节。xx yy zz 将xx和1F AND 操作得到 a 将yy和7F AND 操作得到 b 将zz和7F AND 操作得到 c (64a+b)*64+c = ch(unicode编码) echo.php没什么。就是几个函数。 "); //写入unicode文件 $ucs2data = utf8ToUnicode($data,"little"); $endian = chr(0xFE).chr(0xFF); $endian = chr(0xFF).chr(0xFE); $rt = file_put_contents ( "ucs2.txt", $endian.$ucs2data); //19:32,utf8toUnicode函数ok. //20:09。发现little endian 和big endian问题。并解决。 //big endian 方式存入的unicode字符串,ue和editplus均不能 //识别。只有notepad正常识别。 $rt = file_put_contents ( "usc2ys_data.txt", $ucs2_ysdata); //写入utf8文件 $utf8data = unicodeToUtf8($ucs2data); // 20:52. 将字串转回utf8码ok. $rt = file_put_contents ( "utf8.txt", $utf8data); echo(urlencode($utf8data));echo(""); $esc = utf8Escape($data); echot($esc); $esc = phpEscape($data); echot($esc); $unesc = phpUnescape($esc); echot($unesc); /** * 此函数将utf8编码字串转为unicode编码字符串 * 参数 str ,utf8编码的字符串。 * 参数 order,存放数据格式,是big endian还是little endian,默认的unicode存放次序是little. * 如:"大"的unicode码是 5927。little方式存放即为:27 59 。big方式则顺序不变:59 27. * little 存放格式文件的开头均需有FF FE。big 存放方式的文件开头为 FE FF。否则。将会产生严重混乱。 * 本函数只转换字符,不负责增加头部。 * iconv转换过来的字符串是 big endian存放的。 * 返回 ucs2string , 转换过的字符串。 * 感谢唠叨(xuzuning) */ function utf8ToUnicode($str,$order="little") { $ucs2string =""; $n=strlen($str); for ($i=0;$i0x80) { //110xxxxx 10xxxxxx $a = (ord($str[$i]) & 0x3F )0x80 && ord($str[$i+2])>0x80) { //1110xxxx 10xxxxxx 10xxxxxx $a = (ord($str[$i]) & 0x1F)转为utf8编码字符串 * 参数 str ,unicode编码的字符串。 * 参数 order ,unicode字串的存放次序,为big endian还是little endian. * 返回 utf8string , 转换过的字符串。 * */ function unicodeToUtf8($str,$order="little") { $utf8string =""; $n=strlen($str); for ($i=0;$i转回来。 $i++; //两个字节表示一个unicode字符。 $c = ""; if($val utf8string .= $c; } return $utf8string; } // end func
/* * 将utf8编码的字符串编码为unicode 码型,等同escape * 之所以只接受utf8码,因为只有utf8码和unicode之间有公式转换,其他的编码都得查码表来转换。 * 不知道查找utf8码的正则是否完全正确。迷茫ing * 虽然调用utf2ucs对每个字符进行码值计算。效率过低。然而,代码清晰,要是把那个计算过程嵌入。 * 代码就不太容易阅读了。 */ function utf8Escape($str) { preg_match_all("/[\xC0-\xE0].|[\xE0-\xF0]..|[\x01-\x7f]+/",$str,$r); //prt($r); $ar = $r[0]; foreach($ar as $k=>$v) { $ord = ord($v[0]); if( $ordutf8码 $ar[$k] = "%u".utf2ucs($v); } elseif ($ordutf8码 $ar[$k] = "%u".utf2ucs($v); } }//foreach return join("",$ar); } /** * * 把utf8编码字符转为ucs-2编码 * 参数 utf8编码的字符。 * 返回 该字符的unicode码值。知道了码值,你就能使用chr将字符弄出来了。 * * 原理:unicode转为utf-8码的算法是。头部固定位或。 该过程的逆向算法就是这个函数了,头部固定位反位和。 */ function utf2ucs($str){ $n=strlen($str); if ($n=3) { $highCode = ord($str[0]); $midCode = ord($str[1]); $lowCode = ord($str[2]); $a = 0x1F & $highCode; $b = 0x7F & $midCode; $c = 0x7F & $lowCode; $ucsCode = (64*$a + $b)*64 + $c; } elseif ($n==2) { $highCode = ord($str[0]); $lowCode = ord($str[1]); $a = 0x3F & $highCode; //0x3F是0xC0的补数 $b = 0x7F & $lowCode; //0x7F是0x80的补数 $ucsCode = 64*$a + $b; } elseif($n==1) { $ucscode = ord($str); } return dechex($ucsCode); }
/* * 用处 :此函数用来逆转javascript的escape函数编码后的字符。 * 关键的正则查找我不知道有没有问题. * 参数:javascript编码过的字符串。 * 如:unicodeToUtf8("%u5927")= 大 * 2005-12-10 * */ function phpUnescape($escstr){ preg_match_all("/%u[0-9A-Za-z]{4}|%.{2}|[0-9a-zA-Z.+-_]+/",$escstr,$matches); //prt($matches); $ar = &$matches[0]; $c = ""; foreach($ar as $val){ if (substr($val,0,1)!="%") { //如果是字母数字+-_.的ascii码 $c .=$val; } elseif (substr($val,1,1)!="u") { //如果是非字母数字+-_.的ascii码 $x = hexdec(substr($val,1,2)); $c .=chr($x); } else { //如果是大于0xFF的码 $val = intval(substr($val,2),16); if($val %u".bin2hex( iconv( 'gbk' ,"UCS-2",$chars[$i].$chars[$i+1] ) ); $i++; } }//foreach return $ar; } ?>
c#实现代码 /** * utf-8 转换成 unicode * @author fanhui * 2007-3-15 * @param inStr * @return */ public static String utf8ToUnicode(String inStr) { char[] myBuffer = inStr.toCharArray();
StringBuffer sb = new StringBuffer(); for (int i = 0; i < inStr.length(); i++) { UnicodeBlock ub = UnicodeBlock.of(myBuffer[i]); if(ub == UnicodeBlock.BASIC_LATIN){ //英文及数字等 sb.append(myBuffer[i]); }else if(ub == UnicodeBlock.HALFWIDTH_AND_FULLWIDTH_FORMS){ //全角半角字符 int j = (int) myBuffer[i] - 65248; sb.append((char)j); }else{ //汉字 short s = (short) myBuffer[i]; String hexS = Integer.toHexString(s); String unicode = "\\u"+hexS; sb.append(unicode.toLowerCase()); } } return sb.toString(); }
/** * unicode 转换成 utf-8 * @author fanhui * 2007-3-15 * @param theString * @return */ public static String unicodeToUtf8(String theString) { char aChar; int len = theString.length(); StringBuffer outBuffer = new StringBuffer(len); for (int x = 0; x < len;) { aChar = theString.charAt(x++); if (aChar == '\\') { aChar = theString.charAt(x++); if (aChar == 'u') { // Read the xxxx int value = 0; for (int i = 0; i < 4; i++) { aChar = theString.charAt(x++); switch (aChar) { case '0': case '1': case '2': case '3': case '4': case '5': case '6': case '7': case '8': case '9': value = (value << 4) + aChar - '0'; break; case 'a': case 'b': case 'c': case 'd': case 'e': case 'f': value = (value << 4) + 10 + aChar - 'a'; break; case 'A': case 'B': case 'C': case 'D': case 'E': case 'F': value = (value << 4) + 10 + aChar - 'A'; break; default: throw new IllegalArgumentException( "Malformed \\uxxxx encoding."); } } outBuffer.append((char) value); } else { if (aChar == 't') aChar = '\t'; else if (aChar == 'r') aChar = '\r'; else if (aChar == 'n') aChar = '\n'; else if (aChar == 'f') aChar = '\f'; outBuffer.append(aChar); } } else outBuffer.append(aChar); } return outBuffer.toString(); }
|
|