在任意字符集下正常显示网页的方法二（续）

ttx9n · 发表于 2007-4-1 00:00:00

转:coolcode.cn
前几天写了一篇在任意字符集下正常显示网页的方法，里面介绍的很简单，就是把前128个字符以外的字符集都用 NCR 来表示，但是具体怎么转化我没有介绍，因为当时我觉得太简单了。但是后来发现有人问这个问题，这里就详细说明一下。
首先第一步是要把源字符集的字符串转化为 UTF-16 字符集，做这一步是因为 UTF-16 字符集中的每个字符都是两个字节，后面处理起来很容易，而如果在源字符集上直接做处理则很复杂。源字符集可以从原网页中的 meta 标签中获得，也可以单独指定，我的程序是让用户在表单中指定源字符集，因为我不能保证用户提交的文件就一定是 HTML 文件（其他文件也是可以的，比如这个 WordPress 的汉化包源文件是个 po 文件，它里面的内容也可以这样处理），而且即使是 HTML 文件，里面也不一定就有用于指定字符集的 meta 标签，所以通过表单单独指定字符集比较保险。你可能会觉得将一种字符集转化为另一种字符集很复杂，确实如此，如果自己来实现的话，确实非常麻烦，但是用 PHP 来做却很容易，因为它里面已经包含这样的函数了，你可以通过 iconv 函数很容易的来实现各种字符集之间的转化，如果你的机器上没有安装 iconv 扩展，你也可以使用 mb_convert_encoding 函数，如果 Multibyte String 扩展也没有安装，那就没办法了，因为你要自己实现那么多种编码的转化基本上是不可能的，除非你是顶级大牛！推荐使用 iconv，因为这个效率高，支持的字符集也更多。
做完上面那一步之后，接下来是以每两个字节为单位对字符串进行处理。这两个字节直接转化为数字就是 &#xxxxx; 中的 xxxxx，如果这个数字小于 128 就直接使用这个字符（注意这里就变成单字节了），否则就使用 &#xxxxx; 的形式。这里有一点要注意，就是当这个数字是 65279（16 进制的 0xFEFF）时，请把它忽略掉，因为这个是 Unicode 编码中的传输控制字符，而我们现在的字符串已经只有 iso-8859-1 编码中的前 128 个字符了，所以我们不需要它了。
好了，基本思路就是这样，下面是实现的程序：
下载: nochaoscode.php
复制代码代码如下:
<?php
function nochaoscode($encode, $str) {
    $str = iconv($encode, "UTF-16BE", $str);
    for ($i = 0; $i < strlen($str); $i++,$i++) {
        $code = ord($str{$i}) * 256 + ord($str{$i + 1});
        if ($code < 128) {
            $output .= chr($code);
        } else if ($code != 65279) {
            $output .= "&#".$code.";";
        }
    }
    return $output;
}
?>

函数的参数中，$encode 是源字符集，$str 是需要进行转化的字符串。返回结果是转化以后字符串。
补充：今天 Legend 告诉我一种更简单的方法，就是直接利用 mb_convert_encoding 函数。因为 mb_convert_encoding 支持一种叫做 HTML-ENTITIES 的编码格式，也就是 NCR 编码。用它就更简单了。

qq303604905 · 发表于 2022-9-3 03:56:02

灌灌灌灌水

5cf304mn2 · 发表于 2022-11-6 19:18:32

谢谢下载来看看

kwzc65wdj · 发表于 2023-2-12 22:32:27

飞飞飞飞飞飞飞飞飞飞飞飞飞

dm00ji1s · 发表于 2023-7-10 18:02:48

那三门，你们谁寂寞才快乐撒

rveqwdpw5 · 发表于 2023-9-1 01:59:14

啦啦啦啦啦啦啦啦！

i1efp6c · 发表于 2023-9-9 08:38:16

怕怕怕怕怕怕怕怕怕怕怕怕怕怕

a971560 · 发表于 2023-12-8 17:42:32

很不错的样子

q215357618 · 发表于 2024-1-17 13:16:28

谢谢下载来看看

wqpa63gz · 发表于 2024-3-17 23:33:40

sdsadsadsadf

账号		自动登录	找回密码
密码			立即注册

[PHP编程] 在任意字符集下正常显示网页的方法二（续）

相关帖子