php中文分词源码遇到的小疑点-PHP教程-爱易网页

php中文分词源码遇到的小疑点

日期：2014-05-16　浏览次数：20741 次

php中文分词源码遇到的小问题

本帖最后由 zhuzhaodan 于 2014-03-20 22:26:08 编辑

define('_SP_', chr(0xFF).chr(0xFE)); 

define('UCS2', 'ucs-2be');

这2个常量定义的作用是什么？_SP_定义成chr(0xFF).chr(0xFE)是什么意思，我在ascii对照表内根本找不到FF,FE这2个对应的编码啊？
后面的代码如下

        //载入副词典

        $hw = '';

        $ds = file($dicAddon);//17行的txt格式字典文件

        foreach($ds as $d)

        {

            $d = trim($d);

            if($d=='') continue;

            $estr = substr($d, 1, 1);

            if( $estr==':' ) {

                $hw = substr($d, 0, 1);

            }

            else

            {

                $spstr = _SP_;

                $spstr = iconv(UCS2, 'utf-8', $spstr);//怎么会出现ucs2编码？咋回事

                $ws = explode(',', $d);//每一行的汉字，用中间的逗号分成数组

                $wall = iconv('utf-8', UCS2, join($spstr, $ws));//用_SP_又组合成了字符串？？，然后又转换成了ucs2?

                $ws = explode(_SP_, $wall);//又接着分割成数组？啥意思啊！！！

                foreach($ws as $estr)

                {

                    $this->addonDic[$hw][$estr] = strlen($estr);

                }

            }

        }

这段代码，就是载入字典文件，可是我没明白ELSE代码的逻辑？谁能简单说说
------解决方案--------------------
BOM 是编码类型声明，把 _SP_ 解释为 BOM 是为了帮助理解
你不是”在ascii对照表内根本找不到FF,FE这2个对应的编码“
再看

define('_SP_', chr(0xFF).chr(0xFE)); 

define('UCS2', 'ucs-2be');

$spstr = _SP_;

$spstr = iconv(UCS2, 'utf-8', $spstr);

echo bin2hex($spstr);

得到 efbfbe
这是 utf-8 的 BOM

至于他为什么要这样做，你看看字典文件就知道是怎么回事了

免责声明： 本文仅代表作者个人观点，与爱易网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

php中文分词源码遇到的小疑点

相关资料更多>

推荐阅读更多>