注册 登录  
 加关注
查看详情
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

银河军团大本营

光荣的军团,永远的丰碑 <坚持原创>

 
 
 

日志

 
 

简繁体编码识别原理  

2012-06-07 17:17:55|  分类: 软件就是生活 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

  本文是以下两篇文章的补充:

文本编码的智能识别

文本编码的智能识别(续) - 完整代码部分

文本编码的智能识别(续) - Unicode版本代码

文本编码的智能识别(续) - C#版本代码

  没有BOM头的文件要识别其编码,一般采用统计学上的方法。作为对前两篇文本编码识别文章的补充,本文主要探讨一下简繁体编码识别原理。

  虽然简繁体字编码区域有很大重叠,但简体常用字及繁体常用字的编码区域则相差很大(具体情况作为一个业余研究人员我就不多说了,免得露馅,嘻嘻),而且不少字会有一对多的情况,因此,将一段文本从简体转为繁体再转回简体时,完全相同的概率比较低(具体是多少,没做分析,有兴趣的朋友可以研究),但如果原本就是简体的,那么经过两次转换后的文本与原文应该相差不大;同理,繁体文本转为简体转回繁体,其结果应该类似。根据这种原理,在简体系统下,如果将一段繁体文本当作简体转为繁体,然后再转为简体,由于繁体字的分布区域与简体有较大差异,因此,最后得到的文本与原文相比将会有较大的差别。前文中我采用的简繁体识别方法就是基于这样的原理,其关键是差异值应该取多少?经过试验,我取了6%,即在简体系统下,如果差异小于6%,则认为要识别的文本是简体,否则就是繁体。繁体系统下类似,可能这个6%的经验值并不一定合适,不过对于一般用途足够了。

  当然,单纯使用以上方法,其识别率依赖于文本中汉字的分布情况,在遇到中文制表符、标点符号比较多的文本,其识别率就不尽如人意了,所以可能还需要与其他识别算法结合使用。

  我在前文中由于还要识别UTF8等编码格式的文本,所以另外使用了一些编码特征的识别方法,总的来说,就是遇到每种编码特有的字符或编码特征(比如UTF8的中文基本上是3个字节的,而且每个字节最高几位都是1),那么就给这种编码的权值加上一个比较大的倍数,最后统计比较各个编码的权值,从而选出一种可能性最大的作为最后的编码格式。对于中文,可能还需要进一步用上述的方法再进行区分。

  相比其他编码识别算法,我采用的这种方法其实也是利用字符分布的差异来识别的,只不过借助于两次转换而已。

  <原创文章,转载请标明出处(http://dreamisx.blog.163.com/blog/static/1150048392012574535477/),谢谢。>

  评论这张
 
阅读(1721)| 评论(0)
推荐 转载

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2018