《表2 UTF-8编码的各个字节的取值范围》
提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《Python文本模式匹配与TXT文件编码类型的识别》
根据表2的总结,可以这样判断和识别UTF-8编码,以二进制方式从文件中取一段字节流,然后观察每个字节的值,如果是0~127之间的值无法区分,因为ANSI和UTF-8的编码都包含标准ASCII码;192~223之间的值,可能是UTF-8编码字节,后面应该有1个字节是128~191之间的数值;224~239之间的值,后面可能有2个128~191之间的值;240~247之间的值,后面应该有3个128~191之间的值。如果取到的字节都符合这样的规律,那这个文本是UTF-8编码的,否则那就是ANSI编码的。
图表编号 | XD0015604000 严禁用于非法目的 |
---|---|
绘制时间 | 2018.09.18 |
作者 | 云太真 |
绘制单位 | 上海政法学院计算机教学部 |
更多格式 | 高清、无水印(增值服务) |