《表2 UTF-8编码的各个字节的取值范围》

提示：宽带有限、当前游客访问压缩模式

本系列图表出处文件名：随高清版一同展现

《Python文本模式匹配与TXT文件编码类型的识别》

获取高清版本忘记账户？点击这里登录

下载图表忘记账户？点击这里登录

根据表2的总结，可以这样判断和识别UTF-8编码，以二进制方式从文件中取一段字节流，然后观察每个字节的值，如果是0~127之间的值无法区分，因为ANSI和UTF-8的编码都包含标准ASCII码；192~223之间的值，可能是UTF-8编码字节，后面应该有1个字节是128~191之间的数值；224~239之间的值，后面可能有2个128~191之间的值；240~247之间的值，后面应该有3个128~191之间的值。如果取到的字节都符合这样的规律，那这个文本是UTF-8编码的，否则那就是ANSI编码的。

图表编号	XD0015604000 严禁用于非法目的
绘制时间	2018.09.18
作者	云太真
绘制单位	上海政法学院计算机教学部
更多格式	高清、无水印（增值服务）