思路:如果GBK中文字节流我们使用 UTF-8 编码,会出现未知字符�,字节代表数字为 -65, -67。
所以先尝试用 utf-8 编码,然后获取字节流,判断其中是否存在未知字符。
流程:当直接使用 java 中的 String(byte[], offset, len) 时会采用的编码格式为
假设现在是 utf-8 编码1,首先将字节 buf 转化为 String
2, 再次获取字节流
3,看字节中是否存在连续的 -65,-67。有说明不是 utf-8 编码
整个流程代码:
Original: https://www.cnblogs.com/dnghg/p/14307036.html
Author: dnghong
Title: 识别 UTF-8 编码
原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/592381/
转载文章受原作者版权保护。转载请注明原作者出处!