java处理BOM文本的方法

相关推荐

java处理BOM文本的方法

　　下面举个例子，针对UTF-8的文件BOM做个处理：

　　String xmla = StringFileToolkit.file2String(new File("D:\projects\mailpost\src\a.xml"),"UTF-8");

　　byte[] b = xmla.getBytes("UTF-8");

　　String xml = new String(b,3,b.length-3,"UTF-8");

　　Document doc1 = DocumentHelper.parseText(xml);

　　Element e1 = (Element)doc1.selectSingleNode("/ResponseData/Body/RetDesc");

　　Element e2 = (Element)doc1.selectSingleNode("/ResponseData/Head/RespID");

　　Element e3 = (Element)doc1.selectSingleNode("/ResponseData/Body/RetCode");

　　Element e4 = (Element)doc1.selectSingleNode("/ResponseData/Body/RetDesc");

　　思路是：先按照UTF-8编码读取文件后，跳过前三个字符，重新构建一个新的字符串，然后用Dom4j解析处理，这样就不会报错了。

　　其他编码的方式处理思路类似，其实可以写一个通用的自动识别的BOM的工具，去掉BOM信息，返回字符串。

　　不过这个处理过程已经有牛人解决过了：//koti.mbnet.fi/akini/java/unicodereader/

　　什么是BOM

　　BOM(byte-order mark)，即字节顺序标记，它是插入到以UTF-8、UTF16或UTF-32编码Unicode文件开头的特殊标记，用来识别Unicode文件的编码类型。对于UTF-8来说，BOM并不是必须的，因为BOM用来标记多字节编码文件的编码类型和字节顺序(big-endian或little-endian)。

　　在绝大多数编辑器中都看不到BOM字符，因为它们能理解Unicode，去掉了读取器看不到的题头信息。若要查看某个Unicode文件是否以BOM开头，可以使用十六进制编辑器。下表列出了不同编码所对应的BOM。

　　BOM Encoding

　　EF BB BF UTF-8

　　FE FF UTF-16 (big-endian)

　　FF FE UTF-16 (little-endian)

　　00 00 FE FF UTF-32 (big-endian)

　　FF FE 00 00 UTF-32 (little-endian)

　　BOM的来历

　　为了识别 Unicode 文件，Microsoft 建议所有的 Unicode 文件应该以 ZERO WIDTH NOBREAK SPACE(U+FEFF)字符开头。这作为一个“特征符”或“字节顺序标记(byte-order mark，BOM)”来识别文件中使用的编码和字节顺序。

　　不同的系统对BOM的支持

　　因为一些系统或程序不支持BOM，因此带有BOM的Unicode文件有时会带来一些问题。

　　1.JDK1.5以及之前的Reader都不能处理带有BOM的UTF-8编码的文件，解析这种格式的xml文件时，会抛出异常：Content is not allowed in prolog.