日期:2014-05-20  浏览次数:20573 次

纠结了好几天了。jsoup抓取网页代码中的字符转换.URLEncoder
利用jsoup抓取了网页源代码中的“m\/\u9b54\u738b\u5976\u7238\/\u7b2c161\u8bdd\/001.jpg”然后用substring来截取了其中的“\u9b54\u738b\u5976\u7238\”来处理,想把它用%XX这种形式来显示,用URLEncoder来处理,但是它只把其中的“\”处理了,转换成“%5Cu9b54%5Cu738b%5Cu5976%5Cu7238”.

------解决方案--------------------
如果一个文件名包括了这些字符( / & ? @ # ; $ + = %),这些字符和所有其他字符就应该被编码,为什么不处理它呢?
------解决方案--------------------
字符"a"-"z","A"-"Z","0"-"9",".","-","*",和"_" 都不会被编码;
------解决方案--------------------
你用jsoup抓取网页源代码的时候字符集可能用错了,你看看原网站的编码格式是什么?
------解决方案--------------------
我之前做抓取项目也用到jsoup,我还是觉得你抓取来的时候编码可能有问题,你抓的该不会是新浪的东西吧?