扭结了好几天了。jsoup抓取网页代码中的字符转换.URLEncoder-Java教程-爱易网页

扭结了好几天了。jsoup抓取网页代码中的字符转换.URLEncoder

日期：2014-05-20　浏览次数：21114 次

纠结了好几天了。jsoup抓取网页代码中的字符转换.URLEncoder
利用jsoup抓取了网页源代码中的“m\/\u9b54\u738b\u5976\u7238\/\u7b2c161\u8bdd\/001.jpg”然后用substring来截取了其中的“\u9b54\u738b\u5976\u7238\”来处理，想把它用%XX这种形式来显示，用URLEncoder来处理，但是它只把其中的“\”处理了，转换成“%5Cu9b54%5Cu738b%5Cu5976%5Cu7238”.

------解决方案--------------------
如果一个文件名包括了这些字符( / & ? @ # ; $ + = %)，这些字符和所有其他字符就应该被编码,为什么不处理它呢?
------解决方案--------------------
字符"a"-"z"，"A"-"Z"，"0"-"9"，"."，"-"，"*"，和"_" 都不会被编码;
------解决方案--------------------
你用jsoup抓取网页源代码的时候字符集可能用错了,你看看原网站的编码格式是什么?
------解决方案--------------------
我之前做抓取项目也用到jsoup,我还是觉得你抓取来的时候编码可能有问题,你抓的该不会是新浪的东西吧?

免责声明： 本文仅代表作者个人观点，与爱易网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

扭结了好几天了。jsoup抓取网页代码中的字符转换.URLEncoder

相关资料更多>

推荐阅读更多>