写网页抓取程序在URL编码上遇到的有关问题-Java教程-爱易网页

写网页抓取程序在URL编码上遇到的有关问题

日期：2014-05-17　浏览次数：20754 次

写网页抓取程序在URL编码上遇到的问题
各位大大：
我在写网页抓取程序时遇到个问题
抓取程序是使用公司的框架来实现的，我作为一个低级程序员，就是负责实现框架中规定的几个方法
简单地说，通过一系列设计好的流程，我可以得到一个需要抓取的网页的URL，然后将这个URL传入一个getHtml方法，框架就会自动发送http请求，获得该URL对应的网页的HTML并保存，多数网站这么做是行得通的。
但是现在我遇到一个网站，其URL中带有汉字参数，这些汉字是以gb2312编码了的，这个网站的服务器貌似只会以gb2312的编码方式去解析URL中所带的参数，矛盾的地方就出现了，框架在自动发送请求之前，会自动对URL进行一次utf-8的编码，因此，即使我能够得到正确的URL，但框架在发送请求时会将其变成utf-8的编码，而网站的服务器对于变成utf-8的参数，始终返回的都是没有结果的网页。
这里我想麻烦各位出出主意，有没有哪位之前有过类似的问题，可以提供点参考解决方案么？这里小生先行谢过了！

我琢磨着有没有这样一个方法，它可以将源汉字转化为一个字符串，该字符串经过utf-8编码之后，恰好就能变成源汉字的gb2312编码，那么这个问题就解决了，但是我不会。

------解决方案--------------------
也许，对你有帮助
http://mrvsto.com/2010/08/c-convert-utf8-into-gb2312-and-convert-gb2312-to-utf8/

不过就我的理解，应当先解码为clear text然后再编码为gb2312的url.

免责声明： 本文仅代表作者个人观点，与爱易网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

写网页抓取程序在URL编码上遇到的有关问题

相关资料更多>

推荐阅读更多>