关于网页内容的文字抓取
我现在能抓到一个网页的信息,我要如何去分析这个网页把上面的文章全部抓取下来?
我看了下那个网页的原代码并无很长的中文字,应该是引用了其他的东西显示出来的。
我想问下我的正则表达式要怎么写或者是抓取哪到哪的关键字的中间部分就可以了。
------解决方案--------------------这个应该是js获取的数据,源码里没有
------解决方案--------------------http://blog.csdn.net/jj547139491/article/details/9011913
希望能给你一点帮助
------解决方案--------------------<p> 这种标记再处理下,替换成空格或者换行什么的