日期:2014-05-20  浏览次数:21206 次

请教 : web网页提取正文 ,正文提纯。
小弟看到一个这样的网址,正文提纯的演示,非常好,提取新闻,博客,论坛(带楼层一起提取),非常准。

http://61.128.196.27/txt/

大家可以看看,有谁做过类似的这样的东西,给小弟说说,一些成功的经验俺想学。

园子里的蛙蛙的正文提纯看过了,只是只对大片文字的新闻比较有效。对论坛不行。

现在贴出一些论坛,兄弟们可以去这个链接上试试效果哦

http://bbs.pcbeta.com/thread-437830-1-1.html 
http://bbs.iwindows7.com/thread-7741-1-1.html 
http://bbs.vista123.com/thread-161747-1-1.html 
http://softbbs.pconline.com.cn/9960486.html 
http://bbs.realqwh.cn/read-htm-tid-69019.html 
http://bbs.xtbeta.com/read.php?tid=7199 
http://bbs.itjmz.com/read.php?tid=61261 
http://bbs.windows7en.com/thread-8828-1-1.html 
http://bbs.kafan.cn/thread-443359-1-1.html 
http://www.in9.cn/read.php?tid=435443 
http://bbs.zdnet.com.cn/thread-1152490-1-1.html 
http://forum.51nb.com/thread-799684-1-1.html 
http://www.coolaler.com/~coolaler/forum/showthread.php?p=2304154 
http://softbbs.it168.com/thread-669601-0-1-1.html 
http://www.kpfans.com/bbs/thread-443404-1-1.html 
http://bbs.jujumao.com/dispbbs.php?boardid=119&replyid=2658388&id=259072&skin=0&page=1&star=1 
http://www.xtzj.com/read-htm-tid-379497.html 
http://www.mydianping.com/bbsinfo100786-53612.html 
http://bbs.bitscn.com/210519 
http://www.tomatoll.com/thread-45570-1-1.html 
http://bbs.cfan.com.cn/thread-860583-1-1.html 
http://baike.360.cn/3232114/22741520.html 
http://bbs.win7c.com/thread-2179-1-1.html 
http://www.win75.cn/thread-2175-1-1.html 
http://win.chinaunix.net/bbs/thread-26215-1-1.html 
http://bbs.crsky.com/read.php?tid=1590643 
http://www.cnaxh.com/forum/showtopic.aspx?topicid=719&forumpage=1&onlyauthor=1 
http://bbs.ws2008.net/showtopic.aspx?forumid=5&topicid=807&go=next 
http://wenda.tianya.cn/wenda/thread?tid=6238094d355823a7 
http://itbbs.pconline.com.cn/diy/9942640.html 
http://bbs.xtghost.com/read.php?tid=4848 
http://forum.byr.edu.cn/wForum/disparticle.php?boardName=Windows&ID=89065&start=31&listType=1 
http://bbs.51vip.net/dispbbs_4_1928_0_1.html?boardid=4&id=1928&move=next 
http://bbs.levelup.cn/showtree.aspx?topicid=768957&postid=15854936 
http://bbs.ctocio.com.cn/thread-7843895-1-1.html 
http://tianyi.it168.com/thread-555477-1-1.html 
http://www.luobo.cc/read.php?tid=4875266%27 
http://bbs.cngho.com/viewthread.php?tid=30043 
http://bbs.mspil.edu.cn/BBS/dispbbs_107_142696_1.htm 
http://51nb.com/forum/thread-797114-1-1.html 


------解决方案--------------------
不是很准,要对具体网页具体分析
------解决方案--------------------
不错,收藏了。
------解决方案--------------------
不准,这个还是需要写相关的匹配方法。
不是一个万能,或者说智能的东西——至少我现在这么认为的。
比如说,你让它提纯:news.baidu.com试试,或者http://finance.sina.com.cn/stock/试试,看他提纯出来的是什么~
当然,还要说明点是,对于论坛的提取,效果已经比较显著
我想是不是选择文字多的,链接少的那些进行匹配——感觉这个提纯的工具就是这么比较的...

------解决方案--------------------
不是很准?是真的很准哦?
楼伤兄弟,你不要拿index页去提纯,只拿具体页面就才有意义的。呵呵
他这个比较吊了,适配了很多的论坛

选文字多的:?????页面上的文字都很多哦?有每个楼层的个人信息和广告啥的
我也可能一个楼就一句哦?
------解决方案--------------------
top

难道做这类采集,抽取正文的兄弟很少么?
------解决方案--------------------
引用:
top

难道做这类采集,抽取正文的兄弟很少么?

请问楼主的正文抽取程序搞定了吗 能不能发我一份参考一下 非常感谢!!
------解决方案--------------------