日期:2014-05-16  浏览次数:20382 次

js通过什么算法可以获取页面文章正文
现在想做一个应用,通过js对网页的便利自动识别出那部分是文章正文。大家有什么好的算法实现吗?
算法

------解决方案--------------------
这怎么自动识别?肯定得你自己对html解析啊
------解决方案--------------------
爬虫应用么~
不同的网页配置不同的正则,匹配分析。
------解决方案--------------------
Regex 太阳,不够字数
------解决方案--------------------
抓取内容,得根据内容的格式来看啊,

各站有自己的格式,视情况而定。

一般正文的标题 用 H1,看能利用起来不
------解决方案--------------------
用div布局的页面,文章正文都包含在<p></p> 标签里
遍历出所有<p></p>的内容就好了
有特殊情况的用table布局,这时不好分辨
不知道楼主针对的哪些网站,最好有针对性