日期:2014-05-20  浏览次数:20927 次

一直困扰的一个问题:关于解析html网页的问题 解析出其中的时间
rt 请问如果操作比较好
就如 百度搜索的每一项下面 都有一个时间

------解决方案--------------------
解析什么时间
------解决方案--------------------
那个是他自己缓存的时间和你这个扯不上关系吧。
------解决方案--------------------

那个是百度快照生成的时间吧!和网页没关系吧!
------解决方案--------------------
引用:
Quote: 引用:


那个是百度快照生成的时间吧!和网页没关系吧!
我才知道。。。是我太蠢了= =。。
那请问 怎么从网页文本中提取时间呢。。

网页里的时间呀?
解析html呀?
------解决方案--------------------
引用:
Quote: 引用:

Quote: 引用:

Quote: 引用:


那个是百度快照生成的时间吧!和网页没关系吧!
我才知道。。。是我太蠢了= =。。
那请问 怎么从网页文本中提取时间呢。。

网页里的时间呀?
解析html呀?

恩 这个知道。。不过因为网页的html里的时间格式 可能都不一样 不知道如何能统一解析

定义一个格式数组吧!
然后循环遍历,让个解析成功了就用那个!
------解决方案--------------------
先定位位置,然后用正则过滤出来

不同的格式,当然不能进行统一的提取,你要写个时间的规则库,时间的格式一般就那几种,差不多就能过滤大部分时间了
------解决方案--------------------
引用:
Quote: 引用:

先定位位置,然后用正则过滤出来

不同的格式,当然不能进行统一的提取,你要写个时间的规则库,时间的格式一般就那几种,差不多就能过滤大部分时间了

如何先定位。。。

我都是用xpath定位的