一直困扰的一个问题:关于解析html网页的问题 解析出其中的时间
rt 请问如果操作比较好
就如 百度搜索的每一项下面 都有一个时间
------解决方案--------------------解析什么时间
------解决方案--------------------那个是他自己缓存的时间和你这个扯不上关系吧。
------解决方案--------------------
那个是百度快照生成的时间吧!和网页没关系吧!
------解决方案--------------------
网页里的时间呀?
解析html呀?
------解决方案--------------------
那个是百度快照生成的时间吧!和网页没关系吧!
我才知道。。。是我太蠢了= =。。
那请问 怎么从网页文本中提取时间呢。。
网页里的时间呀?
解析html呀?
恩 这个知道。。不过因为网页的html里的时间格式 可能都不一样 不知道如何能统一解析
定义一个格式数组吧!
然后循环遍历,让个解析成功了就用那个!
------解决方案--------------------先定位位置,然后用正则过滤出来
不同的格式,当然不能进行统一的提取,你要写个时间的规则库,时间的格式一般就那几种,差不多就能过滤大部分时间了
------解决方案--------------------
先定位位置,然后用正则过滤出来
不同的格式,当然不能进行统一的提取,你要写个时间的规则库,时间的格式一般就那几种,差不多就能过滤大部分时间了
如何先定位。。。
我都是用xpath定位的