日期:2014-05-20  浏览次数:20841 次

java获取txt文件中的部分内容
需要的功能是从标准文献中,分别获取标题,摘要,作者给出的关键词,以及正文并分别进行分词。这里主要想问一下,怎么能够从txt文档中获取那四部分的文本呢?求各位指教。
Java 文档

------解决方案--------------------
要从文档里直接获取文本内容,恐怕不是件容易的事,这个恐怕要标记一下才行,否则JAVA不会认识这些文本内容的
------解决方案--------------------
你那应该读的是xml而不是txt
要不就是txt全读了然后正则提取出有用的内容、
------解决方案--------------------
引用:
Quote: 引用:

没固定格式计算机怎么知道什么是什么
大哥,标准文献格式是固定的。

=================================
文本文件应该是无法获取这么多信息的。
------解决方案--------------------
引用:
Quote: 引用:

没固定格式计算机怎么知道什么是什么
大哥,标准文献格式是固定的。

我们是知道是固定的,但是电脑怎么知道在哪改断开,那个是标题,那个是正文,出了对文档做处理,比如给文档的各个部分用不同的标记,然后用代码去判断,除此我想不出别的办法。