日期:2014-05-17  浏览次数:20545 次

用 PHP 读取文件的正确方法

了解如何使用 PHP 的各种文件函数。查看诸如 fopen、fclose 和 feof 之类的基本文件函数;了解诸如 fgets、fgetss 和 fscanf 之类的读取函数。并且发现用一两行代码处理整个文件的函数。

让我们算一算有多少种方法

处 理诸如 PHP 之类的现代编程语言的乐趣之一就是有大量的选项可用。PHP 可以轻松地赢得 Perl 的座右铭“There's more than one way to do it”(并非只有一种方法可做这件事),尤其是在文件处理上。但是在这么多可用的选项中,哪一种是完成作业的最佳工具?当然,实际答案取决于解析文件的目 标,因此值得花时间探究所有选项。


传统的 fopen 方法

fopen 方法可能是以前的 C 和 C++ 程序员最熟悉的,因为如果您使用过这些语言,那么它们或多或少都是您已掌握多年的工具。对于这些方法中的任何一种,通过使用 fopen(用于读取数据的函数)的标准方法打开文件,然后使用 fclose 关闭文件,如清单 1 所示。

清单 1. 用 fgets 打开并读取文件??? ??? ??? ???
$file_handle = fopen("myfile", "r");
while (!feof($file_handle)) {
?? $line = fgets($file_handle);
?? echo $line;
}
fclose($file_handle);

虽然大多数具有多年编程经验的程序员都熟悉这些函数,但是让我对这些函数进行分解。有效地执行以下步骤:
打开文件。$file_handle 存储了一个对文件本身的引用。
检查您是否已到达文件的末尾。
继续读取文件,直至到达文件末尾,边读取边打印每行。
关闭文件。

记住这些步骤,我将回顾在这里使用的每个文件函数。

fopen

fopen 函数将创建与文件的连接。我之所以说“创建连接”,是因为除了打开文件之外,fopen 还可以打开一个 URL:$fh = fopen("http://127.0.0.1/", "r");

这行代码将创建一个与以上页面的连接,并允许您开始像读取一个本地文件一样读取它。

注: fopen 中使用的 "r" 将指示文件以只读方式打开。由于将数据写入文件不在本文的讨论范围内,因此我将不列出所有其他选项。但是,如果是从二进制文件读取以获得跨平台兼容性,则应当将 "r" 更改为 "rb"。稍后您将看到这样的示例。

feof

feof 命令将检测您是否已经读到文件的末尾并返回 True 或 False。清单 1 中的循环将继续执行,直至您达到文件“myfile”的末尾。注:如果读取的是 URL 并且套接字由于不再有任何数据可以读取而超时,则 feof 也将返回 False。

fclose

向前跳至清单 1 的末尾,fclose 将实现与 fopen 相反的功能:它将关闭指向文件或 URL 的连接。执行此函数后,您将不再能够从文件或套接字中读取任何信息。

fgets

在清单 1 中回跳几行,您就到达了文件处理的核心:实际读取文件。fgets 函数是处理第一个示例的首选武器。它将从文件中提取一行数据并将其作为字符串返回。在那之后,您可以打印或者以别的方式处理数据。清单 1 中的示例将精细地打印整个文件。

如果决定限制处理数据块的大小,您可以将一个参数添加到 fgets 中限制最大行长度。例如,使用以下代码将行长度限制为 80 个字符:$string = fgets($file_handle, 81);

回想 C 中的“\0”字符串末尾终止符,将长度设为比实际所需值大一的数字。因而,如果需要 80 个字符,则以上示例使用 81。应养成以下习惯:只要对此函数使用行限制,就添加该额外字符。

fread

fgets 函数是多个文件读取函数中惟一一个可用的。它是一个更常用的函数,因为逐行解析通常会有意义。事实上,几个其他函数也可以提供类似功能。但是,您并非总是需要逐行解析。

这 时就需要使用 fread。fread 函数与 fgets 的处理目标略有不同:它趋于从二进制文件(即,并非主要包含人类可阅读的文本的文件)中读取信息。由于“行”的概念与二进制文件无关(逻辑数据结构通常都 不是由新行终止),因此您必须指定需要读入的字节数。$fh = fopen("myfile", "rb");
$data = fread($file_handle, 4096);

??? ??? 使用二进制数据

注 意:此函数的示例已经使用了略微不同于 fopen 的参数。当处理二进制数据时,始终要记得将 b 选项包含在 fopen 中。如果跳过这一点,Microsoft? Windows? 系统可能无法正确处理文件,因为它们将以不同的方式处理新行。如果处理的是 Linux? 系统(或其他某个 UNIX? 变种),则这可能看似没什么关系。但即使不是针对 Windows 开发的,这样做也将获得良好的跨平台可维护性,并且也是应当遵循的一个好习惯。

以上代码将读取 4,096 字节 (4 KB) 的数据。注:不管指定多少字节,fread 都不会读取超过 8,192 个字节 (8 KB)。

假定文件大小不超过 8 KB,则以下代码应当能将整个文件读入一个字符串。$fh = fopen("myfile", "rb");
$data = fread($fh, filesize("myfile"));
fclose($fh);

如果文件长度大于此值,则只能使用循环将其余内容读入。

fscanf

回到字符串处理,fscanf 同样遵循传统的 C 文件库函数。如果您不熟悉它,则 fscanf 将把字段数据从文件读入变量中。list ($field1, $field2, $field3) = fscanf($fh, "%s %s %s");

此函数使用的格式字符串在很多地方都有描述(如 PHP.net 中),故在此不再赘述。可以这样说,字符串格式化极为灵活。值得注意的是所有字段都放在函数的返回值中。(在 C 中,它们都被作为参数传递。)

fgetss

fgetss 函数不同于传统文件函数并使您能更好地了解 PHP 的力量。该函数的功能类似于 fgets 函数,但将去掉发现的任何 HTML 或 PHP 标记,只留下纯文本。查看如下所示的 HTML 文件。

清单 2. 样例 HTML 文件??? ??? ??? ???
<html>
??? <head><title>My title</title></head>
??? <body>
??????? <p>If you understand what "Cause there ain't no one for to give you no pain"
??????????? means then you listen to too much of the band America</p>
??? </body>
</html>

然后通过 fgetss 函数过滤它。

清单 3. 使用 fgetss??? ??? ??? ???
$file_handle = fopen("myfile", "r");
while (!feof($file_handle)) {
?? echo = fgetss($file_handle);
}
fclose($file_handle);



以下是输出:??? My title

??????? If you understand what "Cause there ain't no one for to give you no pain"
??????????? means then you listen to too much of the band America



fpassthru 函数

无论怎样读取文件,您都可以使用 fpassthru 将其余数据转储到标准输出通道。fpassthru($fh);


此外,此函数将打印数据,因此无需使用变量获取数据。

非线性文件处理:跳跃访问

当然,以上函数只允许顺序读取文件。更复杂的文件可能要求您来回跳转到文件的不同部分。这时就用得着 fseek 了。