日期:2014-05-16  浏览次数:20886 次

Linux 汇编器:对比 GAS 和 NASM

转自 http://www.ibm.com/developerworks/cn/linux/l-gas-nasm.html#ibm-pcon

与其他语言不同,汇编语言 要求开发人员了解编程所用机器的处理器体系结构。汇编程序不可移植,维护和理解常常比较麻烦,通常包含大量代码行。但是,在机器上执行的运行时二进制代码在速度和大小方面有优势。

对于在 Linux 上进行汇编级编程已经有许多参考资料,本文主要讲解语法之间的差异,帮助您更轻松地在汇编形式之间进行转换。本文源于我自己试图改进这种转换的尝试。

本文使用一系列程序示例。每个程序演示一些特性,然后是对语法的讨论和对比。尽管不可能讨论 NASM 和 GAS 之间存在的每个差异,但是我试图讨论主要方面,给进一步研究提供一个基础。那些已经熟悉 NASM 和 GAS 的读者也可以在这里找到有用的内容,比如宏。

本文假设您至少基本了解汇编的术语,曾经用符合 Intel? 语法的汇编器编写过程序,可能在 Linux 或 Windows 上使用过 NASM。本文并不讲解如何在编辑器中输入代码,或者如何进行汇编和链接(但是下面的边栏可以帮助您 快速回忆一下 )。您应该熟悉 Linux 操作系统(任何 Linux 发行版都可以;我使用的是 Red Hat 和 Slackware)和基本的 GNU 工具,比如 gcc 和 ld,还应该在 x86 机器上进行编程。

现在,我描述一下本文讨论的范围。

构建示例


汇编:
GAS:
as –o program.o program.s

NASM:
nasm –f elf –o program.o program.asm

链接(对于两种汇编器通用):
ld –o program program.o

在使用外部 C 库时的链接方法:
ld –-dynamic-linker /lib/ld-linux.so.2 –lc –o program program.o

本文讨论:

  • NASM 和 GAS 之间的基本语法差异
  • 常用的汇编级结构,比如变量、循环、标签和宏
  • 关于调用外部 C 例程和使用函数的信息
  • 汇编助记符差异和使用方法
  • 内存寻址方法

本文不讨论:

  • 处理器指令集
  • 一种汇编器特有的各种宏形式和其他结构
  • NASM 或 GAS 特有的汇编器指令
  • 不常用的特性,或者只在一种汇编器中出现的特性

更多信息请参考汇编器的官方手册(参见 参考资料 中的链接),因为这些手册是最完整的信息源。

基本结构

清单 1 给出一个非常简单的程序,它的作用仅仅是使用退出码 2 退出。这个小程序展示了 NASM 和 GAS 的汇编程序的基本结构。

清单 1. 一个使用退出码 2 退出的程序 行号 NASM GAS
001
002
003
004
005
006
007
008
009
010
011
012
013
014
015
016

; Text segment begins
section .text

   global _start

; Program entry point
   _start:

; Put the code number for system call
      mov   eax, 1 

; Return value 
      mov   ebx, 2

; Call the OS
      int   80h

# Text segment begins
.section .text

   .globl _start

# Program entry point
   _start:

# Put the code number for system call
      movl  $1, %eax

/* Return value */
      movl  $2, %ebx

# Call the OS
      int   $0x80

现在解释一下。

NASM 和 GAS 之间最大的差异之一是语法。GAS 使用 AT&T 语法,这是一种相当老的语法,由 GAS 和一些老式汇编器使用;NASM 使用 Intel 语法,大多数汇编器都支持它,包括 TASM 和 MASM。(GAS 的现代版本支持 .intel_syntax 指令,因此允许在 GAS 中使用 Intel 语法。)

下面是从 GAS 手册总结出的一些主要差异:

  • AT&T 和 Intel 语法采用相反的源和目标操作数次序。例如:
    • Intel:mov eax, 4
    • AT&T:movl $4, %eax
  • 在 AT&T 语法中,中间操作数前面加 $ ;在 Intel 语法中,中间操作数不加前缀。例如:
    • Intel:push 4
    • AT&T:pushl $4
  • 在 AT&T 语法中,寄存器操作数前面加 % 。在 Intel 语法中,它们不加前缀。
  • 在 AT&T 语法中,内存操作数的大小由操作码名称的最后一个字符决定。操作码后缀 bwl 分别指定字节(8 位)、字(16 位)和长(32 位)内存引用。Intel 语法通过在内存操作数(而不是操作码本身)前面加 byte ptrword ptrdword ptr 来指定大小。所以:
    • Intel:mov al, byte ptr foo