淺析Linux中的零拷貝技術-linux運維-PHP中文網

本文探討Linux中主要的幾種零拷貝技術以及零拷貝技術適用的場景。為了迅速建立起零拷貝的概念，我們拿一個常用的場景進行介紹：

#引用

##在寫一個服務端程式時（Web Server或檔案伺服器），檔案下載是一個基本功能。這時候服務端的任務是：將服務端主機磁碟中的檔案不做修改地從已連接的socket發出去，我們通常用下面的程式碼完成：

while((n = read(diskfd, buf, BUF_SIZE)) > 0) write(sockfd, buf , n);

登入後複製

基本操作就是循環的從磁碟讀入檔案內容到緩衝區，再將緩衝區的內容傳送到socket。但是由於Linux的I/O操作預設是緩衝I/O。這裡面主要使用的也就是read和write兩個系統調用，我們並不知道作業系統在其中做了什麼。實際上在上述I/O操作中，發生了多次的資料拷貝。

當應用程式存取某塊資料時，作業系統首先會檢查，是否最近訪問過此文件，文件內容是否緩存在內核緩衝區，如果是，作業系統則直接根據read系統呼叫提供的buf位址，將核心緩衝區的內容拷貝到buf所指定的使用者空間緩衝區中去。如果不是，作業系統則先將磁碟上的資料拷貝的核心緩衝區，這一步目前主要依靠DMA來傳輸，然後再把核心緩衝區上的內容拷貝到使用者緩衝區中。

接下來，write系統呼叫再把使用者緩衝區的內容拷貝到網路堆疊相關的核心緩衝區中，最後socket再把核心緩衝區的內容傳送到網卡上。說了這麼多，不如看圖片清楚：

淺析 Linux 中的零拷貝技術

#資料拷貝
#

从上图中可以看出，共产生了四次数据拷贝，即使使用了DMA来处理了与硬件的通讯，CPU仍然需要处理两次数据拷贝，与此同时，在用户态与内核态也发生了多次上下文切换，无疑也加重了CPU负担。

在此过程中，我们没有对文件内容做任何修改，那么在内核空间和用户空间来回拷贝数据无疑就是一种浪费，而零拷贝主要就是为了解决这种低效性。

什么是零拷贝技术（zero-copy）？

零拷贝主要的任务就是避免CPU将数据从一块存储拷贝到另外一块存储，主要就是利用各种零拷贝技术，避免让CPU做大量的数据拷贝任务，减少不必要的拷贝，或者让别的组件来做这一类简单的数据传输任务，让CPU解脱出来专注于别的任务。这样就可以让系统资源的利用更加有效。

我们继续回到引文中的例子，我们如何减少数据拷贝的次数呢？一个很明显的着力点就是减少数据在内核空间和用户空间来回拷贝，这也引入了零拷贝的一个类型：

让数据传输不需要经过 user space。

使用 mmap

我们减少拷贝次数的一种方法是调用mmap()来代替read调用：

buf = mmap(diskfd, len); write(sockfd, buf, len);

登入後複製

应用程序调用mmap()，磁盘上的数据会通过DMA被拷贝的内核缓冲区，接着操作系统会把这段内核缓冲区与应用程序共享，这样就不需要把内核缓冲区的内容往用户空间拷贝。应用程序再调用write(),操作系统直接将内核缓冲区的内容拷贝到socket缓冲区中，这一切都发生在内核态，最后，socket缓冲区再把数据发到网卡去。同样的，看图很简单：

淺析 Linux 中的零拷貝技術

mmap

#使用mmap替代read很明顯減少了一次拷貝，當拷貝資料量很大時，無疑提升了效率。但是使用mmap是有代價的。當你使用mmap時，你可能會遇到一些隱藏的陷阱。例如，當你的程式map了一個文件，但是當這個文件被另一個進程截斷(truncate)時, write系統調用會因為訪問非法地址而被SIGBUS信號終止。 SIGBUS訊號預設會殺死你的進程並產生一個coredump,如果你的伺服器這樣被中止了，那會產生一筆損失。

通常我們使用以下解決方案來避免這種問題：

1. 為SIGBUS訊號建立訊號處理程序

當遇到SIGBUS訊號時，訊號處理程序簡單地傳回，write系統呼叫在中斷之前會傳回已經寫入的位元組數，並且errno會被設定成success,但是這是一種糟糕的處理辦法，因為你並沒有解決問題的實質核心。

2. 使用檔案租借鎖

通常我們使用這種方法，在檔案描述子上使用租借鎖，我們為檔案向核心申請一個租借鎖，當其它進程想要截斷這個檔案時，核心會向我們發送一個即時的RTSIGNALLEASE訊號，告訴我們核心正在破壞你加持在檔案上的讀寫鎖。這樣在程式存取非法記憶體並且被SIGBUS殺死之前，你的write系統呼叫會被中斷。 write會傳回已經寫入的位元組數，並且置errno為success。

我們應該在mmap檔案之前加鎖，並且在操作完檔案後解鎖：

if(fcntl(diskfd, F_SETSIG, RT_SIGNAL_LEASE) == -1) { perror("kernel lease set signal"); return -1; } /* l_type can be F_RDLCK F_WRLCK 加锁*/ /* l_type can be F_UNLCK 解锁*/ if(fcntl(diskfd, F_SETLEASE, l_type)){ perror("kernel lease set type"); return -1; }

登入後複製

使用sendfile

从2.1版内核开始，Linux引入了sendfile来简化操作:

#include ssize_t sendfile(int out_fd, int in_fd, off_t *offset, size_t count);

登入後複製

系统调用sendfile()在代表输入文件的描述符infd和代表输出文件的描述符outfd之间传送文件内容（字节）。描述符outfd必须指向一个套接字，而infd指向的文件必须是可以mmap的。这些局限限制了sendfile的使用，使sendfile只能将数据从文件传递到套接字上，反之则不行。

使用sendfile不仅减少了数据拷贝的次数，还减少了上下文切换，数据传送始终只发生在kernel space。

淺析 Linux 中的零拷貝技術

sendfile系统调用过程

在我们调用sendfile时，如果有其它进程截断了文件会发生什么呢？假设我们没有设置任何信号处理程序，sendfile调用仅仅返回它在被中断之前已经传输的字节数，errno会被置为success。如果我们在调用sendfile之前给文件加了锁，sendfile的行为仍然和之前相同，我们还会收到RTSIGNALLEASE的信号。

目前为止，我们已经减少了数据拷贝的次数了，但是仍然存在一次拷贝，就是页缓存到socket缓存的拷贝。那么能不能把这个拷贝也省略呢？

借助于硬件上的帮助，我们是可以办到的。之前我们是把页缓存的数据拷贝到socket缓存中，实际上，我们仅仅需要把缓冲区描述符传到socket缓冲区，再把数据长度传过去，这样DMA控制器直接将页缓存中的数据打包发送到网络中就可以了。

总结一下，sendfile系统调用利用DMA引擎将文件内容拷贝到内核缓冲区去，然后将带有文件位置和长度信息的缓冲区描述符添加socket缓冲区去，这一步不会将内核中的数据拷贝到socket缓冲区中，DMA引擎会将内核缓冲区的数据拷贝到协议引擎中去，避免了最后一次拷贝。

淺析 Linux 中的零拷貝技術

带DMA的sendfile

不过这一种收集拷贝功能是需要硬件以及驱动程序支持的。

使用splice

sendfile只适用于将数据从文件拷贝到套接字上，限定了它的使用范围。Linux在2.6.17版本引入splice系统调用，用于在两个文件描述符中移动数据：

#define _GNU_SOURCE /* See feature_test_macros(7) */ #include ssize_t splice(int fd_in, loff_t *off_in, int fd_out, loff_t *off_out, size_t len, unsignedint flags);

登入後複製

splice调用在两个文件描述符之间移动数据，而不需要数据在内核空间和用户空间来回拷贝。他从fdin拷贝len长度的数据到fdout，但是有一方必须是管道设备，这也是目前splice的一些局限性。flags参数有以下几种取值：

SPLICEFMOVE：尝试去移动数据而不是拷贝数据。这仅仅是对内核的一个小提示：如果内核不能从pipe移动数据或者pipe的缓存不是一个整页面，仍然需要拷贝数据。Linux最初的实现有些问题，所以从2.6.21开始这个选项不起作用，后面的Linux版本应该会实现。
SPLICEFNONBLOCK：splice 操作不会被阻塞。然而，如果文件描述符没有被设置为不可被阻塞方式的 I/O ，那么调用 splice 有可能仍然被阻塞。
SPLICEFMORE：後面的splice呼叫會有更多的資料。

splice呼叫利用了Linux提出的管道緩衝區機制，所以至少一個描述符要為管道。

以上幾種零拷貝技術都是減少資料在使用者空間和核心空間拷貝技術實現的，但是有些時候，資料必須在使用者空間和核心空間之間拷貝。這時候，我們只能針對資料在使用者空間和核心空間拷貝的時機上下功夫了。 Linux通常會利用寫時複製(copy on write)來減少系統開銷，這個技術又時常稱為COW。

由於篇幅原因，本文不詳細介紹寫時複製。大概描述下就是：如果多個程式同時存取同一塊數據，那麼每個程式都擁有指向這塊數據的指針，在每個程式看來，自己都是獨立擁有這塊數據的，只有當程式需要對資料內容進行修改時，才會把資料內容拷貝到程式自己的應用程式空間裡去，這時候，資料才變成該程式的私有資料。如果程式不需要對資料進行修改，那麼永遠都不需要拷貝資料到自己的應用空間。這樣就減少了資料的拷貝。寫時複製的內容可以再寫一篇文章了。。。

除此之外，還有一些零拷貝技術，例如傳統的Linux I/O中加上O_DIRECT標記可以直接I/O，避免了自動緩存，還有尚未成熟的fbufs技術，本文尚未涵蓋所有零拷貝技術，只是介紹常見的一些，如有興趣，可以自行研究，一般成熟的服務端項目也會自己改造內核中有關I/O的部分，提高自己的數據傳輸速率。

以上是淺析 Linux 中的零拷貝技術的詳細內容。更多資訊請關注PHP中文網其他相關文章！