關(guān)于Linux日志式文件系統(tǒng)面面觀
文件系統(tǒng)是用來(lái)管理和組織保存在磁盤驅(qū)動(dòng)器上的數(shù)據(jù)的系統(tǒng)軟件,其實(shí)現(xiàn)了數(shù)據(jù)完整性的保 證,也就是保證寫入磁盤的數(shù)據(jù)和隨后讀出的內(nèi)容的一致性。除了保存以文件方式存儲(chǔ)的數(shù)據(jù)以外,一個(gè)文件系統(tǒng)同樣存儲(chǔ)和管理關(guān)于文件和文件系統(tǒng)自身的一些重要信息(例如:日期時(shí)間、屬主、訪問(wèn)權(quán)限、文件大小和存儲(chǔ)位置等等)。這些信息通常被稱為元數(shù)據(jù)(metadata)。
由于為了避免磁盤訪問(wèn)瓶頸效應(yīng),一般文件系統(tǒng)大都以異步方式工作,因此如果磁盤操作被突然中斷可能導(dǎo)致數(shù)據(jù)被丟失。例如如果出現(xiàn)這種情況:如果當(dāng)你處理一個(gè)在linux的ext2文件系統(tǒng)上的文檔,突然機(jī)器崩潰會(huì)出現(xiàn)什么情況?
有這幾種可能:
*當(dāng)你保存文件以后,系統(tǒng)崩潰。這是最好的情況,你不會(huì)丟失任何信息。只需要重新啟動(dòng)計(jì)算機(jī)然后繼續(xù)工作。
*在你保存文件之前系統(tǒng)崩潰。你會(huì)丟失你所有的工作內(nèi)容,但是老版本的文檔還會(huì)存在。
*當(dāng)正在將保存的文檔寫入磁盤時(shí)系統(tǒng)崩潰。這是最糟的情況:新版文件覆蓋了舊版本的文件。這樣磁盤上只剩下一個(gè)部分新部分舊的文件。如果文件是二進(jìn)制文件那么就會(huì)出現(xiàn)不能打開(kāi)文件的情況,因?yàn)槠湮募袷胶蛻?yīng)用所期待的不同。
在最后這種情況下,如果系統(tǒng)崩潰是發(fā)生在驅(qū)動(dòng)器正在寫入元數(shù)據(jù)時(shí),那么情況可能更糟。這時(shí)候就是文件系統(tǒng)發(fā)生了損壞,你可能會(huì)丟失整個(gè)目錄或者整個(gè)磁盤分區(qū)的數(shù)據(jù)。
linux標(biāo)準(zhǔn)文件系統(tǒng)(ext2fs)在重新啟動(dòng)時(shí)會(huì)通過(guò)調(diào)用文件掃描工具fsck試圖恢復(fù)損壞的元數(shù)據(jù)信息。由于ext2文件系統(tǒng)保存有冗余的關(guān)鍵元數(shù)據(jù)信息的備份,因此一般來(lái)說(shuō)不大可能出現(xiàn)數(shù)據(jù)完全丟失。系統(tǒng)會(huì)計(jì)算出被損壞的數(shù)據(jù)的位置,然后或者是通過(guò)恢復(fù)冗余的元數(shù)據(jù)信息,或者是直接刪除被損壞或是元數(shù)據(jù)信息損毀的文件。
很明顯,要檢測(cè)的文件系統(tǒng)越大,檢測(cè)過(guò)程費(fèi)時(shí)就越長(zhǎng)。對(duì)于有幾十個(gè)G大小的'分區(qū),可能會(huì)花費(fèi)很長(zhǎng)時(shí)間來(lái)進(jìn)行檢測(cè)。由于Linux開(kāi)始用于大型服務(wù)器中越來(lái)越重要的應(yīng)用,因此就越來(lái)越不能容忍長(zhǎng)時(shí)間的當(dāng)機(jī)時(shí)間。這就需要更復(fù)雜和精巧的文件系統(tǒng)來(lái)替代ext2。
因此就出現(xiàn)了日志式文件系統(tǒng)(journalling filesystems)來(lái)滿足這樣的需求。
什么是日志式文件系統(tǒng)
這里僅僅對(duì)日志式文件系統(tǒng)進(jìn)行簡(jiǎn)單的說(shuō)明。如果需要更深入的信息請(qǐng)參考文章日志式文件系統(tǒng),或者是日志式文件系統(tǒng)介紹。
大多數(shù)現(xiàn)代文件系統(tǒng)都使用了來(lái)自于數(shù)據(jù)庫(kù)系統(tǒng)中為了提高崩潰恢復(fù)能力而開(kāi)發(fā)的日志技術(shù)。磁盤事務(wù)在被真正寫入到磁盤的最終位置以前首先按照順序方式寫入磁盤中日志區(qū)(或是log區(qū))的特定位置。
根據(jù)日志文件系統(tǒng)實(shí)現(xiàn)技術(shù)的不同,寫入日志區(qū)的信息是不完全一樣的。某些實(shí)現(xiàn)技術(shù)僅僅寫文件系統(tǒng)元數(shù)據(jù),而其他則會(huì)記錄所有的寫操作到日志中。
現(xiàn)在,如果崩潰發(fā)生在日志內(nèi)容被寫入之前發(fā)生,那么原始數(shù)據(jù)仍然在磁盤上,丟失的僅僅是最新的更新內(nèi)容。如果當(dāng)崩潰發(fā)生在真正的寫操作時(shí)(也就是日志內(nèi)容已經(jīng)更新),日志文件系統(tǒng)的日志內(nèi)容則會(huì)顯示進(jìn)行了哪些操作。因此當(dāng)系統(tǒng)重啟時(shí),它能輕易根據(jù)日志內(nèi)容,很快地恢復(fù)被破壞的更新。
在任何一種情況下,都會(huì)得到完整的數(shù)據(jù),不會(huì)出現(xiàn)損壞的分區(qū)的情況。由于恢復(fù)過(guò)程根據(jù)日志進(jìn)行,因此整個(gè)過(guò)程會(huì)非?熘恍枰獛酌腌姇r(shí)間。
應(yīng)該注意的是使用日志文件系統(tǒng)并不意味著完全不需要使用文件掃描工具fsck了。隨機(jī)發(fā)生的文件系統(tǒng)的硬件和軟件錯(cuò)誤是根據(jù)日志是無(wú)法恢復(fù)的,必須借助于fsck工具。
目前Linux環(huán)境下的日志文件系統(tǒng)
在下面的內(nèi)容里將討論三種日志文件系統(tǒng):第一種是ext3,由Linux內(nèi)核Stephen Tweedie開(kāi)發(fā)。ext3是通過(guò)向ext2文件系統(tǒng)上添加日志功能來(lái)實(shí)現(xiàn)的,目前是redhat7.2的默認(rèn)文件系統(tǒng);Namesys開(kāi)發(fā)的ReiserFs日志式文件系統(tǒng),可以下載,目前Mandrake8.1采用該日志式文件系統(tǒng)。SGI在2001年三月發(fā)布了XFS日志式文件系統(tǒng)。可以在 oss.sgi.com/projects/xfs/下載。下面將對(duì)這三種日志文件系統(tǒng)采用不同的工具進(jìn)行檢測(cè)和性能測(cè)試。
安裝ext3
關(guān)于ext3文件系統(tǒng)技術(shù)方面的問(wèn)題請(qǐng)參考Dr. Stephen Tweedie的論文和訪談。ext3日志式文件系統(tǒng)直接來(lái)自于其祖先ext2文件系統(tǒng)。其具有完全向后兼容的關(guān)鍵特性,實(shí)際上其僅僅是在ext2日志式文件系統(tǒng)上添加了日志功能。其最大的缺點(diǎn)是沒(méi)有現(xiàn)代文件系統(tǒng)所具有的能提高文件數(shù)據(jù)處理速度和解壓的高性能。
ext3從 2.2.19開(kāi)始是作為一個(gè)補(bǔ)丁方式存在的。如果希望對(duì)內(nèi)核添加對(duì)ext3文件系統(tǒng)的支持,就需要使用補(bǔ)丁,可以得到補(bǔ)丁程序,一共需要如下文件:
* ext3-0.0.7a.tar.bz2:內(nèi)核補(bǔ)丁
* e2fsprogs-1.21-WIP-0601.tar.bz2 支持ext3的e2fsprogs程序套件
拷貝linux-2.2.19.tar.bz2和ext3-0.0.7a.tar.bz2到/usr/src目錄下,進(jìn)行解壓:
mv linux linux-old
tar -Ixvf linux-2.2.19.tar.bz2
tar -Ixvf ext3-0.0.7a.tar.bz2
cd linux
cat ../ext3-0.0.7a/linux-2.2.19.kdb.diff | patch -sp1
cat ../ext3-0.0.7a/linux-2.2.19.ext3.diff | patch -sp1
首先對(duì)內(nèi)核添加SGI的kdb內(nèi)核調(diào)試器補(bǔ)丁,第二個(gè)是ext3文件系統(tǒng)補(bǔ)丁。下來(lái)就需要配置內(nèi)核,對(duì)文件系統(tǒng)部分的"Enable Second extended fs development code"回答Yes。然后編譯。
內(nèi)核編譯安裝以后,需要安裝e2fsprogs軟件套件:
tar -Ixvf e2fsprogs-1.21-WIP-0601.tar.bz2
cd e2fsprogs-1.21
./configure
make
make check
make install
下來(lái)要做的工作就是在分區(qū)上創(chuàng)建一個(gè)ext3文件系統(tǒng),使用新內(nèi)核重新啟動(dòng),這時(shí)候你有兩種選擇創(chuàng)建新的日志文件系統(tǒng)或者對(duì)一個(gè)已有的ext2文件系統(tǒng)升級(jí)到ext3日志文件系統(tǒng)。
對(duì)于需要?jiǎng)?chuàng)建新ext3文件系統(tǒng)的情況下,只需要使用安裝的e2fsprogs軟件包中的mke2fs命令加-f參數(shù)就可以創(chuàng)建新的ext3文件系統(tǒng):
mke2fs -j /dev/xxx
這里/dev/xxx是希望創(chuàng)建ext3文件系統(tǒng)的新分區(qū)。-j參數(shù)表示創(chuàng)建ext3而不是ext2文件系統(tǒng)。可以使用參數(shù)"-Jsize="來(lái)指定希望的日志區(qū)大小(n單位為M)。
升級(jí)一個(gè)已有的ext2,使用tune2fs就可以了:
tune2fs -j /dev/xxx
你可以對(duì)正在加載的文件系統(tǒng)和沒(méi)有加載的文件系統(tǒng)進(jìn)行升級(jí)操作。如果當(dāng)前文件系統(tǒng)正在被加載,則文件.journal會(huì)在文件系統(tǒng)加載點(diǎn)的所在目錄被創(chuàng)建。如果是升級(jí)一個(gè)當(dāng)時(shí)沒(méi)有加載的文件系統(tǒng),則使用隱含的系統(tǒng)inode來(lái)記錄日志,這時(shí)候文件系統(tǒng)的所有內(nèi)容都會(huì)被保留不被破壞。
你可以使用下面的命令加載ext3文件系統(tǒng):
mount -t ext3 /dev/xxx /mount_dir
由于ext3實(shí)際上是帶有日志功能的ext2文件系統(tǒng) ,因此一個(gè)ext3文件系統(tǒng)可以以ext2的方式被加載。
安裝XFS文件系統(tǒng)
如果需要從技術(shù)方面了解XFS文件系統(tǒng),請(qǐng)參考SGI的XFS文件系統(tǒng)和SGI信息頁(yè)面。也可以參考FAQ。
XFS是一個(gè)SGI開(kāi)發(fā)的linux環(huán)境下的日志文件系統(tǒng),它是一個(gè)成熟的技術(shù),最初是使用在IRIX系統(tǒng)上的文件系統(tǒng)。XFS遵循GPL版權(quán)申明。目前xfs文件系統(tǒng)最新版本是1.02。下載得到對(duì)內(nèi)核xfs文件系統(tǒng)支持補(bǔ)丁或者直接下載RPM包方式的內(nèi)核,下面我們就以補(bǔ)丁方式說(shuō)明如何對(duì)2.4.14內(nèi)核使用xfs。首先下載如下內(nèi)容
patch-2.4.14-xfs-1.0.2.bz2
patch-2.4.14-xfs-1.0.2-kdb.bz2
拷貝Linux內(nèi)核linux-2.4.2.tar.bz2到 /usr/src目錄下,修改老的內(nèi)核目錄名,然后解壓新內(nèi)核:
mv linux linux-old
tar -Ixf inux-2.4.2.tar.bz2
拷貝每個(gè)每個(gè)補(bǔ)丁到內(nèi)核源碼目錄下(例如:/usr/src/linux),并打補(bǔ)。
zcat patch-2.4.14-xfs-1.0.2.bz2 | patch -p1
zcat patch-2.4.14-xfs-1.0.2-kdb.bz2 | patch -p1
然后配置內(nèi)核,打開(kāi)文件系統(tǒng)部分的內(nèi)核選項(xiàng):"XFS filesystem support" (CONFIG_XFS_FS)和"Page Buffer support" (CONFIG_PAGE_BUF)。同時(shí)需要升級(jí)下面這些系統(tǒng)工具到下面或更高的版本:
modutils-2.4.0
autoconf-2.13
e2fsprogs-devel-1.18
安裝新內(nèi)核并重啟服務(wù)器。
然后下載xfs工具。這個(gè)軟件包包括下面的命令來(lái)處理文件系統(tǒng),使用下面的命令來(lái)安裝該軟件包::
tar -zxf xfsprogs-1.2.0.src.tar.gz
cd xfsprogs-1.2.0
make configure
make
make install
安裝這些命令以后,就可以創(chuàng)建新的XFS文件系統(tǒng):
mkfs -t xfs /dev/xxx
如果xxx是一個(gè)已經(jīng)存在的文件系統(tǒng),那么就需要使用"-f"參數(shù)來(lái)創(chuàng)建新分區(qū),但是記得這將會(huì)破壞該分區(qū)的所有數(shù)據(jù)。
mkfs -t xfs -f /dev/xxx
創(chuàng)建以后就可以使用基于下面的命令加載新文件系統(tǒng):
mount -t xfs /dev/xxx /mount_dir
安裝ReiserFS文件系統(tǒng)
如果希望更多地從技術(shù)方面了解reiserFS文件系統(tǒng),請(qǐng)參考NAMESYS和FAQ。
ReiserFS文件系統(tǒng)從2.4.1-pre4開(kāi)始就是Linux內(nèi)核的正式支持的文件系統(tǒng)了。為了使用reiserFS文件系統(tǒng)那你首先需要在系統(tǒng)上安裝文件系統(tǒng)支持工具(如:創(chuàng)建ReiserFS文件系統(tǒng)的mkreiserfs工具)。最新的ReiserFS文件系統(tǒng)版本可以以補(bǔ)丁的方式添加到2.2.x或者2.4.x內(nèi)核中。這里我們以2.2.19為例:
第一步,首先下在內(nèi)核源碼,并下在ReiserFS文件系統(tǒng)的2.2.19補(bǔ)丁 ,目前補(bǔ)丁最新版本是linux-2.2.19-reiserfs-3.5.34-patch.bz2。同時(shí)應(yīng)該下載工具軟件包:reiserfsprogs-3.x.0j.tar.gz。
然后解壓內(nèi)核源碼和補(bǔ)丁包到/usr/src中:
tar -Ixf linux-2.2.19.tar.bz2
bzcat linux-2.2.19-reiserfs-3.5.34-patch.bz2 | patch -p0
編譯內(nèi)核支持reiserfs,安裝內(nèi)核。然后安裝文件系統(tǒng)工具軟件:
cd /usr/src/linux/fs/reiserfs/utils
make
make install
安裝新內(nèi)核并重新啟動(dòng),F(xiàn)在就可以創(chuàng)建新的reiserfs文件系統(tǒng),并加載:
mkreiserfs /dev/xxxx
mount -t reiserfs /dev/xxx /mount_dir
文件系統(tǒng)性能測(cè)試
測(cè)試環(huán)境使用的計(jì)算機(jī)環(huán)境如下:Pentium III - 16 Mb RAM - 2 Gb HD,操作系統(tǒng)為RedHat6.2。所有的文件系統(tǒng)都能正常工作,所以就進(jìn)行benchmark分析來(lái)對(duì)它們進(jìn)行性能比較。首先我直接拔掉系統(tǒng)電源以模擬系統(tǒng)掉電情況,以測(cè)試日志文件系統(tǒng)恢復(fù)過(guò)程。所有的文件系統(tǒng)都成功地經(jīng)過(guò)了文件掃描檢測(cè)階段,在數(shù)秒以后系統(tǒng)都經(jīng)過(guò)了掃描然后正常啟動(dòng)了系統(tǒng)。
下一步就采用了bonnie++性能測(cè)試程序進(jìn)行測(cè)試,這個(gè)程序?qū)σ粋(gè)文件進(jìn)行數(shù)據(jù)庫(kù)類型的訪問(wèn),進(jìn)行了創(chuàng)建、讀和刪除小文件,這些操作對(duì)于Squid、INN或者M(jìn)aildir格式的郵件服務(wù)器程序(qmail)是最常見(jiàn)的操作。性能測(cè)試命令為:
bonnie++ -d/work1 -s10 -r4 -u0
其對(duì)加載在/work1目錄下的文件系統(tǒng)進(jìn)行了10Mb(-s10)的測(cè)試。因此在執(zhí)行測(cè)試之前必須創(chuàng)建適當(dāng)類型的文件系統(tǒng)并加載到目錄/work1下。其他的參數(shù)指定內(nèi)存大小(-r4)的M數(shù),和以root身份運(yùn)行測(cè)試程序,測(cè)試結(jié)果如下:
每種測(cè)試都有兩組數(shù)據(jù):文件系統(tǒng)速度(K/sec)和CPU占用率(%CPU)。速度越高,文件系統(tǒng)越好。而對(duì)于CPU率來(lái)說(shuō),數(shù)字越小性能越好?梢钥吹絉eiserfs文件系統(tǒng)在文件操作方面(Sequential Create和Random Create部分的) 的性能最好,超出其他文件系統(tǒng)10倍之多。在其他方面(Sequential Output和Sequential Input)則和其他文件系統(tǒng)性能不相上下。對(duì)于其他文件系統(tǒng)則沒(méi)有特別明顯的區(qū)別。XFS性能接近ext2文件系統(tǒng),ext3文件系統(tǒng)則比ext2要稍微慢上一些(因?yàn)橛涗浫罩拘枰恍╊~外的時(shí)間)。 最后使用從得到的性能測(cè)試程序mongo,并對(duì)其進(jìn)行了修改以對(duì)三種日志文件系統(tǒng)進(jìn)行測(cè)試。這里在mongo.pl程序中添加了添加了加載xfs和ext3文件系統(tǒng)的命令,并對(duì)其進(jìn)行格式化處理,然后就開(kāi)始性能測(cè)試分析。 該腳本格式劃分區(qū)/dev/xxxx,加載其并在每個(gè)階段運(yùn)行指定數(shù)目的進(jìn)程:創(chuàng)建、拷貝、符號(hào)連接處理、讀、顯示文件狀態(tài)信息、重命名和刪除文件。同時(shí),該程序在創(chuàng)建和拷貝階段以后會(huì)計(jì)算分段數(shù)(fragmentation)。
Fragm = number_of_fragments / number_of_files
可以在結(jié)果文件中得到同樣的測(cè)試比較結(jié)果:
log - 原始結(jié)果
log.tbl - 比較程序的輸出結(jié)果
log_table - 表格式的結(jié)果
下面的命令進(jìn)行測(cè)試:
mongo.pl ext3 /dev/hda3 /work1 logext3 1
如果要測(cè)試其他文件系統(tǒng),就需要把上面命令的參數(shù)中的ext3修改為reiserfs或xfs。其他參數(shù)分別為要加載的分區(qū),加載路徑,保存測(cè)試結(jié)果的文件名及啟動(dòng)的進(jìn)程數(shù)。
下面的表格是測(cè)試結(jié)果。數(shù)據(jù)單位為秒。值越低性能越好。第一個(gè)表格測(cè)試使用的數(shù)據(jù)塊大小為100字節(jié),第二個(gè)表格為1000字節(jié),最后一個(gè)為10000字節(jié)
從上面的表格可以看到ext3在狀態(tài)刪除和重命名方面要性能更好一些,而ReiserFS文件系統(tǒng)在文件創(chuàng)建和拷貝性能表現(xiàn)更出色。同時(shí)也可以看到reiserFS正如其技術(shù)文檔提到的其在小文件處理方面性能相當(dāng)出色。
結(jié)論
目前Linux至少有兩個(gè)健壯可靠的日志文件系統(tǒng)可供選擇(XFS和reiserFS),其都得到了廣泛的應(yīng)用。例如Mandrake8.1就默認(rèn)支持reiserFS文件系統(tǒng)。
從性能測(cè)試的結(jié)果可以看到,reiserFS是最好的選擇。
【Linux日志式文件系統(tǒng)面面觀】相關(guān)文章:
用Swatch做Linux日志分析07-02
linux系統(tǒng)中查看日志方法07-02
關(guān)于linux自動(dòng)清理日志的方法分享06-23
Linux系統(tǒng)日志子系統(tǒng)詳解06-23
Linux如何安裝使用logwatch以便處理日志禁止06-23
Linux系統(tǒng)下nginx日志每天定時(shí)切割的腳本寫法06-23
生活面面觀06-11