理解Git提交實作方式對我來說很簡單,但理解他人對提交的看法卻有難度。因此,我在Mastodon上向他人提出了一些問題。
#我進行了 非常不科學的調查,詢問大家是怎麼看待 Git 提交的:是快照、差異,還是所有之前提交的清單? (當然,把它看作這三者都是合理的,但我很好奇人們的 主要
結果是:
我很驚訝差異和快照兩個選項的比例如此接近。人們也提出了一些有趣但相互矛盾的觀點,例如
「在我看來,提交是一個差異,但我認為它實際上是以快照的形式實現的」 和
「在我看來,提交是一個快照,但我認為它實際上是以差異的形式實現的」。關於提交的實際實現方式,我們稍後再詳談。
在我們進一步討論之前:我們的說 「一個差異」 或 「一個快照」 都是什麼意思?
#我說的「差異」可能相當明顯:差異就是你在執行git show COMMIT_ID
時所得到的。例如,這是一個 rbspy 專案中的拼字錯誤修復:
diff --git a/src/ui/summary.rs b/src/ui/summary.rs index 5c4ff9c..3ce9b3b 100644 --- a/src/ui/summary.rs +++ b/src/ui/summary.rs @@ -160,7 +160,7 @@ mod tests { "; let mut buf: Vec = Vec::new(); -stats.write(&mut buf).expect("Callgrind write failed"); +stats.write(&mut buf).expect("summary write failed"); let actual = String::from_utf8(buf).expect("summary output not utf8"); assert_eq!(actual, expected, "Unexpected summary output"); }
你可以在 GitHub 上看到它: https://github.com/rbspy/rbspy/commit/24ad81d2439f9e63dd91cc1126ca1bb5d3a4da5b
#我說的 「快照」 是指 「當你執行git checkout COMMIT_ID
時得到的所有檔案」。
Git 通常將提交的檔案清單稱為 「樹」(如「目錄樹」),你可以在 GitHub 上看到上述提交的所有檔案:
https://github.com/rbspy/rbspy/tree/24ad81d2439f9e63dd91cc1126ca1bb5d3a4da5b(它是/tree/
而不是/commit/
#我最常聽到的關於學習 Git 的建議大概是 「只要學會 Git 在內部是如何表示事物的,一切都會變得清晰明了」。我顯然非常喜歡這種觀點(如果你花了一些時間閱讀這個博客,你就會知道我 喜歡
但是作為一個學習 Git 的方法,它並沒有我希望的那麼成功!通常我會興奮地開始解釋“好的,所以Git
提交是一個快照,它有一個指向它的父提交的指針,然後一個分支是一個指向提交的指針,然後……”,但是我試圖幫助的人會告訴我,他們並沒有真正發現這個解釋有多有用,他們仍然不明白。所以我一直在考慮其他方案。
但是讓我們還是先談談內部實作吧。
#在內部,Git 將提交表示為快照(它儲存每個檔案目前版本的 「樹」)。我在 在一個 Git 倉庫中,你的文件在哪裡? 中寫過這個,但下面是一個非常快速的內部格式概述。
這是一個提交的表示方式:
$ git cat-file -p 24ad81d2439f9e63dd91cc1126ca1bb5d3a4da5b tree e197a79bef523842c91ee06fa19a51446975ec35 parent 26707359cdf0c2db66eb1216bf7ff00eac782f65 author Adam Jensen1672104452 -0500 committer Adam Jensen1672104890 -0500 Fix typo in expectation message
以及,當我們查看這個樹物件時,我們會看到這個提交中倉庫根目錄下每個檔案/子目錄的清單:
$ git cat-file -p e197a79bef523842c91ee06fa19a51446975ec35 040000 tree 2fcc102acd27df8f24ddc3867b6756ac554b33ef.cargo 040000 tree 7714769e97c483edb052ea14e7500735c04713eb.github 100644 blob ebb410eb8266a8d6fbde8a9ffaf5db54a5fc979a.gitignore 100644 blob fa1edfb73ce93054fe32d4eb35a5c4bee68c5bf5ARCHITECTURE.md 100644 blob 9c1883ee31f4fa8b6546a7226754cfc84ada5726CODE_OF_CONDUCT.md 100644 blob 9fac1017cb65883554f821914fac3fb713008a34CONTRIBUTORS.md 100644 blob b009175dbcbc186fb8066344c0e899c3104f43e5Cargo.lock 100644 blob 94b87cd2940697288e4f18530c5933f3110b405bCargo.toml
這意味著檢出一個 Git 提交總是很快的:對 Git 來說,檢出昨天的提交和檢出 100 萬個提交之前的提交一樣容易。 Git 永遠不需要重新應用 10000 個差異來確定當前狀態,因為提交根本就不是以差異的形式儲存的。
我剛剛提到了Git 提交是一個快照,但是,當有人說「在我看來,提交是一個快照,但我認為它在實現上是一個差異」
時,這其實也是正確的! Git
提交並不是以你可能習慣的差異的形式表示的(它們不是以與上一個提交的差異的形式存儲在磁碟上的),但基本的直覺是,如果你要對一個10,000
行的文件編輯500 次,那麼儲存500 份文件的效率會很低。
Git 有一個將檔案以差異的形式儲存的方法。這稱為 “packfile”,Git 會定期進行垃圾回收,將你的資料壓縮成 packfile 以節省磁碟空間。當你git clone
一個倉庫時,Git 也會壓縮資料。
這裡,我沒有足夠的篇幅來完整地解釋 packfile 是如何運作的(Aditya Mukerjee 的 《解壓縮 Git packfile》是我最喜歡的解釋它們是如何運作的文章)。不過,我可以在這裡簡單總結一下我對 deltas 工作原理的理解,以及它們與 diff 的區別:
#當我們執行git show SOME_COMMIT
來查看某個提交的差異時,實際上發生的事情有點反直覺。我的理解是:
所以,Git 會將變化量轉換為快照,然後計算差異。它感覺有點奇怪,因為它從一個類似差異的東西開始,最終得到另一個類似差異的東西,但是變化量和差異實際上是完全不同的,所以這是說得通的。
也就是說,我認為 Git 將提交儲存為快照,而 packfile 只是實作細節,目的是節省磁碟空間並加快克隆速度。我其實從來沒必要知道 packfile 是如何運作的,但它確實能幫助我理解 Git 是如何在不佔用太多磁碟空間的情況下將提交快照化的。
#我認為一個相當常見的,對 Git 的 “錯誤” 的理解是:
這個理解當然是錯誤的(在現實中,提交是以快照的形式存儲的,差異是從這些快照計算出來的),但是對我來說它似乎非常有用而且有意義!在考慮合併提交時會有一點奇怪,但是或許我們可以說這只是基於合併提交的第一個父親提交的差異。
我認為這個錯誤的理解有的時候非常有用,而且對於日常 Git 使用來說它似乎並沒有什麼問題。我真的很喜歡它將我們最常使用的東西(差異)作為最基本的元素——它對我來說非常直觀。
我也一直在思考一些其他有用但 「錯誤」 的 Git 理解,例如:
我認為有一系列非常有意義的、 “錯誤” 的對 Git 的理解,它們在很大程度上都受到 Git 用戶界面的支持,並且在大多數情況下都不會產生什麼問題。但是當你想要撤銷一個更改或出現問題時,它可能會變得混亂。
就算我知道在 Git 中提交是快照,我可能大部分時間也都將它們視為差異,因為:
git show
時,你會看到差異,所以這只是我習慣看到的東西#但我有時也會將提交視為快照,因為:
git checkout COMMIT_ID
在做什麼(重新應用 10000 個提交的想法讓我感到很有壓力)#Mastodon 的一些回覆中也提到了:
人們在談論提交時使用的其他一些單字可能不那麼含糊:
#我很難了解人們對 Git 有哪些不同的理解。尤其棘手的是,儘管「錯誤」 的理解往往非常有用,但人們卻非常熱衷於警惕「錯誤」
的心智模式,所以人們不願意分享他們「錯誤」 的想法,生怕有什麼Git 解釋者會站出來向他們解釋為什麼他們是錯的。 (這些 Git
解釋者通常是出於善意的,但是無論如何它都會產生一種負面影響)
但是我學到了很多!我仍然不完全清楚該如何談論提交,但是我們最終會弄清楚的。
感謝 Marco Rogers、Marie Flanagan 以及 Mastodon 上的所有人和我討論 Git 提交。
以上是Git 提交是差異、快照還是歷史記錄?的詳細內容。更多資訊請關注PHP中文網其他相關文章!