ch04-01-what-is-ownership.md
commit 9c9a522555c05cae6717adfbb419af58ebd1cea0
Rust 的核心功能(之一)是 所有權(ownership)。雖然該功能很容易解釋,但它對語言的其他部分有著深刻的影響。
所有程序都必須管理其運行時使用計算機內存的方式。一些語言中具有垃圾回收機制,在程序運行時有規(guī)律地尋找不再使用的內存;在另一些語言中,程序員必須親自分配和釋放內存。Rust 則選擇了第三種方式:通過所有權系統(tǒng)管理內存,編譯器在編譯時會根據一系列的規(guī)則進行檢查。如果違反了任何這些規(guī)則,程序都不能編譯。在運行時,所有權系統(tǒng)的任何功能都不會減慢程序。
因為所有權對很多程序員來說都是一個新概念,需要一些時間來適應。好消息是隨著你對 Rust 和所有權系統(tǒng)的規(guī)則越來越有經驗,你就越能自然地編寫出安全和高效的代碼。持之以恒!
當你理解了所有權,你將有一個堅實的基礎來理解那些使 Rust 獨特的功能。在本章中,你將通過完成一些示例來學習所有權,這些示例基于一個常用的數據結構:字符串。
棧(Stack)與堆(Heap)
在很多語言中,你并不需要經??紤]到棧與堆。不過在像 Rust 這樣的系統(tǒng)編程語言中,值是位于棧上還是堆上在更大程度上影響了語言的行為以及為何必須做出這樣的抉擇。我們會在本章的稍后部分描述所有權與棧和堆相關的內容,所以這里只是一個用來預熱的簡要解釋。
棧和堆都是代碼在運行時可供使用的內存,但是它們的結構不同。棧以放入值的順序存儲值并以相反順序取出值。這也被稱作 后進先出(last in, first out)。想象一下一疊盤子:當增加更多盤子時,把它們放在盤子堆的頂部,當需要盤子時,也從頂部拿走。不能從中間也不能從底部增加或拿走盤子!增加數據叫做 進棧(pushing onto the stack),而移出數據叫做 出棧(popping off the stack)。棧中的所有數據都必須占用已知且固定的大小。在編譯時大小未知或大小可能變化的數據,要改為存儲在堆上。 堆是缺乏組織的:當向堆放入數據時,你要請求一定大小的空間。內存分配器(memory allocator)在堆的某處找到一塊足夠大的空位,把它標記為已使用,并返回一個表示該位置地址的 指針(pointer)。這個過程稱作 在堆上分配內存(allocating on the heap),有時簡稱為 “分配”(allocating)。(將數據推入棧中并不被認為是分配)。因為指向放入棧中數據的指針是已知的并且大小是固定的,你可以將該指針存儲在棧上,不過當需要實際數據時,必須訪問指針。想象一下去餐館就座吃飯。當進入時,你說明有幾個人,餐館員工會找到一個夠大的空桌子并領你們過去。如果有人來遲了,他們也可以通過詢問來找到你們坐在哪。
入棧比在堆上分配內存要快,因為(入棧時)分配器無需為存儲新數據去搜索內存空間;其位置總是在棧頂。相比之下,在堆上分配內存則需要更多的工作,這是因為分配器必須首先找到一塊足夠存放數據的內存空間,并接著做一些記錄為下一次分配做準備。
訪問堆上的數據比訪問棧上的數據慢,因為必須通過指針來訪問?,F代處理器在內存中跳轉越少就越快(緩存)。繼續(xù)類比,假設有一個服務員在餐廳里處理多個桌子的點菜。在一個桌子報完所有菜后再移動到下一個桌子是最有效率的。從桌子 A 聽一個菜,接著桌子 B 聽一個菜,然后再桌子 A,然后再桌子 B 這樣的流程會更加緩慢。出于同樣原因,處理器在處理的數據彼此較近的時候(比如在棧上)比較遠的時候(比如可能在堆上)能更好的工作。
當你的代碼調用一個函數時,傳遞給函數的值(包括可能指向堆上數據的指針)和函數的局部變量被壓入棧中。當函數結束時,這些值被移出棧。
跟蹤哪部分代碼正在使用堆上的哪些數據,最大限度的減少堆上的重復數據的數量,以及清理堆上不再使用的數據確保不會耗盡空間,這些問題正是所有權系統(tǒng)要處理的。一旦理解了所有權,你就不需要經??紤]棧和堆了,不過明白了所有權的主要目的就是為了管理堆數據,能夠幫助解釋為什么所有權要以這種方式工作。
首先,讓我們看一下所有權的規(guī)則。當我們通過舉例說明時,請謹記這些規(guī)則:
- Rust 中的每一個值都有一個 所有者(owner)。
- 值在任一時刻有且只有一個所有者。
- 當所有者(變量)離開作用域,這個值將被丟棄。
既然我們已經掌握了基本語法,將不會在之后的例子中包含 fn main() {
代碼,所以如果你是一路跟過來的,必須手動將之后例子的代碼放入一個 main
函數中。這樣,例子將顯得更加簡明,使我們可以關注實際細節(jié)而不是樣板代碼。
在所有權的第一個例子中,我們看看一些變量的 作用域(scope)。作用域是一個項(item)在程序中有效的范圍。假設有這樣一個變量:
let s = "hello";
變量 s
綁定到了一個字符串字面值,這個字符串值是硬編碼進程序代碼中的。這個變量從聲明的點開始直到當前 作用域 結束時都是有效的。示例 4-1 中的注釋標明了變量 s
在何處是有效的。
{ // s 在這里無效, 它尚未聲明
let s = "hello"; // 從此處起,s 是有效的
// 使用 s
} // 此作用域已結束,s 不再有效
示例 4-1:一個變量和其有效的作用域
換句話說,這里有兩個重要的時間點:
s
? 進入作用域 時,它就是有效的。目前為止,變量是否有效與作用域的關系跟其他編程語言是類似的?,F在我們在此基礎上介紹 ?String
?類型。
為了演示所有權的規(guī)則,我們需要一個比第三章 “數據類型” 中講到的都要復雜的數據類型。前面介紹的類型都是已知大小的,可以存儲在棧中,并且當離開作用域時被移出棧,如果代碼的另一部分需要在不同的作用域中使用相同的值,可以快速簡單地復制它們來創(chuàng)建一個新的獨立實例。不過我們需要尋找一個存儲在堆上的數據來探索 Rust 是如何知道該在何時清理數據的。
我們會專注于 String
與所有權相關的部分。這些方面也同樣適用于標準庫提供的或你自己創(chuàng)建的其他復雜數據類型。在第八章會更深入地講解 String
。
我們已經見過字符串字面值,即被硬編碼進程序里的字符串值。字符串字面值是很方便的,不過它們并不適合使用文本的每一種場景。原因之一就是它們是不可變的。另一個原因是并非所有字符串的值都能在編寫代碼時就知道:例如,要是想獲取用戶輸入并存儲該怎么辦呢?為此,Rust 有第二個字符串類型,String
。這個類型管理被分配到堆上的數據,所以能夠存儲在編譯時未知大小的文本??梢允褂?nbsp;from
函數基于字符串字面值來創(chuàng)建 String
,如下:
let s = String::from("hello");
這兩個冒號 ::
是運算符,允許將特定的 from
函數置于 String
類型的命名空間(namespace)下,而不需要使用類似 string_from
這樣的名字。在第五章的 “方法語法”(“Method Syntax”) 部分會著重講解這個語法而且在第七章的 “路徑用于引用模塊樹中的項” 中會講到模塊的命名空間。
可以 修改此類字符串 :
let mut s = String::from("hello");
s.push_str(", world!"); // push_str() 在字符串后追加字面值
println!("{}", s); // 將打印 `hello, world!`
那么這里有什么區(qū)別呢?為什么 String
可變而字面值卻不行呢?區(qū)別在于兩個類型對內存的處理上。
就字符串字面值來說,我們在編譯時就知道其內容,所以文本被直接硬編碼進最終的可執(zhí)行文件中。這使得字符串字面值快速且高效。不過這些特性都只得益于字符串字面值的不可變性。不幸的是,我們不能為了每一個在編譯時大小未知的文本而將一塊內存放入二進制文件中,并且它的大小還可能隨著程序運行而改變。
對于 String
類型,為了支持一個可變,可增長的文本片段,需要在堆上分配一塊在編譯時未知大小的內存來存放內容。這意味著:
String
?時將內存返回給分配器的方法。第一部分由我們完成:當調用 String::from
時,它的實現 (implementation) 請求其所需的內存。這在編程語言中是非常通用的。
然而,第二部分實現起來就各有區(qū)別了。在有 垃圾回收(garbage collector,GC)的語言中, GC 記錄并清除不再使用的內存,而我們并不需要關心它。在大部分沒有 GC 的語言中,識別出不再使用的內存并調用代碼顯式釋放就是我們的責任了,跟請求內存的時候一樣。從歷史的角度上說正確處理內存回收曾經是一個困難的編程問題。如果忘記回收了會浪費內存。如果過早回收了,將會出現無效變量。如果重復回收,這也是個 bug。我們需要精確的為一個 allocate
配對一個 free
。
Rust 采取了一個不同的策略:內存在擁有它的變量離開作用域后就被自動釋放。下面是示例 4-1 中作用域例子的一個使用 String
而不是字符串字面值的版本:
{
let s = String::from("hello"); // 從此處起,s 是有效的
// 使用 s
} // 此作用域已結束,
// s 不再有效
這是一個將 String
需要的內存返回給分配器的很自然的位置:當 s
離開作用域的時候。當變量離開作用域,Rust 為我們調用一個特殊的函數。這個函數叫做 drop
,在這里 String
的作者可以放置釋放內存的代碼。Rust 在結尾的 }
處自動調用 drop
。
注意:在 C++ 中,這種 item 在生命周期結束時釋放資源的模式有時被稱作 資源獲取即初始化(Resource Acquisition Is Initialization (RAII))。如果你使用過 RAII 模式的話應該對 Rust 的 ?
drop
?函數并不陌生。
這個模式對編寫 Rust 代碼的方式有著深遠的影響?,F在它看起來很簡單,不過在更復雜的場景下代碼的行為可能是不可預測的,比如當有多個變量使用在堆上分配的內存時?,F在讓我們探索一些這樣的場景。
在Rust 中,多個變量可以采取不同的方式與同一數據進行交互。讓我們看看示例 4-2 中一個使用整型的例子。
let x = 5;
let y = x;
示例 4-2:將變量 ?x
? 的整數值賦給 ?y
?
我們大致可以猜到這在干什么:“將 5
綁定到 x
;接著生成一個值 x
的拷貝并綁定到 y
”?,F在有了兩個變量,x
和 y
,都等于 5
。這也正是事實上發(fā)生了的,因為整數是有已知固定大小的簡單值,所以這兩個 5
被放入了棧中。
現在看看這個 String
版本:
let s1 = String::from("hello");
let s2 = s1;
這看起來與上面的代碼非常類似,所以我們可能會假設他們的運行方式也是類似的:也就是說,第二行可能會生成一個 s1
的拷貝并綁定到 s2
上。不過,事實上并不完全是這樣。
看看圖 4-1 以了解 String
的底層會發(fā)生什么。String
由三部分組成,如圖左側所示:一個指向存放字符串內容內存的指針,一個長度,和一個容量。這一組數據存儲在棧上。右側則是堆上存放內容的內存部分。
圖 4-1:將值 ?"hello"
? 綁定給 ?s1
?的 ?String
?在內存中的表現形式
長度表示 String
的內容當前使用了多少字節(jié)的內存。容量是 String
從分配器總共獲取了多少字節(jié)的內存。長度與容量的區(qū)別是很重要的,不過在當前上下文中并不重要,所以現在可以忽略容量。
當我們將 s1
賦值給 s2
,String
的數據被復制了,這意味著我們從棧上拷貝了它的指針、長度和容量。我們并沒有復制指針指向的堆上數據。換句話說,內存中數據的表現如圖 4-2 所示。
圖 4-2:變量 ?s2
?的內存表現,它有一份 ?s1
?指針、長度和容量的拷貝
這個表現形式看起來 并不像 圖 4-3 中的那樣,如果 Rust 也拷貝了堆上的數據,那么內存看起來就是這樣的。如果 Rust 這么做了,那么操作 s2 = s1
在堆上數據比較大的時候會對運行時性能造成非常大的影響。
圖 4-3:另一個 s2 = s1
時可能的內存表現,如果 Rust 同時也拷貝了堆上的數據的話
之前我們提到過當變量離開作用域后,Rust 自動調用 drop
函數并清理變量的堆內存。不過圖 4-2 展示了兩個數據指針指向了同一位置。這就有了一個問題:當 s2
和 s1
離開作用域,他們都會嘗試釋放相同的內存。這是一個叫做 二次釋放(double free)的錯誤,也是之前提到過的內存安全性 bug 之一。兩次釋放(相同)內存會導致內存污染,它可能會導致潛在的安全漏洞。
為了確保內存安全,在 let s2 = s1
之后,Rust 認為 s1
不再有效,因此 Rust 不需要在 s1
離開作用域后清理任何東西。看看在 s2
被創(chuàng)建之后嘗試使用 s1
會發(fā)生什么;這段代碼不能運行:
let s1 = String::from("hello");
let s2 = s1;
println!("{}, world!", s1);
你會得到一個類似如下的錯誤,因為 Rust 禁止你使用無效的引用。
$ cargo run
Compiling ownership v0.1.0 (file:///projects/ownership)
error[E0382]: borrow of moved value: `s1`
--> src/main.rs:5:28
|
2 | let s1 = String::from("hello");
| -- move occurs because `s1` has type `String`, which does not implement the `Copy` trait
3 | let s2 = s1;
| -- value moved here
4 |
5 | println!("{}, world!", s1);
| ^^ value borrowed here after move
For more information about this error, try `rustc --explain E0382`.
error: could not compile `ownership` due to previous error
如果你在其他語言中聽說過術語 淺拷貝(shallow copy)和 深拷貝(deep copy),那么拷貝指針、長度和容量而不拷貝數據可能聽起來像淺拷貝。不過因為 Rust 同時使第一個變量無效了,這個操作被稱為 移動(move),而不是淺拷貝。上面的例子可以解讀為 s1
被 移動 到了 s2
中。那么具體發(fā)生了什么,如圖 4-4 所示。
圖 4-4:s1
無效之后的內存表現
這樣就解決了我們的問題!因為只有 s2
是有效的,當其離開作用域,它就釋放自己的內存,完畢。
另外,這里還隱含了一個設計選擇:Rust 永遠也不會自動創(chuàng)建數據的 “深拷貝”。因此,任何 自動 的復制可以被認為對運行時性能影響較小。
如果我們 確實 需要深度復制 String
中堆上的數據,而不僅僅是棧上的數據,可以使用一個叫做 clone
的通用函數。第五章會討論方法語法,不過因為方法在很多語言中是一個常見功能,所以之前你可能已經見過了。
這是一個實際使用 clone
方法的例子:
let s1 = String::from("hello");
let s2 = s1.clone();
println!("s1 = {}, s2 = {}", s1, s2);
這段代碼能正常運行,并且明確產生圖 4-3 中行為,這里堆上的數據 確實 被復制了。
當出現 clone
調用時,你知道一些特定的代碼被執(zhí)行而且這些代碼可能相當消耗資源。你很容易察覺到一些不尋常的事情正在發(fā)生。
這里還有一個沒有提到的小竅門。這些代碼使用了整型并且是有效的,他們是示例 4-2 中的一部分:
let x = 5;
let y = x;
println!("x = {}, y = {}", x, y);
但這段代碼似乎與我們剛剛學到的內容相矛盾:沒有調用 clone
,不過 x
依然有效且沒有被移動到 y
中。
原因是像整型這樣的在編譯時已知大小的類型被整個存儲在棧上,所以拷貝其實際的值是快速的。這意味著沒有理由在創(chuàng)建變量 y
后使 x
無效。換句話說,這里沒有深淺拷貝的區(qū)別,所以這里調用 clone
并不會與通常的淺拷貝有什么不同,我們可以不用管它。
Rust 有一個叫做 Copy
trait 的特殊注解,可以用在類似整型這樣的存儲在棧上的類型上(第十章將會詳細講解 trait)。如果一個類型實現了 Copy
trait,那么一個舊的變量在將其賦值給其他變量后仍然可用。
Rust 不允許自身或其任何部分實現了 Drop
trait 的類型使用 Copy
trait。如果我們對其值離開作用域時需要特殊處理的類型使用 Copy
注解,將會出現一個編譯時錯誤。要學習如何為你的類型添加 Copy
注解以實現該 trait,請閱讀附錄 C 中的 “可派生的 trait”。
那么哪些類型實現了 Copy
trait 呢?你可以查看給定類型的文檔來確認,不過作為一個通用的規(guī)則,任何一組簡單標量值的組合都可以實現 Copy
,任何不需要分配內存或某種形式資源的類型都可以實現 Copy
。如下是一些 Copy
的類型:
u32
?。bool
?,它的值是 ?true
?和 ?false
?。f64
?。char
?。Copy
?的時候。比如,?(i32, i32)
? 實現了 ?Copy
?,但 ?(i32, String)
? 就沒有。將值傳遞給函數與給變量賦值的原理相似。向函數傳遞值可能會移動或者復制,就像賦值語句一樣。示例 4-3 使用注釋展示變量何時進入和離開作用域:
文件名: src/main.rs
fn main() {
let s = String::from("hello"); // s 進入作用域
takes_ownership(s); // s 的值移動到函數里 ...
// ... 所以到這里不再有效
let x = 5; // x 進入作用域
makes_copy(x); // x 應該移動函數里,
// 但 i32 是 Copy 的,
// 所以在后面可繼續(xù)使用 x
} // 這里, x 先移出了作用域,然后是 s。但因為 s 的值已被移走,
// 沒有特殊之處
fn takes_ownership(some_string: String) { // some_string 進入作用域
println!("{}", some_string);
} // 這里,some_string 移出作用域并調用 `drop` 方法。
// 占用的內存被釋放
fn makes_copy(some_integer: i32) { // some_integer 進入作用域
println!("{}", some_integer);
} // 這里,some_integer 移出作用域。沒有特殊之處
示例 4-3:帶有所有權和作用域注釋的函數
當嘗試在調用 takes_ownership
后使用 s
時,Rust 會拋出一個編譯時錯誤。這些靜態(tài)檢查使我們免于犯錯。試試在 main
函數中添加使用 s
和 x
的代碼來看看哪里能使用他們,以及所有權規(guī)則會在哪里阻止我們這么做。
返回值也可以轉移所有權。示例 4-4 展示了一個返回了某些值的示例,與示例 4-3 一樣帶有類似的注釋。
文件名: src/main.rs
fn main() {
let s1 = gives_ownership(); // gives_ownership 將返回值
// 轉移給 s1
let s2 = String::from("hello"); // s2 進入作用域
let s3 = takes_and_gives_back(s2); // s2 被移動到
// takes_and_gives_back 中,
// 它也將返回值移給 s3
} // 這里, s3 移出作用域并被丟棄。s2 也移出作用域,但已被移走,
// 所以什么也不會發(fā)生。s1 離開作用域并被丟棄
fn gives_ownership() -> String { // gives_ownership 會將
// 返回值移動給
// 調用它的函數
let some_string = String::from("yours"); // some_string 進入作用域.
some_string // 返回 some_string
// 并移出給調用的函數
//
}
// takes_and_gives_back 將傳入字符串并返回該值
fn takes_and_gives_back(a_string: String) -> String { // a_string 進入作用域
//
a_string // 返回 a_string 并移出給調用的函數
}
示例 4-4: 轉移返回值的所有權
變量的所有權總是遵循相同的模式:將值賦給另一個變量時移動它。當持有堆中數據值的變量離開作用域時,其值將通過 drop
被清理掉,除非數據被移動為另一個變量所有。
雖然這樣是可以的,但是在每一個函數中都獲取所有權并接著返回所有權有些啰嗦。如果我們想要函數使用一個值但不獲取所有權該怎么辦呢?如果我們還要接著使用它的話,每次都傳進去再返回來就有點煩人了,除此之外,我們也可能想返回函數體中產生的一些數據。
我們可以使用元組來返回多個值,如示例 4-5 所示。
文件名: src/main.rs
fn main() {
let s1 = String::from("hello");
let (s2, len) = calculate_length(s1);
println!("The length of '{}' is {}.", s2, len);
}
fn calculate_length(s: String) -> (String, usize) {
let length = s.len(); // len() 返回字符串的長度
(s, length)
}
示例 4-5: 返回參數的所有權
但是這未免有些形式主義,而且這種場景應該很常見。幸運的是,Rust 對此提供了一個不用獲取所有權就可以使用值的功能,叫做 引用(references)。
更多建議: