持久化的對象,是已經存儲到數據庫或保存到本地硬盤中的對象,我們稱之為持久化對象。下面介紹C++中的持久化對象。
持久對象(persistent objects)廣泛應用於游戲、分布式數據庫系統、多媒體以及圖形應用程序中。目前C++並不直接支持持久性(persistence)(但有一些在C++未來版本中添加持久性和反射(reflection)的建議)。
持久對象可以在創建它的程序的作用域之外保持自身狀態。把對象寫入一個文件並在以後重建之,或者把對象傳送到一台遠程機器,就是這樣的例子。對持久性的支持並不象第一眼看上去那樣簡單,同一對象的大小和內存布局在不同的平台上可能並不相同,而不同的字節次序(byte ordering),或稱為endian-ness,使事情更加復雜化。
在下文中我將討論如何實現持久性,而無須求助於DCOM和 CORBA之類的第三方框架。對於小型和可移植的應用程序而言,這是一種有效並令人滿意的方案。
序列化(serialization)基礎
為了使一個對象持久存在,必須把它的狀態保存在非易失的存儲設備中。考慮一個錄制和播放MP3文件的應用程序,每首單曲都表示為一個包含標題、唱片、歌手、時間、速率、錄制日期以及相應的 MP3文件的對象,該應用程序在跟蹤列表中顯示最近播放的曲目。你的目標是通過序列化,也就是把對象寫入一個文件,使MP3對象成為持久對象,同時通過反序列化(deserialization)在下一個 session中重建這些對象。
序列化內置數據類型
每個對象最終都由內置數據成員組成,如int, bool, char[]等等。你的第一個任務是把這樣的類型寫入一個輸出文件流(ofstream)中。應用程序必須這些值存儲為相應的二進制形式,基於這個目的,應使用write() 和read() 成員函數。write() 以某個變量的地址和大小為參數,把該變量的位模式寫入一個文件流中。read() 的兩個參數為char*和long類型,分別指示內存緩沖區的地址和字節大小。下面的例子演示如何在ofstream中保存兩個整數:
使用reinterpret_cast<>是必要的,因為write()的第一個參數類型為const char*,但&x和&y是int*類型。
以下代碼讀取剛才存儲的值:
序列化對象
要序列化一個完整的對象,應把每個數據成員寫入文件中:
實現deserialize() 需要一些技巧,因為你需要為字符串分配一個臨時緩沖區。做法如下:
性能優化
你可能會感到迷惑,為什麼不把整個對象一次性轉儲到文件中,而必須對每個數據成員進行序列化呢?換句話說,難道不能用下面的方式實現serialize() 嗎?
不行,不能這樣做。這種方式至少存在兩個問題。通常,當被序列化的對象還包含其它一些對象時,你不能簡單地把該對象轉儲到一個文件中並指望以後從中重建一個有效的對象。在我們的例子中,外層對象包含一個std::string成員,一個淺拷貝(shallow copy)操作會把std::string成員歸檔,但其值是時變的,意思是說每次運行程序時都可能改變。
更糟的是,由於std::string事實上並不包含一個字符數組,而是一個指針,使用淺拷貝試圖重建原始字符串是不可能的。為克服這個問題,程序沒有序列化string對象,而是歸檔其含有的字符和長度。一般來說,指針,數組和句柄應以相同的方式進行處理。
另一個問題設計到多態對象。每個多態對象都含有一個vtpr,即一個指向虛擬函數地址分配表的隱藏指針。vtpr的值是時變的,如果你把整個多態對象轉儲到一個文件中,然後強行把歸檔後的數據添加到一個新的對象上,則其vptr可能無效並導致未定義的行為。再次提醒,解決方案是只對非時變的數據成員進行序列化和反序列化。另一種方法是計算vptr的確切偏移量,在從文件重建對象時不要動它。記住,vptr的位置是與實現相關的,因此這樣的代碼是不可移植的。
小結
雖然C++不直接支持對象持久性,但手工實現它並不難,只要你遵從一些基本的准則:首先把每個復合對象分解為原始數據類型,然後對這些原始數據類型進行序列化。當序列化數據時,記住要跳過時變的值。在反序列化過程中,讀取剛才存儲的值。處理string對象、數組和句柄需要一些技巧:總是要對它們解引用,存儲它們所指向的值。記住在一個單獨的字段中存儲string或數組的大小,希望通過以上內容的介紹,能夠給你帶來幫助。