国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于字體的中文信息隱藏算法

2013-09-10 01:16孫新梅黃劉生
關(guān)鍵詞:混用繁體字比特

孫新梅,孟 朋,黃劉生,3

(1.淮北職業(yè)技術(shù)學(xué)院 機(jī)電工程系,安徽 淮北235000;2.中國科學(xué)技術(shù)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院國家高性能計(jì)算中心,安徽 合肥230026;3.中國科學(xué)技術(shù)大學(xué) 蘇州研究院,江蘇 蘇州215123)

0 引 言

目前以文本為載體的信息隱藏大體可以分為三類:基于排版,基于語法和基于語義。而基于排版的信息隱藏算法不抗重寫攻擊,如果隱藏文本被重新排版或重寫一遍,那么隱藏信息也隨之消失;基于語法的信息隱藏算法通過模仿自然語言的語法結(jié)構(gòu),生成類似自然語言的文本,在生成文本的過程中隱藏進(jìn)秘密信息。這類算法主要有基于Markov鏈的隱藏方法[1],基于句子模板的隱藏方法[2]和基于文章樣式的隱藏方法[3]等。這類算法雖然可以抵抗重寫攻擊,但是算法生成的文本沒有完整的意義,并且可以通過統(tǒng)計(jì)分析等方法對載體文本實(shí)現(xiàn)自動(dòng)化的檢測[4-6]?;谡Z義的信息隱藏算法通過對載體文本的部分單詞進(jìn)行同義詞替換[7-8]、部分或全部句子進(jìn)行同義轉(zhuǎn)換等方式,雖然目標(biāo)是盡量保持載體文本語義不變,但實(shí)現(xiàn)起來非常困難;所以有必要進(jìn)一步設(shè)計(jì)新的信息隱藏算法,以增強(qiáng)信息安全性。本文以經(jīng)常被混用的繁體字、簡化字為例,設(shè)計(jì)了一種新的中文信息隱藏算法,并研究了算法的嵌入率以及安全性等問題。這種算法主要具有以下優(yōu)點(diǎn):一是嵌入方式多樣,可以根據(jù)需要選擇不同的嵌入方式;二是這種算法保證了載體文本的語義完全不變,實(shí)現(xiàn)起來簡單;三是這種算法對電子文本,打印文本,手寫文本等全部適用。

1 背景介紹

漢字的歷史悠久,在漢字的演進(jìn)過程中很多時(shí)期同一漢字存在著兩種或兩種以上的書寫形式。就今天來說,日常使用的文字約1/3存在兩種或兩種以上的書寫形式[9]。1964年國務(wù)院公布的 《簡化字總表》,共包含2236個(gè)簡化字,是大陸通行的簡化字,這2236個(gè)簡化字有至少兩種書寫形式:簡化字和繁體字。由于特殊的歷史和政治原因,當(dāng)前簡化字主要在大陸地區(qū)使用,而繁體字主要在臺(tái)港澳以及海外繼續(xù)使用。近年來,隨著兩岸交流的密切展開以及兩岸文字統(tǒng)一的需要,大陸民眾對繁體字產(chǎn)生了很大的熱情,而在臺(tái)灣等地區(qū)學(xué)習(xí)和使用簡化字的人數(shù)也不斷增多,因此繁體字和簡化字混用的顯現(xiàn)普遍存在并且有增多趨勢。根據(jù) “中國語言文字使用情況調(diào)查”的結(jié)果,截至上世紀(jì)末,有3.84%的人是繁體字和簡化字并用[10]。圖1顯示大陸地區(qū)平時(shí)使用簡化字和繁體字的比例。從網(wǎng)上也可以看到,大量的網(wǎng)頁是繁簡并用,特別像網(wǎng)絡(luò)論壇、網(wǎng)上聊天室等對文字格式?jīng)]有嚴(yán)格要求的網(wǎng)站。

在海外華人地區(qū),繁簡混用現(xiàn)象則更加普遍。例如針對新加坡餐館菜單統(tǒng)計(jì),繁簡混用現(xiàn)象約占所有中文菜單的17%[11],如圖2所示。

圖2 新加坡菜單繁體字和簡體字使用比例[11]

隨著不同地區(qū)的華人交流日益頻繁以及互聯(lián)網(wǎng)的廣泛使用,繁簡混用的現(xiàn)象很難在短時(shí)間內(nèi)消除,甚至有日益增多的趨勢。隨著漢字編碼方式以及輸入方式的進(jìn)步,采用一種輸入法輸入簡化字和繁體字幾乎同樣簡單,同時(shí)輸入以及顯示簡化字和繁體字已經(jīng)沒有任何困難,這為繁體字和簡化字的混用提供了便利的條件。這種不規(guī)范的繁簡混用現(xiàn)象很有可能被用來進(jìn)行信息以藏。

2 算法描述

我們的目標(biāo)是對一篇載體文本 (只含簡化字或繁體字的普通文本,本文中提到的載體文本假設(shè)只含簡化字),通過將部分簡化字替換為繁體字來實(shí)現(xiàn)信息隱藏。

首先構(gòu)造一個(gè)替換字典SD,SD包含經(jīng)常混用的簡化字和繁體字。即SD是一個(gè)二元組的集合,每個(gè)二元組包括一個(gè)經(jīng)?;煊玫暮喕趾推鋵?yīng)的繁體字。

2.1 簡單替換的嵌入算法 (SSE)

將待隱藏信息轉(zhuǎn)化為 “0”和 “1”的比特序列,假設(shè)規(guī)定簡化字代表 “0”,繁體字代表 “1”,SSE方式執(zhí)行過程描述如下:

隱藏過程:對載體文本中每個(gè)SD中的文字,根據(jù)當(dāng)前需要隱藏的信息進(jìn)行替換。如果需要嵌入 “0”,則保持簡化字不變;如果需要嵌入 “1”,那么將簡化字替換為相應(yīng)的繁體字;不在SD中的文字保持不變。進(jìn)行替換后的文本就是一篇含有隱藏信息的載密文本。

提取過程:從載密文本中依次讀取文字,如果文字為SD中的簡化字則提取 “0”,為SD中的繁體字則提取 “1”,不在SD中的字直接讀取下一個(gè)字。

例如對字符串 “GB2312碼是中華人民共和國國家漢字信息交換用編碼”進(jìn)行信息隱藏,假設(shè)需要隱藏的秘密信息為 “01010110”,那么采用簡單替換方式隱藏后的載密文本為:“GB2312碼是中華人民共和國國家漢字信息交換用編碼”。

這種嵌入方式的好處是嵌入率比較高,弊端是嵌入簡單,比較容易辨認(rèn)。例如相鄰的 “國國”一個(gè)簡化字,一個(gè)繁體字,生活中很難發(fā)生這種情況,因此這種嵌入方式安全性較低。

2.2 高效替換的嵌入算法 (ESE)

對進(jìn)行保密通信的雙方來說,字符串 “GB2312碼是中華人民共和國國家漢字信息交換用編碼”,可以認(rèn)為其代表字符串本身表達(dá)的信息,也可以認(rèn)為其代表 “26”(因?yàn)槠淇偣埠?6個(gè)字符),當(dāng)然也可以認(rèn)為其代表其它的數(shù)字或者符號(hào)。只要發(fā)送方和接收方采用相同的解釋方式,就可以通過對載體文本進(jìn)行 “解釋”達(dá)到傳遞秘密信息的目的。

將一篇載體文本完全不做修改,而只靠 “解釋”來實(shí)現(xiàn)秘密通信,在通信量很小的情況下,完全可以實(shí)現(xiàn)。假設(shè)要進(jìn)行最大通信量為20比特的秘密通信,最簡單的解釋方式可以用220個(gè)不同的載體文本,其中每個(gè)載體文本代表一種信息,那么就可以實(shí)現(xiàn)對載體文本完全不用修改來傳遞秘密信息。但是當(dāng)通信量大的時(shí)候,很難只用 “解釋”的辦法來實(shí)現(xiàn)信息隱藏。

下面提出一種折中的方法,首先將待隱藏的信息分解為固定長度的信息段,然后對每個(gè)信息段采用 “解釋”的辦法進(jìn)行隱藏,以實(shí)現(xiàn)在修改盡量少的文本的前提下嵌入秘密信息。

假設(shè)待隱藏的信息正好可以分解為n個(gè)長為L的分組,“解釋”隱藏的方法如下:將隱藏信息的每個(gè)分組轉(zhuǎn)化為一個(gè)十進(jìn)制數(shù)Di(0<i<n+1),對載體文本從開始位置進(jìn)行搜索,每經(jīng)過Di個(gè)SD中的簡化字,將第Di+1個(gè)簡化字替換為繁體字。

隱藏算法和還原算法的描述如下所示 (算法假設(shè)載體文本足夠長,可以容納秘密信息),圖3和圖4分別是隱藏算法和還原算法的流程圖。

隱藏算法描述:

步驟1 從載體文本開始位置搜索,置P等于-1。

步驟2 從載體文本當(dāng)前位置開始,找到下一個(gè)SD中的字C,并置P等于P+1。

步驟3 如果P等于當(dāng)前待隱藏的信息Di(0<i<n+1)。那么將C替換為繁體字,否則轉(zhuǎn)步驟2。

步驟4 如果信息隱藏完畢,則算法終止,否則P=-1,轉(zhuǎn)步驟2。

還原算法描述:

步驟1 從載體文本開始位置搜索,置P等于-1。

步驟2 從載體文本當(dāng)前位置開始,找到下一個(gè)SD中的字C,并置P等于P+1。

步驟3 如果C是繁體字,那么將P保存為提取信息,否則轉(zhuǎn)步驟2。

步驟4 如果提取完畢,則算法終止,否則P=-1,轉(zhuǎn)步驟2。

高效替換算法的最大優(yōu)點(diǎn)就是每替換一個(gè)字符,可以隱藏L比特的信息,而且L可以根據(jù)需要靈活選擇,L越大,載體文本被替換的文字越稀少,載密文本的隱蔽性也越強(qiáng);L越小,嵌入率越高。

2.3 基于模板的嵌入算法 (TBE)

在SSE算法中,每個(gè)字符嵌入一個(gè)比特信息,而在ESE算法中,一個(gè)字符嵌入多個(gè)比特信息。在TBE算法中,我們使用多個(gè)字符來嵌入多個(gè)比特信息。

首先,假設(shè)將載體文本中出現(xiàn)在SD中的字符按順序分組,每組N個(gè)字符。從N個(gè)字符中任取m個(gè),則共有種選取方式,每種選取方式可以看成一種模板,如果將這些模板編碼,則每個(gè)模板對應(yīng)一種隱藏信息。每N個(gè)字符通過替換其中m個(gè)至少可以嵌入比特信息,這種嵌入方式記做TBE(N,m)。

例如TBE(5,2)的一種編碼方式見表1。

3 嵌入率和安全性分析

3.1 嵌入率分析

假設(shè)一篇載體文本共含有A個(gè)SD中的字符,嵌入S比特信息后,修改了其中C個(gè)字符,定義嵌入率 (ER),嵌入效率 (EE)如下

表1 基于模板的嵌入方式編碼

假設(shè)嵌入比特串 “0”和 “1”均勻分布,則SSE的嵌入率為1,平均嵌入效率為2;假設(shè)ESE嵌入信息分段長度為L,則其嵌入率為嵌入效率為L。當(dāng)L大于1時(shí),ESE的嵌入效率高于SSE,但其嵌入率遠(yuǎn)遠(yuǎn)低于SSE,并且隨L增大嵌入率以指數(shù)方式下降。

一個(gè)好的嵌入方式,應(yīng)該既有比較高的嵌入率,又有比較高的嵌入效率,因此給出嵌入能力 (EC)的定義如下

一般來說,希望在嵌入率一定的條件下,有比較高的嵌入效率,或者嵌入效率一定的條件下,有比較高的嵌入率。因此,使用EC可以較好的描述算法的嵌入能力。

下面來分析3種算法的嵌入能力 (EC)。

SSE算法的嵌入率為1,和平均嵌入效率為2,因此

假設(shè)TBE算法的模板長度為N,從中選取m個(gè)字符進(jìn)行替換嵌入信息,因?yàn)槊總€(gè)模板最后的 “0”比特?zé)o需嵌入,則

ESE和TBE的嵌入率、嵌入效率和嵌入能力見表2和表3。

表2 ESE的嵌入率,嵌入效率和嵌入能力數(shù)據(jù)

表3 TBE的嵌入率,嵌入效率和嵌入能力數(shù)據(jù)

對比表2和表3,可以看出,適當(dāng)?shù)倪x取N和m,TBE會(huì)比ESE有更高的嵌入能力,例如當(dāng)ESE的嵌入效率為3時(shí),其嵌入率為0.67;而當(dāng)N等于100,m等于26時(shí),TBE的嵌入效率為3.08,嵌入率為0.79,嵌入效果明顯好于ESE。

3.2 安全性分析

本文所設(shè)計(jì)算法優(yōu)點(diǎn)是保證載體文本語義完全不變,嵌入率可靈活調(diào)整,抗重寫攻擊,因此傳統(tǒng)的攻擊方法對本算法是完全無效的。當(dāng)然,本文的算法使用了兩種字體,在對文本字體要求嚴(yán)格的環(huán)境,本文的算法并不適用。另外,對本文算法檢測的唯一依據(jù)是文本是否同時(shí)使用了簡化字和繁體字,但是由于相當(dāng)一部分人同時(shí)使用兩種字體,因此僅根據(jù)使用兩種字體檢測會(huì)導(dǎo)致大量正常文本被誤判為載密文本,仍然無法準(zhǔn)確區(qū)分正常文本和載密文本。

為了增加算法安全性,替換辭典 (SD)可以僅選擇經(jīng)?;煊玫姆斌w字和簡化字,這樣載密文本傳輸過程中如果被修改了部分字符,如果這部分字符并不在SD之中,并不會(huì)影響秘密信息的安全。另外采用基于模板的嵌入方式,可以僅對部分模板進(jìn)行編碼,這樣僅有部分模板是有效模板,如果載密文本被攻擊并修改,這樣可能會(huì)導(dǎo)致提取過程出現(xiàn)無效模板,從而可以判斷載密文本被攻擊,并且能判斷攻擊的位置。

由于文本的冗余空間少,嵌入率低,當(dāng)前基于文本的隱藏算法很少,文本信息隱藏很少引起大家注意,因此基于文本的信息隱藏成功率也較高。

4 結(jié)束語

相對加密技術(shù)來說,信息隱藏是一個(gè)比較新的研究領(lǐng)域。本文分析了目前文本信息隱藏的研究現(xiàn)狀和存在的不足,設(shè)計(jì)了一種基于中文字體的信息隱藏算法。算法保證了載體文本的語義完全不變,具有實(shí)現(xiàn)起來簡單、信息傳輸存儲(chǔ)安全、嵌入率高的特點(diǎn)。根據(jù)不同的應(yīng)用需求,作者給出了3種隱秘信息的嵌入算法,并且通過數(shù)學(xué)計(jì)算,對每一種嵌入算法的嵌入率和嵌入效率等進(jìn)行了分析比較。最后對算法的安全性進(jìn)行了分析,并給出了增強(qiáng)安全性的手段。

[1]Meng Peng,Huang Liusheng,Chen Zhili.STBS:A statistical algorithm for steganalysis of translation-based steganography [C ]//Proceedings of the Information Hiding Conference,2010.

[2]MaherK. TEXTO. URL: ftp://ftp.funet.fi/pub/crypt/steganography/texto.tar.gz [S].2012-06-05.

[3]Liu T Y,Tsai W H.A new steganographic method for data hiding in microsoft word documents by a change tracking technique [J].IEEE Transactions on Information Forensics and Security,2007,2 (1):24-30.

[4]Chen Zhili,Huang Liusheng,Yu Zhenshan,et al.Linguistic steganography detection using statistical characteristics of correlations between words [G].LNCS 5284:USA:Information Hiding,2008:224-235.

[5]Chen Zhili,Huang Liusheng,Yu Zhenshan,et al.A statistical algorithm for linguistic steganography detection based on distribution of words [C]//Spain, Mar: ARES,2008:558-563.

[6]Chen Zhili,Huang Liusheng,Yu Zhenshan,et al.Effective linguistic steganography detection [C]//Australia:CIT Workshops,2008:224-229.

[7]Ryan Stutsman,Mikhail Atallah,Christian Grothoff,et al.Lost in just the translation [C]//Proceedings of the ACM Symposium on Applied Computing.New York:ACM,2006:338-345.

[8]Meng Peng,Shi Yunqing,Huang Liusheng.LinL:Lost in n-best list [C]//Proceedings of the Information Hiding Conference,2011.

[9]GUO Shulun.Dynamic analysis and comparison of stroke number of simplified Chinese characters and traditional Chinese characters [J].Journal of Beihua University,2009,10 (2):50-56 (in Chinese).[郭曙綸.簡化字與繁體字筆畫數(shù)的動(dòng)態(tài)統(tǒng)計(jì)與比較 [J].北華大學(xué)學(xué)報(bào),2009,10 (2):50-56.]

[10]Chinese Languages Investigation Leading Group Office.The survey data of chinese press about chinese language [M].Beijing:The Chinese Press,2006 (in Chinese).[中國語言文字使用情況調(diào)查領(lǐng)導(dǎo)小組辦公室.中國語言文字使用情況調(diào)查資料 [M].北京:語文出版社,2006]

[11]WANG Hui.The simplified and traditional Chinese characters coexist,use simplified character and know traditional character [D].National University of Singapore,2008 (in Chinese). [王惠.繁簡共存,用簡識(shí)繁 [D].新加坡國立大學(xué),2008.]

猜你喜歡
混用繁體字比特
哈哈鏡
漢字繁簡再引熱議
“口”“ㄙ”偏旁混用趣談
比特幣還能投資嗎
比特幣分裂
比特幣一年漲135%重回5530元
哈薩克民族藥塔斯瑪依混用辨析
臺(tái)網(wǎng)友鼓動(dòng)“繁體字申遺”
神秘的比特幣
高速公路客貨混用復(fù)式收費(fèi)系統(tǒng)設(shè)計(jì)
邳州市| 镇雄县| 林口县| 海盐县| 辽宁省| 灵台县| 和静县| 邹平县| 凤翔县| 通州市| 临湘市| 聂拉木县| 双辽市| 石首市| 洛南县| 金湖县| 崇明县| 安阳市| 郑州市| 宁陵县| 湘潭县| 兴化市| 三河市| 施甸县| 蓝山县| 繁峙县| 安多县| 靖安县| 瓦房店市| 霸州市| 渝北区| 盘锦市| 江孜县| 宝山区| 井研县| 汽车| 凌云县| 洛川县| 措美县| 大新县| 沾益县|