国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于字體的中文信息隱藏算法

2013-09-10 01:16孫新梅黃劉生

計(jì)算機(jī)工程與設(shè)計(jì) 2013年9期

關(guān)鍵詞：混用繁體字比特

孫新梅，孟朋，黃劉生，3

（1.淮北職業(yè)技術(shù)學(xué)院機(jī)電工程系，安徽淮北235000；2.中國科學(xué)技術(shù)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院國家高性能計(jì)算中心，安徽合肥230026；3.中國科學(xué)技術(shù)大學(xué) 蘇州研究院，江蘇蘇州215123）

0 引言

目前以文本為載體的信息隱藏大體可以分為三類：基于排版，基于語法和基于語義。而基于排版的信息隱藏算法不抗重寫攻擊，如果隱藏文本被重新排版或重寫一遍，那么隱藏信息也隨之消失；基于語法的信息隱藏算法通過模仿自然語言的語法結(jié)構(gòu)，生成類似自然語言的文本，在生成文本的過程中隱藏進(jìn)秘密信息。這類算法主要有基于Markov鏈的隱藏方法［1］，基于句子模板的隱藏方法［2］和基于文章樣式的隱藏方法［3］等。這類算法雖然可以抵抗重寫攻擊，但是算法生成的文本沒有完整的意義，并且可以通過統(tǒng)計(jì)分析等方法對載體文本實(shí)現(xiàn)自動(dòng)化的檢測［4－6］?；谡Z義的信息隱藏算法通過對載體文本的部分單詞進(jìn)行同義詞替換［7－8］、部分或全部句子進(jìn)行同義轉(zhuǎn)換等方式，雖然目標(biāo)是盡量保持載體文本語義不變，但實(shí)現(xiàn)起來非常困難；所以有必要進(jìn)一步設(shè)計(jì)新的信息隱藏算法，以增強(qiáng)信息安全性。本文以經(jīng)常被混用的繁體字、簡化字為例，設(shè)計(jì)了一種新的中文信息隱藏算法，并研究了算法的嵌入率以及安全性等問題。這種算法主要具有以下優(yōu)點(diǎn)：一是嵌入方式多樣，可以根據(jù)需要選擇不同的嵌入方式；二是這種算法保證了載體文本的語義完全不變，實(shí)現(xiàn)起來簡單；三是這種算法對電子文本，打印文本，手寫文本等全部適用。

1 背景介紹

漢字的歷史悠久，在漢字的演進(jìn)過程中很多時(shí)期同一漢字存在著兩種或兩種以上的書寫形式。就今天來說，日常使用的文字約1／3存在兩種或兩種以上的書寫形式［9］。1964年國務(wù)院公布的《簡化字總表》，共包含2236個(gè)簡化字，是大陸通行的簡化字，這2236個(gè)簡化字有至少兩種書寫形式：簡化字和繁體字。由于特殊的歷史和政治原因，當(dāng)前簡化字主要在大陸地區(qū)使用，而繁體字主要在臺(tái)港澳以及海外繼續(xù)使用。近年來，隨著兩岸交流的密切展開以及兩岸文字統(tǒng)一的需要，大陸民眾對繁體字產(chǎn)生了很大的熱情，而在臺(tái)灣等地區(qū)學(xué)習(xí)和使用簡化字的人數(shù)也不斷增多，因此繁體字和簡化字混用的顯現(xiàn)普遍存在并且有增多趨勢。根據(jù) “中國語言文字使用情況調(diào)查”的結(jié)果，截至上世紀(jì)末，有3.84%的人是繁體字和簡化字并用［10］。圖1顯示大陸地區(qū)平時(shí)使用簡化字和繁體字的比例。從網(wǎng)上也可以看到，大量的網(wǎng)頁是繁簡并用，特別像網(wǎng)絡(luò)論壇、網(wǎng)上聊天室等對文字格式?jīng)]有嚴(yán)格要求的網(wǎng)站。

在海外華人地區(qū)，繁簡混用現(xiàn)象則更加普遍。例如針對新加坡餐館菜單統(tǒng)計(jì)，繁簡混用現(xiàn)象約占所有中文菜單的17%［11］，如圖2所示。

圖2 新加坡菜單繁體字和簡體字使用比例［11］

隨著不同地區(qū)的華人交流日益頻繁以及互聯(lián)網(wǎng)的廣泛使用，繁簡混用的現(xiàn)象很難在短時(shí)間內(nèi)消除，甚至有日益增多的趨勢。隨著漢字編碼方式以及輸入方式的進(jìn)步，采用一種輸入法輸入簡化字和繁體字幾乎同樣簡單，同時(shí)輸入以及顯示簡化字和繁體字已經(jīng)沒有任何困難，這為繁體字和簡化字的混用提供了便利的條件。這種不規(guī)范的繁簡混用現(xiàn)象很有可能被用來進(jìn)行信息以藏。

2 算法描述

我們的目標(biāo)是對一篇載體文本（只含簡化字或繁體字的普通文本，本文中提到的載體文本假設(shè)只含簡化字），通過將部分簡化字替換為繁體字來實(shí)現(xiàn)信息隱藏。

首先構(gòu)造一個(gè)替換字典SD，SD包含經(jīng)常混用的簡化字和繁體字。即SD是一個(gè)二元組的集合，每個(gè)二元組包括一個(gè)經(jīng)?；煊玫暮喕趾推鋵?yīng)的繁體字。

2.1 簡單替換的嵌入算法（SSE）

將待隱藏信息轉(zhuǎn)化為 “0”和 “1”的比特序列，假設(shè)規(guī)定簡化字代表 “0”，繁體字代表 “1”，SSE方式執(zhí)行過程描述如下：

隱藏過程：對載體文本中每個(gè)SD中的文字，根據(jù)當(dāng)前需要隱藏的信息進(jìn)行替換。如果需要嵌入 “0”，則保持簡化字不變；如果需要嵌入 “1”，那么將簡化字替換為相應(yīng)的繁體字；不在SD中的文字保持不變。進(jìn)行替換后的文本就是一篇含有隱藏信息的載密文本。

提取過程：從載密文本中依次讀取文字，如果文字為SD中的簡化字則提取 “0”，為SD中的繁體字則提取 “1”，不在SD中的字直接讀取下一個(gè)字。

例如對字符串 “GB2312碼是中華人民共和國國家漢字信息交換用編碼”進(jìn)行信息隱藏，假設(shè)需要隱藏的秘密信息為 “01010110”，那么采用簡單替換方式隱藏后的載密文本為：“GB2312碼是中華人民共和國國家漢字信息交換用編碼”。

這種嵌入方式的好處是嵌入率比較高，弊端是嵌入簡單，比較容易辨認(rèn)。例如相鄰的 “國國”一個(gè)簡化字，一個(gè)繁體字，生活中很難發(fā)生這種情況，因此這種嵌入方式安全性較低。

2.2 高效替換的嵌入算法（ESE）

對進(jìn)行保密通信的雙方來說，字符串 “GB2312碼是中華人民共和國國家漢字信息交換用編碼”，可以認(rèn)為其代表字符串本身表達(dá)的信息，也可以認(rèn)為其代表 “26”（因?yàn)槠淇偣埠?6個(gè)字符），當(dāng)然也可以認(rèn)為其代表其它的數(shù)字或者符號(hào)。只要發(fā)送方和接收方采用相同的解釋方式，就可以通過對載體文本進(jìn)行 “解釋”達(dá)到傳遞秘密信息的目的。

將一篇載體文本完全不做修改，而只靠 “解釋”來實(shí)現(xiàn)秘密通信，在通信量很小的情況下，完全可以實(shí)現(xiàn)。假設(shè)要進(jìn)行最大通信量為20比特的秘密通信，最簡單的解釋方式可以用220個(gè)不同的載體文本，其中每個(gè)載體文本代表一種信息，那么就可以實(shí)現(xiàn)對載體文本完全不用修改來傳遞秘密信息。但是當(dāng)通信量大的時(shí)候，很難只用 “解釋”的辦法來實(shí)現(xiàn)信息隱藏。

下面提出一種折中的方法，首先將待隱藏的信息分解為固定長度的信息段，然后對每個(gè)信息段采用 “解釋”的辦法進(jìn)行隱藏，以實(shí)現(xiàn)在修改盡量少的文本的前提下嵌入秘密信息。

假設(shè)待隱藏的信息正好可以分解為n個(gè)長為L的分組，“解釋”隱藏的方法如下：將隱藏信息的每個(gè)分組轉(zhuǎn)化為一個(gè)十進(jìn)制數(shù)Di（0＜i＜n＋1），對載體文本從開始位置進(jìn)行搜索，每經(jīng)過Di個(gè)SD中的簡化字，將第Di＋1個(gè)簡化字替換為繁體字。

隱藏算法和還原算法的描述如下所示（算法假設(shè)載體文本足夠長，可以容納秘密信息），圖3和圖4分別是隱藏算法和還原算法的流程圖。

隱藏算法描述：

步驟1 從載體文本開始位置搜索，置P等于－1。

步驟2 從載體文本當(dāng)前位置開始，找到下一個(gè)SD中的字C，并置P等于P＋1。

步驟3 如果P等于當(dāng)前待隱藏的信息Di（0＜i＜n＋1）。那么將C替換為繁體字，否則轉(zhuǎn)步驟2。

步驟4 如果信息隱藏完畢，則算法終止，否則P＝－1，轉(zhuǎn)步驟2。

還原算法描述：

步驟1 從載體文本開始位置搜索，置P等于－1。

步驟2 從載體文本當(dāng)前位置開始，找到下一個(gè)SD中的字C，并置P等于P＋1。

步驟3 如果C是繁體字，那么將P保存為提取信息，否則轉(zhuǎn)步驟2。

步驟4 如果提取完畢，則算法終止，否則P＝－1，轉(zhuǎn)步驟2。

高效替換算法的最大優(yōu)點(diǎn)就是每替換一個(gè)字符，可以隱藏L比特的信息，而且L可以根據(jù)需要靈活選擇，L越大，載體文本被替換的文字越稀少，載密文本的隱蔽性也越強(qiáng)；L越小，嵌入率越高。

2.3 基于模板的嵌入算法（TBE）

在SSE算法中，每個(gè)字符嵌入一個(gè)比特信息，而在ESE算法中，一個(gè)字符嵌入多個(gè)比特信息。在TBE算法中，我們使用多個(gè)字符來嵌入多個(gè)比特信息。

首先，假設(shè)將載體文本中出現(xiàn)在SD中的字符按順序分組，每組N個(gè)字符。從N個(gè)字符中任取m個(gè)，則共有種選取方式，每種選取方式可以看成一種模板，如果將這些模板編碼，則每個(gè)模板對應(yīng)一種隱藏信息。每N個(gè)字符通過替換其中m個(gè)至少可以嵌入比特信息，這種嵌入方式記做TBE（N，m）。

例如TBE（5，2）的一種編碼方式見表1。

3 嵌入率和安全性分析

3.1 嵌入率分析

假設(shè)一篇載體文本共含有A個(gè)SD中的字符，嵌入S比特信息后，修改了其中C個(gè)字符，定義嵌入率（ER），嵌入效率（EE）如下

表1 基于模板的嵌入方式編碼

假設(shè)嵌入比特串 “0”和 “1”均勻分布，則SSE的嵌入率為1，平均嵌入效率為2；假設(shè)ESE嵌入信息分段長度為L，則其嵌入率為嵌入效率為L。當(dāng)L大于1時(shí)，ESE的嵌入效率高于SSE，但其嵌入率遠(yuǎn)遠(yuǎn)低于SSE，并且隨L增大嵌入率以指數(shù)方式下降。

一個(gè)好的嵌入方式，應(yīng)該既有比較高的嵌入率，又有比較高的嵌入效率，因此給出嵌入能力（EC）的定義如下

一般來說，希望在嵌入率一定的條件下，有比較高的嵌入效率，或者嵌入效率一定的條件下，有比較高的嵌入率。因此，使用EC可以較好的描述算法的嵌入能力。

下面來分析3種算法的嵌入能力（EC）。

SSE算法的嵌入率為1，和平均嵌入效率為2，因此

假設(shè)TBE算法的模板長度為N，從中選取m個(gè)字符進(jìn)行替換嵌入信息，因?yàn)槊總€(gè)模板最后的 “0”比特?zé)o需嵌入，則

ESE和TBE的嵌入率、嵌入效率和嵌入能力見表2和表3。

表2 ESE的嵌入率，嵌入效率和嵌入能力數(shù)據(jù)

表3 TBE的嵌入率，嵌入效率和嵌入能力數(shù)據(jù)

對比表2和表3，可以看出，適當(dāng)?shù)倪x取N和m，TBE會(huì)比ESE有更高的嵌入能力，例如當(dāng)ESE的嵌入效率為3時(shí)，其嵌入率為0.67；而當(dāng)N等于100，m等于26時(shí)，TBE的嵌入效率為3.08，嵌入率為0.79，嵌入效果明顯好于ESE。

3.2 安全性分析

本文所設(shè)計(jì)算法優(yōu)點(diǎn)是保證載體文本語義完全不變，嵌入率可靈活調(diào)整，抗重寫攻擊，因此傳統(tǒng)的攻擊方法對本算法是完全無效的。當(dāng)然，本文的算法使用了兩種字體，在對文本字體要求嚴(yán)格的環(huán)境，本文的算法并不適用。另外，對本文算法檢測的唯一依據(jù)是文本是否同時(shí)使用了簡化字和繁體字，但是由于相當(dāng)一部分人同時(shí)使用兩種字體，因此僅根據(jù)使用兩種字體檢測會(huì)導(dǎo)致大量正常文本被誤判為載密文本，仍然無法準(zhǔn)確區(qū)分正常文本和載密文本。

為了增加算法安全性，替換辭典（SD）可以僅選擇經(jīng)?；煊玫姆斌w字和簡化字，這樣載密文本傳輸過程中如果被修改了部分字符，如果這部分字符并不在SD之中，并不會(huì)影響秘密信息的安全。另外采用基于模板的嵌入方式，可以僅對部分模板進(jìn)行編碼，這樣僅有部分模板是有效模板，如果載密文本被攻擊并修改，這樣可能會(huì)導(dǎo)致提取過程出現(xiàn)無效模板，從而可以判斷載密文本被攻擊，并且能判斷攻擊的位置。

由于文本的冗余空間少，嵌入率低，當(dāng)前基于文本的隱藏算法很少，文本信息隱藏很少引起大家注意，因此基于文本的信息隱藏成功率也較高。

4 結(jié)束語

相對加密技術(shù)來說，信息隱藏是一個(gè)比較新的研究領(lǐng)域。本文分析了目前文本信息隱藏的研究現(xiàn)狀和存在的不足，設(shè)計(jì)了一種基于中文字體的信息隱藏算法。算法保證了載體文本的語義完全不變，具有實(shí)現(xiàn)起來簡單、信息傳輸存儲(chǔ)安全、嵌入率高的特點(diǎn)。根據(jù)不同的應(yīng)用需求，作者給出了3種隱秘信息的嵌入算法，并且通過數(shù)學(xué)計(jì)算，對每一種嵌入算法的嵌入率和嵌入效率等進(jìn)行了分析比較。最后對算法的安全性進(jìn)行了分析，并給出了增強(qiáng)安全性的手段。

［1］Meng Peng，Huang Liusheng，Chen Zhili.STBS：A statistical algorithm for steganalysis of translation－based steganography ［C ］／／Proceedings of the Information Hiding Conference，2010.

［2］MaherK. TEXTO. URL： ftp：／／ftp.funet.fi／pub／crypt／steganography／texto.tar.gz ［S］.2012－06－05.

［3］Liu T Y，Tsai W H.A new steganographic method for data hiding in microsoft word documents by a change tracking technique ［J］.IEEE Transactions on Information Forensics and Security，2007，2 （1）：24－30.

［4］Chen Zhili，Huang Liusheng，Yu Zhenshan，et al.Linguistic steganography detection using statistical characteristics of correlations between words ［G］.LNCS 5284：USA：Information Hiding，2008：224－235.

［5］Chen Zhili，Huang Liusheng，Yu Zhenshan，et al.A statistical algorithm for linguistic steganography detection based on distribution of words ［C］／／Spain， Mar： ARES，2008：558－563.

［6］Chen Zhili，Huang Liusheng，Yu Zhenshan，et al.Effective linguistic steganography detection ［C］／／Australia：CIT Workshops，2008：224－229.

［7］Ryan Stutsman，Mikhail Atallah，Christian Grothoff，et al.Lost in just the translation ［C］／／Proceedings of the ACM Symposium on Applied Computing.New York：ACM，2006：338－345.

［8］Meng Peng，Shi Yunqing，Huang Liusheng.LinL：Lost in n－best list ［C］／／Proceedings of the Information Hiding Conference，2011.

［9］GUO Shulun.Dynamic analysis and comparison of stroke number of simplified Chinese characters and traditional Chinese characters ［J］.Journal of Beihua University，2009，10 （2）：50－56 （in Chinese）.［郭曙綸.簡化字與繁體字筆畫數(shù)的動(dòng)態(tài)統(tǒng)計(jì)與比較［J］.北華大學(xué)學(xué)報(bào)，2009，10 （2）：50－56.］

［10］Chinese Languages Investigation Leading Group Office.The survey data of chinese press about chinese language ［M］.Beijing：The Chinese Press，2006 （in Chinese）.［中國語言文字使用情況調(diào)查領(lǐng)導(dǎo)小組辦公室.中國語言文字使用情況調(diào)查資料［M］.北京：語文出版社，2006］

［11］WANG Hui.The simplified and traditional Chinese characters coexist，use simplified character and know traditional character ［D］.National University of Singapore，2008 （in Chinese）. ［王惠.繁簡共存，用簡識(shí)繁［D］.新加坡國立大學(xué)，2008.］

猜你喜歡

混用繁體字比特

閱讀（高年級(jí)）(2022年3期)2022-03-30

漢字繁簡再引熱議

檢察風(fēng)云(2018年22期)2018-11-29

“口”“ㄙ”偏旁混用趣談

北方文學(xué)(2018年2期)2018-01-27

比特幣還能投資嗎

海峽姐妹(2017年10期)2017-12-19

比特幣分裂

三聯(lián)生活周刊(2017年33期)2017-08-11

比特幣一年漲135%重回5530元

銀行家(2017年1期)2017-02-15

哈薩克民族藥塔斯瑪依混用辨析

中國民族醫(yī)藥雜志(2016年3期)2016-05-09

臺(tái)網(wǎng)友鼓動(dòng)“繁體字申遺”

環(huán)球時(shí)報(bào)(2015-12-02)2015-12-02

神秘的比特幣

CHIP新電腦(2014年8期)2014-08-13

高速公路客貨混用復(fù)式收費(fèi)系統(tǒng)設(shè)計(jì)

中國交通信息化(2014年4期)2014-06-05

計(jì)算機(jī)工程與設(shè)計(jì)2013年9期

計(jì)算機(jī)工程與設(shè)計(jì)的其它文章: 快速收斂的克隆選擇算法; 含透鏡體的地質(zhì)體真三維建模算法; 云計(jì)算資源管理中的預(yù)測模型綜述; 基于UEFI的SMBIOS設(shè)計(jì)與研究; 多重加密的數(shù)字水印生成方法; 基于Linux的TW2835的驅(qū)動(dòng)程序設(shè)計(jì)與實(shí)現(xiàn)

邳州市| 镇雄县| 林口县| 海盐县| 辽宁省| 灵台县| 和静县| 邹平县| 凤翔县| 通州市| 临湘市| 聂拉木县| 双辽市| 石首市| 洛南县| 金湖县| 崇明县| 安阳市| 郑州市| 宁陵县| 湘潭县| 兴化市| 三河市| 施甸县| 蓝山县| 繁峙县| 安多县| 靖安县| 瓦房店市| 霸州市| 渝北区| 盘锦市| 江孜县| 宝山区| 井研县| 汽车| 凌云县| 洛川县| 措美县| 大新县| 沾益县|