在线刊号(2320-9801)印刷刊号(2320-9798)
|
更多相关文章请访问国际计算机与通信工程创新研究杂志
本文提出了一种不易察觉的脆弱文本水印算法。文本文档中每个字母的字体颜色根据正弦函数的灰度变化。相同的振幅是使用哈希函数生成的。通过将文档中字母的实际颜色值与正弦函数生成的期望值进行比较,可以验证接收到的文档的真实性。该方案对各种与篡改文本相关的恶意攻击高度敏感,因此可以保持文档的完整性。与以前的方法不同,所提出的算法在保持水印不可见性的同时提供篡改检测。攻击分析表明,该方案是有效和安全的。
关键字 |
灰度图;正弦波;文本水印;数字水印;哈希函数;篡改检测 |
介绍 |
互联网和网络技术在现代通信中日益重要的作用引起了人们对数字信息安全的关注。移动设备(如闪存盘、存储卡、ipod等)的更广泛使用使得大量文本材料可以通过这些渠道传输,使它们面临抄袭、侵犯版权、重新分发和其他形式的恶意攻击。在图像、视频和音频水印领域已经做了大量的工作;在文本水印领域的研究相当有限。电子商务、电子商务和数字图书馆的发展增加了对高效文本水印技术的需求。多年来,人们使用加密、隐写术和水印等方法来解决这些问题。数字水印是近年来出现的一种更有优势的方法。这种方法比其他方法更可取,因为它在保证文档的真实性和完整性的同时保持了文档的可理解性。所提出的算法是基于字体颜色值的变化,它遵循正弦函数。在文本的一段上实现哈希函数以生成正弦函数的振幅值。 The algorithm is sensitive to any form of tampering attack. The paper is organised into 6 sections. Section II examines the previous related work done in the area of text watermarking. Section III describes the proposed algorithm. Section IV illustrates the implementation of the same. Section V describes the experimental results and Section VI lists the conclusions |
2相关工作 |
数字水印可以描述为永久嵌入在文档中的识别代码。不可见水印在保存文档的真实性方面更加安全。在过去已经提出了许多技术。这些方法包括使用文本图像的文本水印、基于同义词的文本水印、基于预设的文本水印、基于句法树的文本水印、基于名动词的文本水印、基于单词和句子的文本水印、基于首字母缩写的文本水印、基于错字的文本水印等。文本水印方法分为以下几种。 |
A.基于图像的方法: |
在基于图像的文本水印方法中,水印被嵌入到文本图像中。Brassil等人首先提出了几种利用文本图像[1]-[2]的文本水印方法。之后,Maxemchuk, et al.[3]-[4]对这些方法的性能进行了分析。Huang和Yan[5]提出了一种基于每行平均字间距离的算法。Wiyada Yawai和Nualsawat Hiransakolwong演示了如何利用水平线的交点位置,在横比作用下,在文本图像上虚拟运行文本字符骨架线,作为零水印的标记点[15]。 |
B.句法方法: |
一个句子的组成部分,如名词、动词、介词等,决定了句子的句法结构,这取决于语言及其习惯。利用文本结构上的句法变换嵌入水印也是过去文本水印的方法之一。Mikhail J. Atallah等人首先利用文本[6]-[7]的句法结构提出了自然语言水印方案。Hassan等人对文本进行了形态-句法改变,使其水印为[8]。 |
C.语义方法: |
利用同义词、反义词等文本语义来嵌入水印。Atallah等人在2000年[9]首次提出语义水印方案。后来又提出了同义词替换方法[10]。文中还提出了一种基于名词-动词的文本水印技术,该技术利用语义网络语法分析器解析的句子中的名词和动词。后来Mercan等人提出了一种文本水印算法,利用错别字、首字母缩略词和缩写词嵌入水印[12]。利用介词[13]的语义现象,设计了水印算法。基于文本含义表示(TMR)字符串的算法也被提出[14]。 |
D.零水印方法: |
在零水印方法中,不改变主文本文档来嵌入水印;而是利用文本的特征来生成水印。该水印模式稍后使用模式匹配过程与被篡改文档生成的模式进行匹配,以识别任何篡改[16]。Jalil Z.等人提出了一种基于非元音ASCII字符出现频率的零文本水印算法。嵌入算法利用频率非元音ASCII字符和单词生成一个专门的作者键[17]。Zunera Jalil等人开发了一种算法,该算法利用文本中的关键字(根据作者的选择选择),根据文本[19]中关键字出现的前一个和下一个单词长度生成水印。 |
3算法 |
上述技术具有攻击特异性的缺点,在多次攻击时往往变得不可靠。它们也不适用于所有类型的文本文档在随机篡改攻击,并不是专门设计来解决篡改检测问题。提出的算法旨在确保篡改攻击的真实性和完整性,同时还可以识别篡改的位置。 |
该算法使用文档字体颜色的变化。这种水印技术利用了这样一个事实,即人眼无法察觉颜色的微小变化。文档中每个字母的颜色在灰度范围内呈正弦变化。魏贤敏此前提出了一种基于正弦波的基于字数的水印方案,该方案仅适用于word文档[18]。 |
在该算法中,原始文本中出现的每个字母的数量决定了整个文本的颜色变化参数。因此,它独立于文档的任何格式,如doc、docx、pdf等,因为算法运行在原始文本上。同样的算法可以很容易地扩展到其他语言,只需要对字母的数量进行轻微的修改。本文提出的数字文本水印技术可用于任何文本文件的知识产权保护 |
A.水印嵌入过程: |
正弦波的振幅是通过对文档的任何选定段落应用SHA-1哈希来生成的。这一段将由发送者和接收者事先决定。这样生成的40位散列的前26个十六进制位用作振幅。前26个十六进制位从产生的40位作为振幅使用。由于这些是十六进制值,因此每个字母对应的正弦波的振幅在1到16之间变化。该算法的代码可以用任何高级语言编写。每个字母出现的次数被记录下来,这被用来计算正弦函数的参数。论点是这样的,正弦波完成了一个周期的总出现的一个字母。不论大小写,所有26种字母都是如此。水印的嵌入使得文本的颜色在0-100的灰度范围内从85到100的灰度范围内变化。 This ensures that the changes in the intensity of the black colour remain imperceptible. The text is read alphabet by alphabet and its colour property is changed according to the sine wave of the corresponding alphabet. In the case of special characters (such as exclamation marks, commas and full stops), the output colour is the same as the preceding alphabet. The document with the embedded watermark is converted to a pdf. |
B.篡改检测: |
在接收端,从接收到的pdf文档中提取原始文本。嵌入算法再次在原始文本上运行,以生成一个新的水印文档。将生成的文档与接收的文档进行比较。报告的任何不匹配都将表明所接收的文档已被篡改。这两个文档可以通过将它们转换为图像并使用MATLAB等软件进行减去来进行比较。如果文档没有被篡改,将得到一个黑色的图像 |
四、提出的算法 |
5.减去的图像由Imsub= abs(Im1-Im2)给出,并将Imsub转换为灰度格式。7.绘制直方图。 |
五、实验结果 |
下图展示了实验观察结果。图1显示了原始文本。嵌入算法后文本文档中的变化是难以察觉的,如图2所示。图3显示了被篡改的文档。后续图像显示了检测过程。图4绘制了在接收端获得的未篡改水印文本与再次运行算法获得的文本进行比较的直方图。图5说明了减去篡改水印文本的图像和在接收到的篡改文本上再次运行算法获得的文档后的输出。为图5生成的直方图如图6所示。从这些结果可以看出,如果文档被篡改过,那么在减法时观察到带有灰色斑块的黑色图像。否则,合成的图像将是完全黑色的。 |
图1:原始原始文本 |
图1所示的原始文本在使用SHA-1算法(使用散列生成器)进行散列时会生成以下40- 16进制值: |
“01 c12fc24deaa65e4452335485854481603cd4bd” |
下表每个字母连同其相应的出现次数和振幅计算的基础上哈希函数。这些值然后被用作正弦函数的参数{Nn和An}来生成字母的瞬时颜色值,如第四节所述。表1给出了每个字母的总数和振幅。 |
图3显示了被篡改的文档。后续图像显示了检测过程。 |
图3:运行抽取算法后被篡改的文档 |
当文档未被篡改时,接收到的pdf和提取后生成的pdf是相同的。因此,减法得到的图像是完全黑色的。这导致直方图集中在0附近,如图4所示。 |
图4:比较未篡改水印文档与再次运行算法获得的文本的直方图 |
篡改文件会导致正弦波参数的差异。因此,生成的图像具有灰色斑块,如图5所示。 |
图5:将经过篡改的文字图像与图3中得到的图像进行减法 |
在绘制该减影图像的直方图时,可以观察到它不再集中在零沿线,而是分布在整个灰度上,如图6所示 |
图6:图5的直方图 |
六、结论及未来工作 |
这里实现的算法是一种新颖的水印方案,它是不可察觉的,并保持了文档的真实性和完整性。使用字母计数作为变化参数,即使是微小的变化也具有前所未有的灵敏度,这是所提出的技术的优势。早期用于文本认证的水印技术在随机篡改攻击的情况下不可靠,特别是在篡改量较低的情况下。因此,该算法是通用的,高度不可察觉和脆弱的。未来的工作可能包括将算法扩展到彩色文档,并检测文档的格式变化,如缩进。只要稍加改动,该算法也可以扩展到其他语言。 |
参考文献 |
|