资源

原文: A novel non-negative matrix factorization technique for decomposition of Chinese characters with application to secret sharing | EURASIP Journal on Advances in Signal Processing | Full Text (springeropen.com)

全文

Abstract

汉字的分解很困难，文献中很少对其进行研究。在本文中，我们提出了一种新的非负矩阵分解（NMF）技术，将一个汉字分解为几个图形组件，而不考虑字符的笔划或组件的任何语义或语音特性。汉字通常可以表示为二进制图像。然而，传统的 NMF 仅适用于表示一般灰度级或彩色图像。为了使用 NMF 分解二进制图像，我们强制两个矩阵（通过对要分解的二进制图像/矩阵进行因子分解而获得）的所有元素尽可能接近 0 或 1。结果，一个汉字可以被有效地分解为几个分量，其中每个分量在语义上是不可读的。此外，我们基于 NMF 的汉字分解方法适用于视觉秘密共享，通过在多方之间分配共享（不同的字符成分），因此只有当各方与各自的共享放在一起时，才能重建秘密（原始汉字）。实验结果验证了该方法的分解性能和可行性。

1 Introduction

一个汉字通常由几个图形组成，包括部首和其他几个不同的部分。部首是字典中用来索引汉字的图形组件。

具有相同成分的字符可能具有相似的语义或语音特性。汉字的分析和处理有着悠久的历史，最近随着人工智能技术的发展，如机器学习和深度学习，以及一些相关应用（如汉字识别和中文文档的自然语言理解），汉字分析和处理受到了极大的关注。

1.1 Chinese character decomposition

为了在线处理以二进制图像形式存储的中文文档，如果能够提前对汉字进行有效的自动分解，将是非常有帮助的。然而，将一个汉字（以二进制图像表示）自动分解为不同的成分是困难的，并且在文献中很少进行研究。

基于我们对汉字相关作品的探索，大多数先前的研究都旨在通过自动字符分解来提取汉字笔画。笔画是汉字的基本组成部分，也是书写楷书所必需的。

为了将汉字分解为一组笔画，相关工作：

一种基于数学形态学的方法。
一种汉字笔画提取模型来提取主笔画。
基于连接将汉字分解为孤立的笔画结构。然后，提取笔划结构的形状上下文，并通过形状匹配在标准数据库中找到匹配的对应对象。
建立一个字体骨架流形，以便通过遍历为汉字笔划提取应用而学习的流形中的位置，始终可以找到最相似的字符作为模板。
从自动将汉字图像分解为笔画开始，然后在结构信息的指导下分别调整笔画的大小，以实现汉字的结构感知图像大小调整。

这些将汉字分解为笔画的工作主要用于字符识别、书写风格分析和新字体合成。这种方法通常依赖于由标准汉字模板或标准笔画组成的标准数据库，用于形状/模板匹配。

另一方面，为了更好地捕捉自然语言单词的语义，最近引入了低维分布式单词表示，也称为单词嵌入。相关工作：

提出了一种称为 cw2vec 的方法，用于学习具有笔划 n-gram 信息的中文单词嵌入。

更具体地说，我们设计了一种极简主义的方法来利用笔划 n-gram，它可以捕捉中文单词的语义和形态层面的信息。

此外，为了改进单词嵌入：

一种混合学习方法，该方法集成了单词嵌入的组成和预测模型。

一般来说，单词嵌入技术已被证明适用于单词相似性、单词类比、文本分类和命名实体识别等任务。然而，单词嵌入的主要目标通常是更好地捕捉自然语言单词的语义，这与下一小节中描述的方法有本质上的不同。

1.2 Main objective of this paper

与上述工作的目标和方法形成鲜明对比的是，本文的目标是开发一个自动汉字分解框架，将一个汉字分解为几个图形组件，而不考虑字符的笔划或组件的任何语义或语音特性。

本文考虑的汉字分解实例

例如，汉字“好’ 将自动分解为组件女’ 和'子’ 而不考虑这两个组成部分中的任何一个的语义或语音特性。也就是说，我们打算自动实现以二进制图像表示的汉字的图形分解，而不需要任何关于汉字成分或笔画的语义和语音特性的先验知识。

为了实现我们的目标，我们提出了应用**非负矩阵分解（NMF）**技术将汉字分解为不同的分量。通常，NMF（或非负矩阵近似）打算将一个矩阵分解为两个矩阵，其中所有三个矩阵都没有负元素。非负性的性质使得所得矩阵更容易检查；因此，NMF 已成功应用于数字音频信号、数字视觉信号和文档聚类中的几种源分解应用。

然而，从使用 NMF 的图像信号分解的角度来看，标准 NMF 技术仅适用于处理一般数字灰度或彩色图像，而不适用于二进制图像。

一般来说，汉字通常以黑白二元音呈现。因此，本文提出了一种新的 NMF 框架来分解以二进制图像（或矩阵）表示的汉字。

此外，我们通过将所提出的 NMF 技术应用于视觉秘密共享（信息安全中的一种视觉密码技术）来评估其性能，该技术安全地共享编码为部分汉字二进制图像的秘密消息。

1.3 Main contributions of this paper

本文的主要创新和贡献有三个方面：

-（a）据我们所知，我们是第一个提出自动汉字分解框架的人，该框架将字符分解为图形组件，而不需要事先了解汉字组件或笔画的语义或语音特性； -（b）为了实现这一目标，我们提出了一种新的 NMF 框架，将二进制图像分解为两个矩阵，同时迫使两个矩阵的所有元素尽可能接近 0 或 1； -（c）我们成功地将基于 NMF 的汉字分解技术应用于视觉秘密共享，以安全地传输由汉字的二进制图像编码的秘密消息。

2 Standard non-negative matrix factorization algorithm

**非负矩阵分解（NMF）**技术已被证明对多元数据的分解是有用的，其中“非负性”是矩阵分解能够学习数据的基于部分的表示的有用约束。学习的非负基向量用于分布式或稀疏组合，以在数据重建中产生表现力。NMF 的基本问题可以形式化描述如下。

给定大小为 $n\times m$ 的非负矩阵 $V$ ，目标是找到两个非负矩阵因子，大小为 $n\times r$ 的 $W$ 和大小为 $r\times m$ 的 $H$ ，使得

$V\approx WH$

其中 $V$ 可以被视为由来自数据集的 $m$ 个数据向量（每个数据向量的维度为 $n$ ）组成的矩阵。项 $r$ 通常被选择为小于 $n$ 或 $m$ ，使得 $W$ 和 $H$ 这两个矩阵小于原始矩阵 $V$ 。基于等式：

$\min_{W\in\mathbf{R}^{n\times r},H\in\mathbf{R}^{r\times m}}\|V-WH\|_F^2,\text{subject to }W,H\geq0,$

$V$ 的每个数据向量（列） $V$ 由 $W$ 的列的线性组合近似，该线性组合由 $H$ 的相应列 $H$ 的分量加权。也就是说， $W$ 可以被视为包含针对 $V$ 中的数据的线性近似而优化的基。

下式定义的函数仅在 $W$ 或仅在 $H$ 中是凸的，因此，它在两个变量中都不是凸的。然而，已经发现，下面表达的“乘法更新规则”在解决问题的收敛速度和易实现性之间实现了良好的折衷。

For $k=1,2,...$

$\begin{aligned}H_{bj}^{k+1}&=H_{bj}^{k}\times\frac{\left(\left(W^{k}\right)^{\mathbf{T}}V\right)_{bj}}{\left(\left(W^{k}\right)^{\mathbf{T}}W^{k}H^{k}\right)_{bj}},\forall b,j,\end{aligned}$

$W_{ia}^{k+1}=W_{ia}^{k}\times\frac{\left(V\left(H^{k+1}\right)^{\mathrm{T}}\right)_{ia}}{\left(W^{k}H^{k+1}\left(H^{k+1}\right)^{\mathrm{T}}\right)_{ia}},\forall i,a,$

其中 $k$ 表示迭代次数， $i, a, b, j$ 表示矩阵索引。非负性的约束允许对图像形式中的基本元素进行解释。

3 Proposed novel non-negative matrix factorization algorithm

为了扩展标准 NMF 以处理二进制图像（存储为二进制矩阵），我们建议强制两个因子分解矩阵（例如， $W$ 和 $H$ ）的所有元素尽可能接近 0 或 1。类似于等式中定义的基本 NMF 问题。1，给定大小为 $n\times m$ 的非负矩阵 $V$ ，我们的目标是找到两个非负矩阵因子，大小为 $n\times r$ 的 $W$ 和大小为 $r\times m$ 的 $H$ ，使得 $V\approx WH$ ，并且 $W$ 和 $H$ 中的所有元素都约为 0 或 1。我们首先将目标函数定义为：

$\begin{aligned}\min_{W\in\mathbb{R}^{n\times r},H\in\mathbb{R}^{r\times m}}\mathcal{L}(W,H)&=\frac12\sum_{i=1}^n\sum_{j=1}^m\left[V_{ij}-(WH)_{ij}\right]^2,\\\\s.t.\quad W_{ia}^2-W_{ia}&\approx0\mathrm{~and~}H_{bj}^2-H_{bj}\approx0,\forall i,a,b,j,\end{aligned}$

为了实现所提出的想法，我们引入了两个惩罚项（具有两个参数， $\lambda_1$ 和 $\lambda_2$ ），以将每个 $W_{ia}$ 或 $H_{bj}$ 之间的接近度增加到 0 或 1，如