First we try, then we trust

  博客园 :: 首页 :: 博问 :: 闪存 :: 新随笔 :: 联系 :: 订阅 订阅 :: 管理 ::

我做的《笔迹鉴别》是与文字无关的笔迹鉴别,简单的说就是你提供给我多个人手写的“一二三四”,然后再提供给我其中一个人写的“五六七八”,我就可以通过程序判断究竟是谁写的。待识别的文字与我手头掌握的文字资料可以是不同的汉字,这就是所谓的与文字无关的笔迹鉴别。当然仅仅提供四五个汉字是不行的,需要提前准备大量的笔迹素材才可以。

我主要采用“纹理识别”的方式进行笔迹鉴别,也就是将笔迹看作是某种纹理(就像布纹、木纹一样),纹理相同的就认为是笔迹相同。而目前纹理识别我使用的是“加窗傅立叶变换”Gabor变换,利用Gabor变换提取不同频率、不同方向的笔迹特征,最后使用KNN或SVM(支持向量机)对待测样本进行类别判别。

基本步骤如下:

** 笔迹图像预处理

1、 笔迹图像扫描
2、 去除稿纸中的分割线,转换成黑白二值图(目前使用PhotoShop实现)
3、 中值滤波,去除图片中的椒盐噪声(目前使用MatLab实现)
4、 倾斜校正(尽管可以使用一些现成的算法,但目前使用手工倾斜校正)

** 文字切分、纹理制作

5、 行切分、字切分(根据象素的统计信息进行切分,对于汉字中常见的左右结构以及偏旁部首等设计了偏旁部首合并策略,确保汉字的完整性。此部分自己编程实现)
6、 纹理图像的制作(对切分下来的汉字将文字长、宽归一化,制作纹理图像,自己编程实现)

** Gabor变换,提取纹理特征

7、 对纹理图像进行Gabor变换(自己编程实现。由于在时域进行二维离散卷积需要大量的运算时间,因此我通过二维傅立叶变换将其转换到频域求乘法,实验表明卷积求解效率提高了近50倍),提取纹理特征(一64维向量)。
8、 对Gabor变换产生的结果进行数据库存贮,以备将来识别使用(为了简便起见,我目前使用VFP,如果将来数据量再大的话,可以考虑使用SQL Server等数据库)。

** 对待测样本进行鉴别

9、 对待处理样本采用同样的处理方法提取纹理特征,然后使用KNN临近聚类的方法或SVM进行分类。(KNN自己编程实现,SVM使用现成的LibSVM。当然也有C#版的LibSVM可用来融入自己的程序中)

实验表明(我只采集了9个人的笔迹),识别率可以达到91.67%以上,采取某种措施后,9人笔迹鉴别的成功率可达到100%(目前由于笔迹采集有限,才达到100%,随着笔迹样本的增加,成功率可能有所下降)。

我会在随后的文章中将以上步骤中的关键技术和关键代码放上来供大家参考。
 

posted on 2006-02-03 16:31  吕震宇  阅读(14790)  评论(32编辑  收藏  举报