学习自蓝善祯老师团队已申请专利技术论文

(一)技术目的

使得虚拟人物发音的口型运动和真实发音规律相符,进而增强视频拟人化

(二)步骤概括

概括

流程图画法查询地址

图像处理得到唇部边界流程概括:

唇部分割流程

(三)唇部区域检测

1. 知识补充

为什么分成离线检测和在线检测:[自知乎]

不确定正确性

Online Training : 只能看到部分数据,需要从当前数据做出推测。(类似看答案做题?)

Offline Training : 手中有全部的训练数据,基于全局信息的决策过程,来训练自己的特征。(类似考试?)

2. 嘴唇感兴趣区域判断

上一步经过自带函数人脸检测后,由样本训练库得到脸部感兴趣区域的阈值。

唇部感兴趣区域

3. 颜色特征向量

(1)模型的选择 --- RGB to HSV

RGB : 各个分量包含了光强的分布。例如:(255, 250, 250)

HSV:H : 红色 --> 绿色变化的颜色特征 (不受到光线影响)

S : 颜色纯度

通过公式将RGB模型经过非线性变换成HSV模型(分别表示H,S,V)

(2)基于Fisher分类器的肤色分类

资料查阅地址

基本思想:将n类m维数据投到一个处,既可以实现降维,也能完成分类

【定义】将高维样本投影到具有最佳判别效果的低维矢量空间,使得降维样本在新的子空间内类间距离最大,而类内距离最小,即在该低维空间内有最大的可分性。

第一步:建立最佳投影向量

分类器

第二步:得到最佳投影向量后,计算分割阈值
这里的结果是将阈值设置在H∈[7,171]中效果较好,同时V!∈[0,15]。

第三步:得到二值化图像

b = Y >= yt ? 1 : 0;
# yt为阈值

(四)嘴唇边界确定

1. 整体思路

边界确定思路

2. 去除离散点

运算过程:3*3的内核-->排序num[9]取得中间值-->代替锚点-->删除离散噪点。
滤波的示意图

3. 膨胀处理

类似上述滤波,将内核与最大值相等。
作用:让前景物体变大一圈,连接断裂处。
资料查询地址

4. 确定边界

让每一个像素点带有flag参数。
从左上至右下:
像素从1变到0时,flag=1(为上边界,左边界)
像素从0变到1时,flag=0(为下边界,右边界)
边界中间的内部最大连通图则为嘴唇面积。

(五)视频编排

1. 确定特征

由于对口型符合与否的观察主要是上下唇的间距

这里的特征利用:上边缘和下边缘的高度差决定

2. 特征匹配

通过阈值D确定张开程度。

D = (H_top - H_bottom) / 5

得到6中张开程度,其余均为闭嘴状态。

3. 图像插值算法实现自动编排


这里找出前后帧的特征(颜色)---经过函数T---> 过度图像颜色序列。

原发布日期:2020-09-23 00:40
更改为:2020-11-04

Last modification:January 7th, 2021 at 09:18 pm
请赏我杯奶茶,让我快乐长肉