关键字 |
着丝粒,染色体,核型分析,对象坐标,遗传疾病 |
介绍 |
在细胞核中,DNA分子被捆绑成丝状结构,称为染色体。每条染色体都是由DNA组成的,DNA紧紧地卷曲在支持其结构的组蛋白周围。染色体在细胞核中是看不见的,即使在细胞不分裂的时候,在显微镜下也看不见。然而,组成染色体的DNA在细胞分裂过程中变得更加紧密,然后在显微镜下可见。研究人员对染色体的大部分了解都是通过观察细胞分裂过程中的染色体发现的。每条染色体都有一个称为着丝粒的收缩点,着丝粒将染色体分为两部分,即“臂”,如图1(a)[1]所示。染色体的短臂/上臂被标记为“p_arm”。染色体的长臂/小臂被标记为“q臂”。在人类中,每个细胞通常包含23对染色体,总共46对。其中22对被称为常染色体,在男性和女性中看起来相同。 The 23rd pair, the sex chromosomes, differs between males and females. The picture of the human chromosomes lined up in pairs is called karyotype as shown in fig 1(b) [1]. |
核型分析,一个经典的程序,面对人类染色体的图像诊断的目的,是一个长期存在的,但常见的技术在细胞遗传学。染色体分类过程自动化是设计自动核型系统的第一步,一些众所周知的遗传异常也与染色体缺陷相关。除了一些众所周知的遗传异常,如非整倍体(染色体数量不当),易位,缺失,一些致命的病理状况,如白血病也与染色体缺陷有关。这一核型分析过程通常由临床专家手动完成,他们查看图像,识别染色体,将其切割并放置在核型中指定的位置。尽管条带技术不断发展,但核型分析仍然是一个困难和耗时的过程,必须由有经验的操作员或细胞遗传学专家来完成。然而,自动染色体组型仍然被认为是一项艰巨的任务,主要是由于染色体的非刚性性质引起的形状变异性,使它们在图像中具有不可预测的外观。 |
一些几何和形态特征,如染色体的长度,最初被用于将它们划分为少数组。然后,运用一些简单的方法,如着丝粒的位置,特征带的位置和宽度,以及它们相对于着丝粒和/或彼此之间的相对位置,人类专家就可以有效地识别和识别每条染色体。许多已发表的算法试图通过检测染色体中心线的收缩来检测着丝粒的位置。派珀和格兰姆[2]通过沿着中心线拍摄第二个瞬间来解决这个问题。通过类似的方法,Wang等人使用这些垂直于染色体中心线的扫描线或格状结构来提取染色体[3]的形状轮廓、宽度轮廓(宽度测量值的集合)和条带模式。 |
在这个过程中,特征带的概念是非常重要的。根据本研究的调查,一个波段的重要程度主要由以下三个因素决定[6]: |
(1)频带宽度。 |
(2)带的强度。 |
(3)条带相对位置。 |
另据报道,自动化分类的研究大多基于自动定位着丝粒和Medial Axis Transformation (MAT)的投影向量法[4,5,6]。在实践中,由于染色体的形状可变性,使用MAT或其他形态操作(如对象细化)往往会产生较差的结果。在骨骼化过程中,这种变异往往会产生虚假的分支。Hassouna和Farag提出了一种方法,使用一种新颖的骨架化算法来获得3d对象的健壮骨架,该算法似乎包含内置的修剪能力[7],显然值得未来的研究。基于MAT算法的主要缺点是计算量大,不支持边界不规则的图像。投影向量法不适用于高度弯曲图像和端尖染色体图像。自动核型分析包括两个主要阶段:染色体的分割和分类。聚类人类男性染色体图像如图2所示。由细胞遗传学家手工完成的核型分析结果如图3所示。 |
该方法 |
所提出的算法如图4所示,采用对象坐标轮廓提取算法定位着丝粒并计算人类中期染色体的相对长度。 |
该算法在功能上可以分为以下七个任务 |
1)从显微镜输入图像。 |
2)图像预处理。 |
3)全变分正则化。 |
4)分割过程。 |
5)从文件夹中读取染色体。 |
6)矫直工艺。 |
7)二进制图像创建 |
8)目标坐标轮廓提取 |
9)每条染色体的着丝粒指数及相对长度制表; |
A.显微镜输入图像 |
染色体图像由显微镜和数码相机捕获,如图2所示。由于细胞培养、染色体形状、染色体染色、显微镜光照等原因,图中有的染色体不清楚,有的染色体重叠。因此,在生成二值图像之前,需要对图像进行处理。 |
B.图像预处理 |
图像预处理是对图像中的像素值进行修改和准备以供算法使用的过程。原始染色体中期细胞图片为RGB图像。这里通过(1)将RGB图像转换为灰度图像 |
Ig = 0.299R + 0.587G + 0.114B。(1) |
其中,G为灰度图像,R、G、B分别为红、绿、蓝分量。利用平均滤波器对图像中的噪声进行抑制。应用直方图均衡化来提高对比度和图像质量。最后,对每条染色体进行排列并保存以供进一步处理。 |
C.全变分正则化 |
在信号处理中,全变分去噪,也被称为全变分正则化,是一种最常用于数字图像处理的过程,它在噪声去除方面有很大的努力。它基于这样一个规律,即细节丰富且可能不真实的信号总变差较大,即信号不可破坏斜率的积分较大。根据这一原理,减少图像主体的总变化,使其与原始图像接近,在保留物体等重要细节的同时,去除不需要的点。这个概念是由Rudin等人提出的。在1992年[8]。这种去噪技术比简单的技术(如线性平滑或中值滤波)有优势,这些技术降低了噪声,但同时或多或少地平滑了物体。相比之下,全变差去噪在同时保留对象,同时平滑平坦区域的噪声方面非常有效,即使在低信噪比[9]下也是如此。 |
D.分割过程 |
图像分割是从背景中分割出感兴趣区域的过程。阈值分割技术是一种应用广泛的图像分割技术。这些技术通过在阈值处寻找矩阵中每个元素的灰度值(0-255)来分割对象,并使用大津算法将其更改为新的灰度值。在染色体分析中,分割过程是用来分割重叠和接触的染色体。由于它提供了重叠染色体的数量,因此用于检测数据集中的数值畸变。 |
E.从文件夹中读取染色体图像 |
如图5所示,在Labview软件工具的帮助下,可以读取整个图像文件夹,从而减少了处理时间。 |
最初,文件夹路径作为输入应用,它提供了该文件夹的起始路径。图像输入文件夹的结束路径可以借助条带路径函数检索。然后,列表文件夹函数为该文件夹中的所有图像提供数组路径。 |
F.矫直工艺 |
在中期弥散中,一些染色体不是直视的,这将使用所提出的算法提供最好的结果。为此,在将弯曲染色体作为目标坐标轮廓提取算法的输入之前,对其进行识别和矫直。利用像素重定位的概念,将弯曲染色体的区域变直。弯曲染色体的长度可以使用LabVIEW视觉助手计算。距离可以根据欧几里得距离来计算。长度和距离的计算如图6所示。弯曲的染色体可以用下面的[10]自动识别。表1显示了基于长度和距离的弯曲染色体分类。 |
重新定位像素后,曲线染色体如图7(a),7(b)所示。 |
G.二值图像阈值化 |
阈值分割是分割图像最简单的方法。对于灰度图像,使用阈值分割来创建二值图像。在阈值化过程中,如果图像中单个像素的值大于阈值(假设对象比背景更亮),则将其命名为“对象”像素,阈值通过手动或直方图计算确定,否则称为“背景”像素。此模式称为上述阈值。变体包括下面的阈值,与上面的阈值相反;如果一个像素的值在两个阈值和外部阈值之间,则该像素被标记为“对象”,而外部阈值与内部阈值相反。通常情况下,对象像素的值为“1”,而背景像素的值为“0”。最后,通过将每个像素涂成白色或黑色来创建二值图像,这取决于像素的标签。这里解释的细节是自动化的,包括软件实现的子VI读取图像文件夹。然后借助write express VI功能,将整个转换后的输入文件夹二进制图像自动写入新的文件夹路径。 |
h .目标坐标轮廓提取算法 |
最初,二进制图像的文件夹路径作为输入。根据强度值,将图像信息转换为像素值。根据图像信息固定的阈值检索对象坐标。从对象坐标配置文件(X,Y)中,分别检索垂直坐标(Y)。然后,通过计算垂直坐标数组(Y)中连续相同元素的总数(如式(2)所示),对垂直坐标数组(Y)中连续相同元素进行合并。目标坐标轮廓提取算法如图9所示。 |
实际上,这个算法是在矩阵中遍历行,其中对象坐标与检索到的连续相同元素存储在一起。即使图像有不规则的边界,这也为识别着丝粒位置提供了准确的结果。为了避免姐妹染色单体高的情况下,着丝粒位置的错误识别,在图像物体坐标的顶部和底部消除了近10%的巩固垂直坐标。 |
Nc =垂直坐标下连续相同元素的总数(2) |
从数控阵列中,最小距离对象被识别为着丝粒 |
着丝粒=min (Nc数组)。(3) |
Nc最小的垂直坐标(Y)被确定为着丝粒坐标。通过确定着丝点坐标(Yc), Y坐标(Ymax,Ymin)的最小值和最大值,计算出相对长度。 |
长度可计算为: |
|
实验结果 |
处理输出的可视化表示如图10所示。即使输入图像是RGB图像,通过RGB到灰度的转换方法,将输入图像作为灰度图像应用,如图10(a)所示。基于强度,灰度图像转换为二值图像如图10(b)所示。图10(c)显示了该物体的坐标,通过该物体可以完成该过程。对象坐标以矩阵格式存储。借助该矩阵,计算出每行坐标数,如图10(d)所示。由于避免姐妹染色单体的高度,因此很少有行坐标被淘汰,如图10(e)所示。在为每一行计算的坐标总数中,确定某一行为着丝粒行,其坐标总数最小。图10(f)为着丝粒位置,黄线指示。图10(g)显示了相对长度的计算方法。 |
通过物体坐标轮廓提取算法、最小宽度和相对长度计算,得到单个染色体图像的着丝点指数和两臂长度。不同图像对应的结果如表2所示。在LabVIEW软件工具的帮助下,整个过程是自动化的,对一个包含近46条染色体的数据集的处理时间为7秒。由于目标坐标是在目标的每个点上计算的,因此该算法也为弯曲染色体提供了最好的结果。 |
结论 |
染色体自动分类是细胞遗传学中的一项重要任务。为了进行临床和癌症细胞遗传学研究,人们已经做了许多尝试来表征染色体。本文提出了一种利用LabVIEW自动查找着丝粒位置和计算相对长度的有效算法。由于矫直过程,与投影矢量法、中轴变换法和骨架化算法相比,使用该算法可以获得着丝粒的准确位置和两条臂的准确长度。该方法还降低了计算复杂度。在我之前的工作中,我使用了边缘坐标轮廓提取算法,其中顶部和底部的姐妹染色单体消除不正确。该算法对所有类型的人类染色体图像也表现良好,误差最小。由于在图像的顶部和底部几乎没有连续的相同元素被消除,因此该算法对姐妹染色单体程度高的染色体和端尖型染色体都有较好的效果。通过这种分析,这项工作可以扩展到识别染色体数量和结构的畸变,通过这些畸变,可以识别特定的疾病,如癌症,唐氏综合症。 |
表格一览 |
|
|
表1 |
表2 |
|
数字一览 |
|
|
|
|
|
图1 |
图2 |
图3 |
图4 |
图5 |
|
|
|
|
图6 |
图7 |
图8 |
图9 |
|
参考文献 |
- www.nature.com/scitab
- J. Piper和E. Granum,“条带染色体分类的全自动特征测量”,血细胞计数,第10卷,第242 - 255页,1989。
- 王晓霞,郑波,李淑娟,J. J. Mulvihill, Liu H.,“基于规则的着丝粒识别和中期染色体极性分配的计算机方案,”第一版。方法程序生物学。地中海。, vol. 89, pp. 33-42, 2008。
- 高兆宏,庄震辉*,王蔡培,“基于近似中轴相似度的染色体分类”,模式识别41 (2008),77 - 89,www.elsevier.com/locate/pr。
- Moradi, M., searehdan, s.k., Ghaffari, s.r., 2003。自动定位着丝粒在人类染色体图片。见:第16届IEEE计算机医疗系统研讨会论文集(CBMS ' 03) 1063-7125/03 $17.00©2003 IEEE。
- M. Moradi, S.K. Setarehdan,人类染色体自动分类的新特征:可行性研究,模式识别。27(1)(2006) 19-28。,www.elsevier.com/locate/patrec.
- M. S. Hassouna和A. A. Farag,“梯度向量流的变分曲线骨架”,IEEE反式。模式肛门。马赫。智能。,第31卷,no。12日,页。2257-2274, 2009年12月。
- 鲁丁,l.i.;Osher,美国;Fatemi, E.(1992)。“基于非线性全变分的噪声去除算法”。自然史D60: 259 - 268。
- 强,d;Chan T.(2003)。“全变分正则化的对象保持和尺度依赖性质”。逆问题19: s165 ~ s187
- S. Jahani和S. K. Setarehdan,“一种用于识别和矫正弯曲人类染色体图像的自动算法”,发表在《生物医学工程应用杂志》,《基础与通信》,世界科学出版社,DOI号:10.1142/S1016237212500469,已接受2012-05-13
- akilasbasinghearachchige, JagathSamarabandu, Joan H. M. Knoll,和Peter K. Rogan,强度“基于lapplacian的厚度测量用于检测人类中期染色体着丝粒位置”,生物医学工程学报,第60卷,no. 1。2013年7月7日。
|