芯片产业正推动3D NAND闪存的堆栈高度在未来几年内增加四倍,从200层增加到800层甚至更多,利用额外的容量将有助于满足对所有类型内存不断增长的需求。

这些额外的层将增加新的可靠性问题,带来许多渐进式的可靠性挑战,但NAND闪存产业近十年来一直在稳步增加堆栈高度。 2015年,东芝宣布推出首款使用硅穿孔 (TSV) 技术的16晶粒堆栈产品。这实现了更高的带宽、更低的延迟和更快的I/O,同时也为其他类型的内存和逻辑芯片的堆栈铺平了道路。

“最初,NAND是水平拓展的,”Lam Research蚀刻生产力和设备智能副总裁Tae Won Kim表示。 “但在10多年前,制造商意识到横向拓展本身并不具有成本效益,因此他们转向了垂直拓展。”

堆栈晶粒为显著提高密度和加快数据访问时间打开了大门。 “3D NAND的发展方向是迈向500到1,000层,”ACM Research总经理Mohan Bhan表示。 “但要实现这么多层数,不仅仅是延续目前的做法而已。”

传统制程的主要问题与高深宽比 (HAR) 蚀刻和沉积有关,需确保在所有这些层中保持一致且无空隙的连续导通。此外,信道高度的增加也对读取电流造成挑战,因为多晶硅信道的总阻抗增大。因此,一些开发者转向了使用混合键合的双芯片解决方案,但这些改进也只能解决部分问题。

“虽然尖端制造商一直在寻求增加层数,但层的额外缩放/堆栈受到蚀刻预算和图案化挑战等因素的限制,”Brewer Science业务发展经理Daniel Soden表示。

但达到1,000层的最快方法——也许是唯一的方法将是字符串堆栈。

业界也有其他方法来提高内存容量,而不必增加层数。 “NAND制造商不仅可以垂直拓展,还可以横向和逻辑拓展,”Lam的Kim表示。

逻辑缩放可增加单个Flash单元存储的位元数,而水平缩放则缩小单元间的间距。此外,研究人员还在尝试将列分成两部分,总体上加倍单元数量。这些创新将缩小单元间距,并在相同面积内存储更多数据。“缩小这种电荷捕捉结构的间距是一种提高设备电容密度的好方法,而无需进一步增加层数,”Brewer的Soden说。

另一个容量提升涉及将更多数据打包到单个单元中。在一个单元中存储多个位元并不是一个新想法。公司正在推出每个单元具有两个位元的MLC(多层单元)、TLC(三层单元)和QLC(四层单元)。开发人员现在正在接近每个单元五个等级(五级单元或PLC)。管理电荷状态(31级加上空)的微小差异的算法可能会更加复杂,纠错也是如此,因此性能可能会受到影响。

目前尚不清楚PLC是如何实现的以及陷阱氧化物的含量,一些研究表明浮栅(Floating Gate)可以制造更好的PLC单元。甚至还有关于HLC(六级单元)的研究,每个单元存储六个位元。然而,这仍在研究中。

SK海力士有一种将单元分成两个三位元半的方法,总共六个位元。并且已经在低温下试验了七位元单元,以减少噪音并提高读取保真度。

3D NAND堆栈的基本优势在于,通过单次光刻步骤即可实现数百层的堆栈。然而,这种做法的缺点是,随着高深宽比(HAR)接近100:1,钻孔变得更加困难。

有人可能会认为将每层变薄可以增加层数,而不会让堆栈过于高。“每层的厚度大约在150至100埃之间,”Bhan说道。然而,减薄字线层会导致其电阻增加,进而影响性能。一些研究人员正在探索用电阻较低的金属(如钌或钼)取代钨,但目前在产品开发中,各层的厚度仍保持不变。

挑战不仅在于蚀刻,添加层数的同时要维持良好的平整度也变得更加困难。过去或许可以容忍的小误差,现在会随堆栈高度的增加而累积,最终在堆栈顶部产生不可忽视的影响。

堆栈结构最初由交替的SiO2和Si3N4层组成,之后氮化硅会被移除并替换为闸极金属。随着堆栈层数的增多,保持层的均匀性成为重点。微小的误差虽可容忍,但这些误差往往会随着堆栈层数的增多而累积,因此每一代技术都需要更努力地改善平整度。

3D NAND堆栈中的平面度和均匀性差。数据源:ACM ResearcACM Research采用了一种在沉积过程中旋转芯片的技术以改善平整度。在沉积过程中,公司设备会定期将芯片提起并旋转180°,类似于美式足球比赛每一节更换方向。“沉积过程中对芯片的旋转需求,以及整个过程的均匀性将变得非常重要,”Bhan表示。

这一过程中,旋转夹具会将芯片从基座上抬起,旋转后再放回基座。基座是加热的,因此旋转必须迅速完成以保持芯片的温度。然而,由于基座是固定的,芯片无法在沉积过程中连续(缓慢)旋转。“我们定期旋转芯片,以确保沉积更均匀,”Bhan解释说。“我们已经取得了不少进展,将均匀性提高到1%以内。”

此外,该公司还通过控制沉积压力来补偿Si3N4的拉伸应力和SiO2的压缩应力。

随着堆栈层数的增加,潜在问题也会增加。“更高堆栈高度所产生的物理与热应力,可能对光刻及其他后续工艺带来更多挑战,”Brewer的Soden提到。

这一挑战在蚀刻过程中尤为明显。必须做到笔直且均匀的信道孔,可能因不同层的横向蚀刻速率差异、从顶部到底部的关键尺寸变化、不完全蚀刻,甚至柱体偏移而受到影响。

蚀刻信道孔也可能遇到随着堆栈变高而增加的挑战。数据源:ACM Research

蚀刻过程需要极高的均匀性,并需在生产效率不受损的情况下,平衡各种取舍。“如果我们真的想同时实现垂直与水平缩放,就必须不仅提高蚀刻速率,还要改善轮廓控制,”Lam的Kim表示。

有效的蚀刻需要硬式遮罩(Hard Mask)在堆栈顶部保持良好的图案转移性能。“目前正在研究更稳健的图案转移解决方案,例如更厚的硬式遮罩以及更具抗性的新材料,”Soden说道。“目前使用的主要材料是α碳(Alpha-Carbon,一种无定形碳品牌),它非常坚硬,通过化学气相沉积(CVD)制成。”Brewer Science推出了一种自认同样有效的新材料,并且可以旋涂,简化了制程。

“这种α碳的密度和硬度堪比钻石,非常适合蚀刻过程,”Soden表示。“用旋涂材料替代这种材料和工艺,可能带来更大的灵活性、更高的产能、更好的缝隙填充能力,还有其他有益于各种设备与行业的特性。”

蚀刻完成后,必须对信道进行清洁和干燥,这变得更加困难。“当你完成HAR蚀刻并抵达底部后,会在那里留下一些残留物,”ACM Research首席技术官Sally-Ann Henry说。“问题是,这是一个非常深的纵横比结构。我们的超声波解决方案可以帮助将液体送入所有缝隙,但如何将液体移出就是一个大问题。你可能可以进出水,但干燥是一个挑战。”

改善这些步骤的技术包括使用超声波搅动以鼓励清洁材料进入信道每一角落,以及使用超临界CO2干燥。在高温和高压下,CO2的超临界态结合了气体与液体的特性。辅助技术包括用异丙醇(IPA)稳定图案以及清洗后冲洗腔室。

当完全构建和填充时,每个数组列形成所谓的通心粉(Macaroni)结构:同心排列,外层为捕陷氧化层,其次是信道材料,最内层为惰性填充氧化层。捕陷氧化层是每个存储单元存储电荷的地方。信道则成为位线或串,将电流传递至位线接触点。而填充层的目的是使信道变窄,以改善闸极控制能力。

3D NAND的通心粉结构。电荷存储在陷阱氧化物中,信道形成位元线。填充物的目的只是缩小信道以改善栅极控制。数据源:Bryon Moyer/Semiconductor Engineering

信道本身通常由多晶硅制成,因为柱体中存在许多晶粒边界,会导致一定的电阻。虽然这种设计在目前的闪存时代运行良好,但随着堆栈高度的增加,维持读取电流至接触点变得更加困难。因此,一些公司已开发出生成单晶信道的方法。一种方法是从底部开始向上生长硅,另一种则是从顶部开始结晶多晶硅。

应用材料公司指出,过去曾实验性地使用选择性外衍生长来创建单晶信道。但为了在处理过程中保护CMOS的热预算,该生长是在810°C的条件下进行,导致生长速度过慢,不适合大规模制造。该公司现能在900至1,100°C的温度范围内实现超过400nm/min的生长速率。虽然这对传统3D NAND制程可能构成挑战,但一种新的提案技术使其成为可能——即在不同芯片上建造内存单元与逻辑电路,并将其通过混合键结结合在一起。

一种称为CMOS below(或under)array的配置(简称CBA/CUA),将单元数组放在一片芯片上,并将其余的CMOS电路放在另一片芯片上。这两者通过混合键结结合在一起。由于这种键结是面对面的,数组和阶梯结构现在变为上下颠倒,并且接触点可以变得更短,这本身就是一大优势。

CMOS below array配置。单元结构构建在一个芯片上,反转,然后混合键合到包含CMOS电路的芯片上,缩短连接并允许数组芯片采用更高温度的制程步骤。数据源:Bryon Moyer/Semiconductor Engineering

对于外衍生长(epi growth)的应用,此配置允许数组芯片在比CMOS更高的温度下进行外衍生长,进而提供了一种制作单晶信道的方法。然而,这导致的一项变化是填充氧化层消失,因为信道占据了圆柱体的整个中间区域。这样的改变带来了闸极控制的下降作为代价。因此,改良后的单晶信道性能必须产生足够大的正面影响,才能使这种权衡变得值得。

两片芯片的技术成本也高得多。不过,此技术的开发与外衍生长的努力是独立的,旨在释放数组芯片以进行其他不适合CMOS的处理。此外,这种技术需要两倍的芯片来生产相同数量的闪存芯片,这在成本、芯片需求及环境方面带来了挑战。

在这种应用中,数组所使用的载体芯片中的硅不会被消耗。所有有用的层都是沉积在该芯片的表面上。通常,将两片芯片键结后,会通过研磨或蚀刻将载体芯片移除,这不仅浪费硅,还增加了成本。目前正在努力研究哪些类型的技术可以修复回收芯片的表面,使其与新芯片一样有效。

另一种创建这类信道的方法不需要两片芯片。相反,信道如传统方式一样以多晶硅填充。然而,在退火之前,会在信道上沉积镍硅化物。在退火过程中,这些硅化物从顶部“浮动”到底部,沿途催化结晶化。当硅化物到达底部时,其上方的区域已成为单晶结构。硅化物会保留在底部,但位线接触点位于顶部,因此假设硅化物保持稳定的话,不应该会产生问题。

使用镍硅化物使信道结晶。该材料在退火过程中沿着信道向下迁移,沿途使多晶硅结晶。数据源:Bryon Moyer/Semiconductor Engineering

最后一种增加层数的方式,不仅在物理上,甚至当地缘政治上都提供了一种解决逐层挖深孔的缓慢进展的方法。上述提到的改进虽然有助于提升容量,但仍然有限。

“当层数达到250层以上时,这类解决方案可能已接近极限,”Soden指出。“分步式方法正在实施,将图案化和蚀刻制程分解为不同模块,以减少极端的高深宽比(HAR)蚀刻,并在层与层之间引入裸硅,通过通孔方式进行连接。”

这种方法有时称为“字符串叠层”(string stacking)。其概念是构建一组可管理的层数,然后不是将堆栈增高,而是通过在每组堆栈间加入一层硅来复制堆栈。这样的结果可以让堆栈总层数大幅增加,而不需要面对延长HAR问题。“这项解决方案推动许多公司长期目标达到1,000层,”Soden表示。

字符串堆栈。每组层都独立地经历正常的制程。堆栈独立的字符串允许更多层,而无需一步处理整个堆栈。权衡是需要多个步骤。数据源:Bryon Moyer/Semiconductor Engineering

这项工程上的解法使得可以在不一次处理所有层的情况下达到1,000层。例如,可以先处理250层,然后将四组这样的模块叠加在一起,中间加上硅层作为分隔。代价是需要进行四次光刻步骤,而不是一次,但这可能是可以接受的妥协。目前看来,没有人考虑用传统方法处理1,000层。

这个方法并非像听起来那么简单,因为第二层将被放置在第一层上,而不是在平整无瑕的芯片上。第三层则必须在第二层累积的任何不平整表面上运行。很可能每一层都需要单独的开发努力来确保足够的平坦性。

另一个挑战在于,每层中的字符串必须以某种方式相互联接形成一个长字符串。最简单的解法是将通孔放置于硅分隔层中,但如何精确对齐每一层并非显而易见——尤其是硅层会阻挡下方的柱状结构,无法直接看见。

从地缘政治的角度来看,出口规则限制堆栈超过128层的产品。因此,受限于这些规范的国家可以通过堆栈128层的模块来规避限制。例如,首次推出字符串叠层产品的YMTC,若要达到1,000层,可能会使用10组各100层的堆栈来实现。

NAND Flash的改进涉及许多不同部分。提升HAR制程的努力将持续进行,但这并非主要的改进方向。在理论上,PLC技术可以立即提供25%的容量提升。改变单元架构和减少间距也能进一步提升性能。

最大的变化来自于采用双芯片解决方案和字符串叠层这些主要的架构转变。这些技术可以与其他容量提升技术相结合。今天已经有同时具备这两项技术的产品面市,尽管尚未达到1,000层。为了实现普及化,降低CBA成本仍然是必要的,并且还需要努力将堆栈层数拓展到更多层。

目前主流配置的具体形态尚不明朗,但无论如何,更大容量的NAND Flash芯片正在来临,以满足业界对存储的无尽需求。