清华大学集成电路学院作为第一署名单位在ISSCC 2023发表8篇论文

来源:清华大学集成电路学院 #ISSCC# #清华大学#
2w

2月19日至23日,第70届ISSCC(国际固态电路会议)在美国旧金山召开,清华大学集成电路学院作为第一署名单位在ISSCC 2023发表了8篇学术论文,所涉及研究内容包括存内计算视觉芯片、量子计算芯片、多模态Transform芯片、异步类脑芯片、可重构存内张量计算芯片、超宽带收发机、分频器、振荡器等。

ISSCC (International Solid-State Circuits Conference)国际固态电路会议始于1953年,是全球学术界和工业界公认的集成电路设计领域最高级别会议,被认为是“集成电路设计领域的奥林匹克大会”。ISSCC通常是各个时期国际上最尖端固态电路技术最先发表之地。每年吸引超过3000名来自世界各地工业界和学术界的参会者。2023年ISSCC共录用同行评审论文198篇,其中清华大学为第一署名单位的论文共入围13篇

存内计算视觉芯片CV-CIM

代价匹配算法需要精确计算图像间的相似度,已经被广泛应用于自动驾驶,机器人,AR/VR等领域,但由于其频繁的数据访存,导致其难以应用于低功耗场景中。集成电路学院魏少军、尹首一教授团队提出了采用存算一体范式的CV-CIM,将计算单元与SRAM存储单元完成合并,减少数据搬移。利用异或逻辑的自反性,结合律等,可重构为乘法,加法,减法,比较等多种基本算子。进一步经过数模混合存算单元的配合,实现包括L0/L1/L2在内的多种距离计算算法;并利用图像相似度,动态扩充计算数据稀疏度,扩展计算噪声容限,提升计算精度;通过增加行方向细粒度地址控制,列方向读写并行模式,大幅提升存算系统的利用率。考虑到模拟单元受PVT影响,增加Canary BIST单元保证计算系统鲁棒性。CV-CIM作为国际首款针对图像匹配的存算一体芯片,在28nm工艺上成功实现流片,峰值能效为1158TOPs/W,面积为0.387mm^2。

该工作以 “CV-CIM: A 28nm XOR-derived Similarity-aware Computation-In-Memory For Cost Volume Construction”为题发表在ISSCC2023。集成电路学院博士研究生岳志恒为论文第一作者,尹首一教授为通讯作者。

超导量子计算控制芯片

超导量子计算当下面临的最大挑战是难以实现量子比特及其控制系统的大规模集成,距离实现可纠错量子计算系统还有很遥远的距离。超低温CMOS芯片技术是解决这一瓶颈的有效途径之一。集成电路学院王志华、池保勇团队在前期大量CMOS元器件超低温特性建模研究的基础上,设计出目前具有最低功耗水平和最小芯片面积的双通道量子比特控制芯片。该芯片基于极化调制技术,在3.5K超低温环境下可以产生超导量子比特控制所需的XY通道任意包络脉冲信号和Z通道偏置信号,同时集成了片上本振、时钟、存储等电路,在国际上首次把单个量子比特控制能耗降低至 13.7mW。较IBM、PSTECH等最新研究,能耗水平降低40%以上。测试表明,该芯片可以在超低温环境下对超导量子比特实现有效控制。

该工作以“A Polar-Modulation Based Cryogenic Qubit State Controller in 28nm Bulk CMOS”为题发表在ISSCC2023。该芯片是国内首个公开报道的集成化量子比特控制芯片,具有集成度高、功耗低、面积小等显著特点,对于推进量子计算系统自主可控的集成化、小型化有关键支撑作用。论文第一作者为集成电路学院毕业生郭衍束博士,姜汉钧副教授、李铁夫副研究员为该项研究工作的主要负责人。

多模态Transform芯片

多模态Transformer是当下最流行的处理多种模态信号(视觉、文字、语音等)的AI模型之一,已广泛应用于视频问答、多语言图像检索等任务中。这类模型巨大的计算量、频繁的数据访问、独特的跨模态注意力机制对AI芯片设计造成诸多挑战。集成电路学院魏少军、尹首一教授团队提出国际首款基于可重构数字存算一体架构的多模态Transformer AI芯片MulTCIM。研究团队充分利用跨模态注意力机制中的计算冗余性,设计出综合利用attention-token-bit三个层次混合稀疏性的存算一体架构:1)使用注意力局部性调度器优化attention稀疏,提高存算单元利用率;2)采用模态自适应存算一体网络优化token稀疏,减少跨模态切换时的等待时间;3)利用位宽均衡存算一体单元优化bit稀疏,降低存算一体单元的计算延迟。MulTCIM芯片使用TSMC 28nm工艺成功流片,在典型多模态Transformer模型ViLBERT上仅产生2.24μJ/Token的能耗,相比于ISSCC2022上发表的Transformer芯片可获得5.91倍的能效提升。

该工作以“MulTCIM: A 28nm 2.24μJ/Token Attention-Token-Bit Hybrid Sparse Digital CIM-based Accelerator for Multimodal Transformers”为题发表在ISSCC2023。集成电路学院毕业生涂锋斌博士为论文第一作者,尹首一教授为论文通讯作者。

片上学习异步类脑芯片

异步电路是设计大规模类脑芯片的重要技术,但由于缺乏成熟EDA工具的支持,异步电路设计存在较大挑战。集成电路学院王志华、池保勇团队研发出国内首款具备片上学习能力的异步类脑芯片ANP-I,ANP-I芯片采用全异步电路技术,设计了能实现手势识别、关键词检测、图像分类等多类型任务的片上学习类脑芯片。该芯片实现了三层全连接网络,片上集成了522个神经元,517K个突触,每个突触的权重精度为8/10-bit。ANP-I芯片具有极低功耗的片上学习能力,针对不同的任务,芯片从随机权重开始进行训练,在保证92%以上准确率的前提下,每个样本的学习能耗低于100nJ。该性能使得边缘端智能芯片同时具备识别和学习能力成为可能,可应用于万物智联的边缘端多模态信息的智能处理。传统应用于边缘计算的智能芯片,由于片上学习的能耗代价过高,往往只支持识别过程。ANP-I芯片低能耗的片上学习能力可以很好的解决该问题,使得具有片上学习能力的边缘端智能芯片得到广泛的运用。例如在基于肌电臂环的手势识别展示中,通过片上学习,ANP-I芯片能学习到不同使用者特有的肌电信号特征,并且消除肌电臂环电极偏移带来的影响,极大程度提高基于肌电臂环的手势识别准确率以及实用程度。

以上工作以“ANP-I: A 28nm 1.5pJ/SOP Asynchronous Spiking Neural Network Processor Enabling Sub-0.1μJ/Sample On-Chip Learning for Edge-AI Applications”为题发表在ISSCC2023。集成电路学院博士研究生张吉霖为论文第一作者,陈虹研究员为通讯作者。

可重构存内张量计算芯片TensorCIM

Beyond-NN计算是面向通用智能场景的新型计算类型。不同于传统的处理图像、语音等规则数据结构的神经网络,Beyond-NN计算需要处理真实世界中的非规则数据结构,例如社交网络、知识图谱、推荐系统等。针对Beyond-NN在算力、访存、功能三方面的技术挑战,集成电路学院魏少军、尹首一教授团队提出国际首款基于可重构数字存算一体架构的多芯粒张量处理器TensorCIM:1)TensorCIM采用多芯粒系统对算力和存储容量进行扩展,在降低制造成本的同时,为不同规模的Beyond-NN场景提供可扩展的系统解决方案。2)TensorCIM通过数字存算一体架构大幅减少数据搬运,并支持高精度的浮点计算以保证准确度。3)TensorCIM将可重构技术与数字存算一体相结合,实现稀疏张量聚集和稀疏神经网络计算两种模式的动态切换,保持极高的计算资源利用率。TensorCIM芯片使用TSMC 28nm工艺成功流片,在图神经网络、推荐系统等典型Beyond-NN应用上验证,取得3.7nJ/Gather的稀疏张量聚集效率和8.3TFLOPS/W的稀疏FP32张量代数能效,相比同期浮点存算一体AI芯片能效提升5.6倍。

该工作以“TensorCIM: A 28nm 3.7nJ/Gather and 8.3TFLOPS/W FP32 Digital-CIM Tensor Processor for MCM-CIM-Based Beyond-NN Acceleration”为题发表在ISSCC2023。集成电路学院毕业生涂锋斌博士为论文第一作者,尹首一教授为论文通讯作者。

脉冲超宽带收发机芯片

该工作以“A Quadrature Uncertain-IF IR-UWB Transceiver with Twin-OOK Modulation”为题发表在ISSCC 2023。集成电路学院博士研究生汪博闻为论文第一作者,李宇根教授为通讯作者。

超低杂散真分数输出分频芯片

现代片上系统(SoC)集成了几个独立的片上时钟发生器,以满足不同模块的差异化设计需求,如微处理器、存储器、I/O接口和电源管理等。传统方案通常在SoC中使用多个锁相环(PLL)来提供各种频率输出,然而,这种方法导致相当大的硅面积、功率、成本和整体系统复杂性。真分数输出分频器(FOD)由多模分频器(MMD)、数字时间转换器(DTC)和数字控制器组成,已被证明是产生多个独立时钟的有效方法。然而,DTC特性对PVT敏感,任何增益失配/积分非线性(INL)都会产生较大的杂散,从而降低频谱纯度和时钟抖动。在PLL中广泛应用的传统DTC增益校准算法需要反馈路径来反映DTC增益失配,这禁止其在具有开环结构的FOD中使用。集成电路学院王志华、池保勇团队提出了一种具有辅助PLL(aux-PLL)的FOD,具备后台0/1/2阶DTC INL非线形校准能力。辅助PLL用作频域滤波器,自然跟踪输入时钟的载波频率。因此,不需要先验知识和前景校准。由于所提出的基于辅助PLL的0/1/2阶DTC INL校准算法,所提出的真分数输出分频器FOD实现了低于-80dBc的最坏情况杂散性能。

该工作以“A 10-to-300MHz Fractional Output Divider with -80dBc Worst-Case Fractional Spurs Using Auxiliary PLL-Based Background 0/1st/2nd-Order DTC INL Calibration”为题发表在ISSCC2023。集成电路学院博士研究生杨宇蒙为论文第一作者,邓伟副教授为通讯作者。

双核增强F类振荡器芯片

当前的5G和未来的6G高速移动互联网时代对移动和便携式设备中的本地振荡器(LO)的功耗、硅面积和相位噪声规范提出了更严格的要求,特别是在电池供电的移动电话、笔记本电脑和用于移动基站的无人机(UAV)中。在过去的几十年中,大量研究聚焦于提高RF和毫米波振荡器的功率效率,同时保持所需的相位噪声特性。集成电路学院王志华、池保勇团队提出了一种具有共模噪声自消除和隔离技术的11.5-14.3GHz双核Class-F VCO。在不占用额外面积的情况下,VDD和GND的注入噪声同时被固有地消除,并且从漏极到栅极的噪声路径被隔离。测量结果表明,所提出的共模噪声自消除和隔离VCO在与11.8GHz载波偏移1MHz时达到-119.2dBc/Hz相位噪声,换算为192.8dBc/Hz的FoM,该性能在已报道的工作频率范围相近的VCO研究中极具竞争力。

该工作以“A 11.5-to-14.3GHz 192.8dBc/Hz FoM at 1MHz offset Dual-core Enhanced Class-F VCO with Common-Mode-Noise Self-Cancellation and Isolation Technique”为题发表在ISSCC2023。集成电路学院博士研究生吴奇修为论文第一作者,邓伟副教授为通讯作者。



责编: 爱集微
来源:清华大学集成电路学院 #ISSCC# #清华大学#
THE END
关闭
加载

PDF 加载中...