站长之家()4月8日消息:近日,来自香港中文大学-商汤科技联合实验室等机构的研究者们提出了FouriScale,旨在通过一种全新方法实现生成图像的尺寸和分辨率自由。
扩散模型因其卓越的性能,已逐渐超越GAN和自回归模型,成为生成式模型的主流选择。这些模型通常在特定分辨率下进行训练,以确保在现有硬件上实现高效处理和稳定的模型训练。然而,当这些预训练的扩散模型在超出训练分辨率时生成图像,常会出现模式重复和人工伪影问题。
项目地址:
论文地址:
为了解决这一问题,研究者们深入研究了扩散模型中常用的UNet结构的卷积层,并从频域分析的角度提出了FouriScale。
该方法通过引入空洞卷积操作和低通滤波操作来替换预训练扩散模型中的原始卷积层,旨在实现不同分辨率下的结构和尺度一致性。配合“填充然后裁剪”策略,FouriScale能够灵活生成不同尺寸和长宽比的图像。此外,该方法无需任何离线预计算,具有良好的兼容性和可扩展性。
FouriScale的核心在于空洞卷积和低通滤波的结合。空洞卷积保证了跨分辨率下的结构一致性,而低通滤波则确保了尺度一致性,过滤掉高频分量,去除空间下采样后的频率混叠问题。
此外,FouriScale还能够适应于任意尺寸的图像生成,通过“填充然后裁剪”的方式,以及将FouriScale作为引导,保证了图像质量。
实验结果表明,FouriScale在利用预训练扩散模型生成高分辨率图像方面取得了显著提升。作者测试了三个文生图模型(包括,和),生成四种更高分辨率的图像。
在Laion-5B上随机采样的图文对测试结果显示,他们的方法在各个预训练模型,不同分辨率下都获得了最优的结果。定性试验结果也显示,该方法能够保证图像生成质量与一致的结构。
FouriScale的提出,为增强预训练扩散模型生成高分辨率图像的能力提供了新的思路。通过空洞卷积和低通滤波操作改善了不同分辨率下的结构和尺度一致性,解决了重复模式和结构失真等关键挑战。
采用“填充然后裁剪”策略并利用FouriScale作为指导,增强了文本到图像生成的灵活性和生成质量,同时适应了不同的长宽比生成。定量和定性的实验对比表明,FouriScale能够在不同预训练模型,不同分辨率下都能够保证更高的图像生成质量。
Prevent研发新型传感器,能精确测量头部撞击,帮助识别脑震荡
当运动员或士兵出现脑震荡时,最有效的做法是让他们离开赛场或退出行动,这样他们就可以快速恢复。然而对我们来说,与头部损伤有关的许多问题仍然是个谜,包括为什么一些撞击会导致脑震荡,而另一些则不会。但新的测量设备正在开发之中,它可能有助于提供大量有关头部撞击的信息。通过实时对佩戴者发出警告,提醒他们退出比...
中国接线端子行业发展研究与投资前景预测报告(2023-2030年)
一、概述及定义接线端子是为了方便导线的连接而应用的,它其实就是一段封在绝缘塑料里面的金属片,两端都有孔可以插入导线,有机械结构用于紧固或者松开,比如两根导线,有时需要连接,有时又需要断开,这时就可以用端子把它们连接起来,并且可以随时断开,而不必把它们焊接起来或者缠绕在一起,操作起来非常的方便快捷。在...
东方财富证券:给予金智科技买入评级
东方财富证券股份有限公司周旭辉近期对金智科技进行研究并发布了研究报告《2023年报一季报点评:业绩稳健向好,静待智慧能源增量显现》,本报告对金智科技给出买入评级,当前股价为8.87元。金智科技(002090)【投资要点】近期,公司发布2023年年报及2024年一季报,利润端增长明显。2023年,实现...
关注秋收丨力保收成 科技助力——我国东北粮食主产区秋收见闻
题:力保收成科技助力——我国东北粮食主产区秋收见闻东北三省是我国粮食主产区,粮食产量占全国逾五分之一。近年来,东北三省通过良种、良法、良机等相融合,提高作物单产,提升粮食品质。金秋时节,各地正加快秋收进度,确保粮食顺利归仓,希望的田野上处处洋溢着丰收的喜悦。黑龙江省五常市有着“中国优质稻米之乡”美誉...