站长之家()4月8日消息:近日,来自香港中文大学-商汤科技联合实验室等机构的研究者们提出了FouriScale,旨在通过一种全新方法实现生成图像的尺寸和分辨率自由。
扩散模型因其卓越的性能,已逐渐超越GAN和自回归模型,成为生成式模型的主流选择。这些模型通常在特定分辨率下进行训练,以确保在现有硬件上实现高效处理和稳定的模型训练。然而,当这些预训练的扩散模型在超出训练分辨率时生成图像,常会出现模式重复和人工伪影问题。
项目地址:
论文地址:
为了解决这一问题,研究者们深入研究了扩散模型中常用的UNet结构的卷积层,并从频域分析的角度提出了FouriScale。
该方法通过引入空洞卷积操作和低通滤波操作来替换预训练扩散模型中的原始卷积层,旨在实现不同分辨率下的结构和尺度一致性。配合“填充然后裁剪”策略,FouriScale能够灵活生成不同尺寸和长宽比的图像。此外,该方法无需任何离线预计算,具有良好的兼容性和可扩展性。
FouriScale的核心在于空洞卷积和低通滤波的结合。空洞卷积保证了跨分辨率下的结构一致性,而低通滤波则确保了尺度一致性,过滤掉高频分量,去除空间下采样后的频率混叠问题。
此外,FouriScale还能够适应于任意尺寸的图像生成,通过“填充然后裁剪”的方式,以及将FouriScale作为引导,保证了图像质量。
实验结果表明,FouriScale在利用预训练扩散模型生成高分辨率图像方面取得了显著提升。作者测试了三个文生图模型(包括,和),生成四种更高分辨率的图像。
在Laion-5B上随机采样的图文对测试结果显示,他们的方法在各个预训练模型,不同分辨率下都获得了最优的结果。定性试验结果也显示,该方法能够保证图像生成质量与一致的结构。
FouriScale的提出,为增强预训练扩散模型生成高分辨率图像的能力提供了新的思路。通过空洞卷积和低通滤波操作改善了不同分辨率下的结构和尺度一致性,解决了重复模式和结构失真等关键挑战。
采用“填充然后裁剪”策略并利用FouriScale作为指导,增强了文本到图像生成的灵活性和生成质量,同时适应了不同的长宽比生成。定量和定性的实验对比表明,FouriScale能够在不同预训练模型,不同分辨率下都能够保证更高的图像生成质量。
太酷了!满满“黑科技”助力金山这些企业腾飞
近年来,金山区科委全力推进城市数字化转型工作,深入推动企业创新和转型升级,以数字化、智能化驱动企业高质量发展。构建防坠安全器全生命周期数智化工作流程在以往的印象中,制造型企业的生产车间里总是充满忙碌的工人和笨重的机器。然而在上海市建筑科学研究院科技发展有限公司建筑安全部件智能工厂内,诺大的厂房鲜见工...
日久光电:公司 ITO 导电膜的全球市场占有率排名全球第二,市场占有率约为30%
金融界11月28日消息,日久光电披露投资者关系活动记录表显示,公司是计算机、通信和其他电子设备制造业中触控显示应用材料行业的企业,围绕湿法精密涂布、精密贴合、真空磁控溅射镀膜三项核心技术,主要产品包括导电膜、光学膜、光学胶和配套原材料。公司ITO导电膜的全球市场占有率排名全球第二,市场占有率约为30...
铅酸电瓶的保养与充电
一、电瓶保养1.2~4轮低速电动在行驶过程中,要尽量保持匀速运动,避免突然加速和紧急刹车。上坡的速度保持最快速度的70~80%最佳,下坡自由滑行。2.车到家后要过30~60分钟电瓶凉了再充电。因停车后电瓶有热量还没散去,你若马上充电,加上充电化学反应的发热,更易损伤电瓶。3.同理,充满电后也要等30...
创元科技:洁净环保工程及设备和输变电高压瓷绝缘子为未来发展主要方向
金融界1月5日消息,创元科技披露投资者关系活动记录表显示,公司核心业务以制造业为主,主要从事洁净环保工程及设备、输变电高压瓷绝缘子、滚针轴承等产品的生产经营。公司拥有国家创新型试点企业、国家重点高新技术企业等全资、控股企业8家。目前,洁净环保设备及工程和输变电高压绝缘子为两大主业板块,将是公司未来发...