站长之家()4月8日消息:近日,来自香港中文大学-商汤科技联合实验室等机构的研究者们提出了FouriScale,旨在通过一种全新方法实现生成图像的尺寸和分辨率自由。
扩散模型因其卓越的性能,已逐渐超越GAN和自回归模型,成为生成式模型的主流选择。这些模型通常在特定分辨率下进行训练,以确保在现有硬件上实现高效处理和稳定的模型训练。然而,当这些预训练的扩散模型在超出训练分辨率时生成图像,常会出现模式重复和人工伪影问题。
项目地址:
论文地址:
为了解决这一问题,研究者们深入研究了扩散模型中常用的UNet结构的卷积层,并从频域分析的角度提出了FouriScale。
该方法通过引入空洞卷积操作和低通滤波操作来替换预训练扩散模型中的原始卷积层,旨在实现不同分辨率下的结构和尺度一致性。配合“填充然后裁剪”策略,FouriScale能够灵活生成不同尺寸和长宽比的图像。此外,该方法无需任何离线预计算,具有良好的兼容性和可扩展性。
FouriScale的核心在于空洞卷积和低通滤波的结合。空洞卷积保证了跨分辨率下的结构一致性,而低通滤波则确保了尺度一致性,过滤掉高频分量,去除空间下采样后的频率混叠问题。
此外,FouriScale还能够适应于任意尺寸的图像生成,通过“填充然后裁剪”的方式,以及将FouriScale作为引导,保证了图像质量。
实验结果表明,FouriScale在利用预训练扩散模型生成高分辨率图像方面取得了显著提升。作者测试了三个文生图模型(包括,和),生成四种更高分辨率的图像。
在Laion-5B上随机采样的图文对测试结果显示,他们的方法在各个预训练模型,不同分辨率下都获得了最优的结果。定性试验结果也显示,该方法能够保证图像生成质量与一致的结构。
FouriScale的提出,为增强预训练扩散模型生成高分辨率图像的能力提供了新的思路。通过空洞卷积和低通滤波操作改善了不同分辨率下的结构和尺度一致性,解决了重复模式和结构失真等关键挑战。
采用“填充然后裁剪”策略并利用FouriScale作为指导,增强了文本到图像生成的灵活性和生成质量,同时适应了不同的长宽比生成。定量和定性的实验对比表明,FouriScale能够在不同预训练模型,不同分辨率下都能够保证更高的图像生成质量。
第四届中国创新挑战赛(西安)助力西安“硬科技之都”建设
10月31日,由科技部指导,科技部火炬中心、陕西省科技厅联合主办,西安市科技局承办的第四届中国创新挑战赛(西安)现场赛成功举办。来自全国的9支挑战团队针对3项技术难题展开“揭榜”和“比拼”,103个技术团队携解决方案与63个需求企业进行了面对面的竞争对接。科技部火炬中心主任贾敬敦、陕西省科学技术厅二...
三极管在电路中的作用
在上一篇福中我们了解半导体材料,在半导体材料组成的原件中有一个有一个使用频率非常高,作用也非常大,那就是三极管,可以说每个电子产品都少不了它。三极管全称半导体三极管,也称双极型晶体管、晶体三极管,在电路中主要起开关和放大电流的作用,按照半导体排列方式分为NPN和PNP两种。三极管给人直观感觉具有三个...
金晶科技2023年净利4.62亿同比增长29.75% 总经理孙成海薪酬71.47万
挖贝网4月19日,金晶科技(600586)近日发布2023年年度报告,报告期内公司实现营业收入7,969,707,420.35元,同比增长6.85%;归属于上市公司股东的净利润461,826,369.47元,同比增长29.75%。报告期内经营活动产生的现金流量净额为704,387,873.68元,归...
人教版九年级英语12~14单元知识点总结!
Unit12backpackn.背包;旅行包oversleepv.(overslept,overslept)睡过头givealift捎(某人)一程miss/mIs/v.错过;未得到unexpectedadj.出乎意料的;始料不及的block/blA:k/n.街区workern.工作者;工人stare...