華為諾亞方舟實驗室、清華大學信息科技學院、大連理工、香港大學和Hugging Face的研究人員,共同發布了一款名為PIXART-δ的超高清文生圖模型。
這一模型集成了潛在一致性模型(LCM)和創新控制架構ControlNet-Transformer,實現了在文生圖像方面的重大技術突破。僅需0.5秒2-4個推理步驟,PIXART-δ就能完成圖像生成,速度比之前的PIXART-α模型快了7倍。
在ControlNet-Transformer的幫助下,PIXART-δ可以對生成模型的輸出進行精確控制,包括圖像的邊緣、深度、分割和對象姿勢等,類似于OpenAI的DALL·E 3。