導讀:英偉達表示,該公司新發(fā)布的 GauGAN2 演示是“第一個在單個 GAN 框架內(nèi)結合多種模式(文本、語義分割、草圖和樣式)”。
英偉達推出了其 GauGAN 模型的更新版本 GauGAN2。
GauGAN 是一個 Microsoft Paint 風格的平臺,可以讓用戶創(chuàng)建風景圖像,然后模型能夠?qū)⑺鼈冝D(zhuǎn)換為逼真的圖像。
新的 GauGAN2 可以僅使用文本生成圖像。
用戶可以輸入“冬天”、“有霧”或“彩虹”等短語,人工智能模型可以生成與所需描述符匹配的圖像。
“只需按一下按鈕,用戶就可以生成分割圖,這是一種顯示場景中物體位置的高級輪廓,”根據(jù) Nvidia 的公告。
“從那里,他們可以切換到繪圖,使用天空、樹木、巖石和河流等標簽通過粗略的草圖調(diào)整場景,讓智能畫筆將這些涂鴉融入令人驚嘆的圖像中?!?/p>
最初的 GauGAN 可以追溯到 2019 年。它是在 Flickr 平臺上的公共圖像上進行訓練的。
第一個版本只接受了超過 100 萬張圖片的訓練。然而,GauGAN2 接受了 10 倍的訓練,并且可以理解與景觀相關的自然語言描述。
GauGAN 的第一次迭代被重新打包為 Nvidia Canvas,這是一款適用于任何 RTX GPU 用戶的測試版免費應用程序。
英偉達表示,該公司新發(fā)布的 GauGAN2 演示是“第一個在單個 GAN 框架內(nèi)結合多種模式(文本、語義分割、草圖和樣式)”。
“這使得將藝術家的愿景變成高質(zhì)量的 AI 生成圖像變得更快、更容易。”
該公告沒有提及任何商業(yè)化計劃,也沒有提及它是否會與 Canvas 集成,并表示該演示“為藝術家展示了強大的圖像生成工具的未來可能性”。
英偉達的 GauGAN2 是在其最近的 GTC 活動中無數(shù)次揭幕后不久推出的。
在那里,它展示了 Jetson AGX Orin,一個用于 AI 工作負載的小而強大的計算模塊,Riva Custom Voice,一個可以創(chuàng)建“類人”語音的軟件平臺,以及 Omniverse Avatar,一個創(chuàng)建交互式 3D 表示的平臺人。
