Навіны - OpenAI Point E: Стварыце трохмернае воблака кропак са складаных сігналаў за лічаныя хвіліны на адным графічным працэсары

У новым артыкуле Point-E: сістэма для стварэння 3D-воблакаў кропак са складаных сігналаў даследчая група OpenAI прадстаўляе Point E, сістэму ўмоўнага сінтэзу тэксту 3D-воблакаў кропак, якая выкарыстоўвае мадэлі дыфузіі для стварэння разнастайных і складаных 3D-фігур, якія кіруюцца складаным тэкстам. рэплікі.за некалькі хвілін на адным GPU.
Дзіўная прадукцыйнасць сучасных сучасных мадэляў генерацыі відарысаў стымулявала даследаванні ў генерацыі трохмерных тэкставых аб'ектаў.Аднак, у адрозненне ад 2D-мадэляў, якія могуць генераваць вывад за лічаныя хвіліны ці нават секунды, генератыўным мадэлям аб'ектаў звычайна патрабуецца некалькі гадзін працы графічнага працэсара для стварэння аднаго ўзору.
У новым артыкуле Point-E: сістэма для генерацыі 3D-воблакаў кропак са складаных сігналаў даследчая група OpenAI прадстаўляе Point·E, тэкставую сістэму ўмоўнага сінтэзу для 3D-воблакаў кропак.Гэты новы падыход выкарыстоўвае мадэль распаўсюджвання для стварэння разнастайных і складаных 3D-фігур са складаных тэкставых сігналаў усяго за адну-дзве хвіліны на адным графічным працэсары.
Каманда сканцэнтравана на праблеме пераўтварэння тэксту ў 3D, што вельмі важна для дэмакратызацыі стварэння 3D-кантэнту для рэальных прыкладанняў, пачынаючы ад віртуальнай рэальнасці і гульняў і заканчваючы прамысловым дызайнам.Існуючыя метады пераўтварэння тэксту ў 3D дзеляцца на дзве катэгорыі, кожная з якіх мае свае недахопы: 1) генератыўныя мадэлі могуць быць выкарыстаны для эфектыўнага стварэння ўзораў, але не могуць эфектыўна маштабавацца для разнастайных і складаных тэкставых сігналаў;2) папярэдне падрыхтаваная мадэль тэкст-малюнак для працы са складанымі і разнастайнымі тэкставымі сігналамі, але гэты падыход патрабуе вылічэнняў, і мадэль можа лёгка затрымацца ў лакальных мінімумах, якія не адпавядаюць значным або кагерэнтным 3D-аб'ектам.
Такім чынам, каманда вывучыла альтэрнатыўны падыход, які накіраваны на аб'яднанне моцных бакоў двух вышэйзгаданых падыходаў, выкарыстоўваючы мадэль распаўсюджвання тэксту ў малюнак, навучаную на вялікім наборы пар тэкст-малюнак (што дазваляе ёй апрацоўваць разнастайныя і складаныя сігналы) і мадэль распаўсюджвання 3D-малюнка, навучаная на меншым наборы пар тэкст-малюнак.набор даных пары выява-3D.Мадэль пераўтварэння тэксту ў малюнак спачатку робіць выбарку ўваходнага відарыса для стварэння адзінага сінтэтычнага прадстаўлення, а мадэль пераўтварэння відарыса ў 3D стварае 3D-воблака кропак на аснове абранага відарыса.
Генератыўны стэк каманды заснаваны на нядаўна прапанаваных генератыўных структурах для ўмоўнага стварэння малюнкаў з тэксту (Sohl-Dickstein et al., 2015; Song & Ermon, 2020b; Ho et al., 2020).У якасці мадэлі пераўтварэння тэксту ў відарыс яны выкарыстоўваюць мадэль GLIDE з 3 мільярдамі параметраў GLIDE (Nichol et al., 2021), наладжаную на адлюстраваных 3D-мадэлях, а ў якасці мадэлі - набор мадэляў дыфузіі, якія генеруюць аблокі кропак RGB. мадэль трансфармацыі.выявы да выявы.3d мадэлі.
У той час як у папярэдняй працы для апрацоўкі воблакаў кропак выкарыстоўваліся 3D-архітэктуры, даследчыкі выкарыстоўвалі простую мадэль на аснове пераўтваральніка (Vaswani et al., 2017) для павышэння эфектыўнасці.У іх архітэктуры дыфузійнай мадэлі відарысы воблака кропак спачатку падаюцца ў папярэдне падрыхтаваную мадэль ViT-L/14 CLIP, а затым выхадныя сеткі перадаюцца ў канвэртар у якасці маркераў.
У сваім эмпірычным даследаванні каманда параўнала прапанаваны метад Point·E з іншымі генератыўнымі 3D-мадэлямі па ацэнцы сігналаў ад выяўлення аб'ектаў COCO, сегментацыі і набораў дадзеных сігнатур.Вынікі пацвярджаюць, што Point·E здольны генераваць разнастайныя і складаныя 3D-фігуры са складаных тэкставых сігналаў і паскараць час вываду на адзін-два парадкі.Каманда спадзяецца, што іх праца натхніць на далейшыя даследаванні 3D-сінтэзу тэксту.
Папярэдне падрыхтаваная мадэль распаўсюджвання воблака кропак і код ацэнкі даступныя на GitHub праекта.Document Point-E: сістэма для стварэння 3D-воблакаў кропак са складаных падказак знаходзіцца на arXiv.
Мы ведаем, што вы не жадаеце прапусціць ніводнай навіны або навуковага адкрыцця.Падпішыцеся на нашу папулярную штотыднёвую рассылку Synced Global AI Weekly, каб атрымліваць штотыднёвыя абнаўленні AI.

Час публікацыі: 28 снежня 2022 г

OpenAI Point E: стварайце трохмернае воблака кропак са складаных сігналаў за лічаныя хвіліны на адным графічным працэсары