【財(cái)新網(wǎng)】騰訊大模型團(tuán)隊(duì)發(fā)布首款開源模型。5月14日,騰訊混元大模型宣布推出15億參數(shù)的開源文生圖模型,該模型采用和OpenAI于2月發(fā)布的文生視頻模型Sora相同的DiT架構(gòu)。騰訊稱,采用了該架構(gòu)的文生圖模型較前一代視覺生成在語義理解、畫面質(zhì)感和真實(shí)性等方面較大提升,整體效果提升20%。
DiT(Diffusion with Transformer)可以簡單理解為將此前多用于文本的Transformer架構(gòu)和多用于多模態(tài)的Diffusion架構(gòu)相結(jié)合,可以實(shí)現(xiàn)更好的多模態(tài)理解能力,和更豐富的內(nèi)容生成。今年2月OpenAI率先發(fā)布了采用該架構(gòu)的文生視頻模型Sora,可生成長達(dá)1分鐘的視頻,由于其效果驚艷在業(yè)界引爆了文生視頻熱潮,國內(nèi)產(chǎn)業(yè)界也加快了將該架構(gòu)用于多模態(tài)模型能力的探索。(詳見《財(cái)新周刊|Sora再進(jìn)階》)