安妮發(fā)自凹非寺
量子位出品|公眾號
不用再害怕視頻剖析數(shù)據(jù)集視頻小、場景少和沒標(biāo)明的問題了,一個(gè)大規(guī)模視頻剖析數(shù)據(jù)集來了↓↓↓
如今,復(fù)旦學(xué)院和美圖開源了教程類行為視頻數(shù)據(jù)集COIN(video),內(nèi)含11827條教程類視頻,涉及日常生活12個(gè)領(lǐng)域里的180個(gè)任務(wù)的視頻內(nèi)容。
所謂教程類視頻,通常都集中在小吃、美妝和家居DIY等領(lǐng)域。例如,美妝博主教你化裝、美食博主教你做蛋糕,都屬于教程類視頻的范疇。
美圖表示,COIN為業(yè)界規(guī)模最大、最多樣性的教程類視頻數(shù)據(jù)集。
之后,在復(fù)雜場景下視頻動(dòng)作時(shí)序定位()、視頻行為剖析與理解問題的研究中,不妨試試這套資源。
目前,論文COIN:ALarge-scaleforVideo早已被CVPR2019接收。
△COIN數(shù)據(jù)集概覽
分層結(jié)構(gòu)
論文介紹說,現(xiàn)有教程類行為視頻數(shù)據(jù)集在規(guī)模性和多樣性都存在較大的局限性,無法應(yīng)用于現(xiàn)實(shí)中的復(fù)雜場景,而COIN數(shù)據(jù)集就不會(huì)出現(xiàn)這些難堪的情況。
據(jù)研究人員統(tǒng)計(jì)量子視頻,COIN中的視頻均來自,共包含180個(gè)任務(wù)的11827個(gè)視頻片斷,每段視頻平均長2.36分鐘,視頻總時(shí)長為476個(gè)小時(shí)。
不僅數(shù)據(jù)集,研究人員還開發(fā)出配套的工具箱,給每一條視頻都加上了有效注釋,描述了視頻中涉及的動(dòng)作和時(shí)間點(diǎn)。所以,除了數(shù)據(jù)量大,對數(shù)據(jù)的注釋也不少,共有46354個(gè)帶注釋的視頻段。
怎樣去組織如此多的數(shù)據(jù)?
研究人員表示,她們在COIN數(shù)據(jù)集中使用了“分層結(jié)構(gòu)”。將整個(gè)數(shù)據(jù)集分為3個(gè)層次,即領(lǐng)域()、任務(wù)(task)和步驟(step)。
△COIN數(shù)據(jù)集的分層結(jié)構(gòu)
在第一層(領(lǐng)域?qū)樱┭芯咳藛T主要將數(shù)據(jù)集根據(jù)場景將數(shù)據(jù)簡略歸納為12個(gè)領(lǐng)域,即護(hù)工和護(hù)理、車輛、休閑生活、小機(jī)械、電器、家庭、科學(xué)和手工、植物與獼猴桃、零食與啤酒、菜品、運(yùn)動(dòng)、家務(wù)。
第二層(任務(wù)層)中,上述各分類進(jìn)一步細(xì)化,精細(xì)到具體的目的。例如“更換燈泡”與“安裝風(fēng)扇”的二級分類都?xì)w屬與“電器”領(lǐng)域下。
到了第三層(步驟層),主要細(xì)化到了完成任務(wù)的具體動(dòng)作步驟,舉個(gè)反例,“移除燈座”、“取出舊燈泡”、“安裝新燈泡”與“安裝燈座”等步驟都被界定到“更換燈泡”任務(wù)下了。
一環(huán)連一環(huán),數(shù)據(jù)集中的層次結(jié)構(gòu)層層遞進(jìn)、逐步深入。
作者團(tuán)隊(duì)
論文的作者來自北大學(xué)院和美圖公司,一作為北大手動(dòng)化系的博士四年級在讀生Tang量子視頻,主攻計(jì)算機(jī)視覺方向,尤其是視頻動(dòng)作剖析。
△一作Tang
今年,Tang朋友作為一作的論文-forGroup還被ACMMM18會(huì)議接收,被評為口頭報(bào)告論文。
復(fù)旦學(xué)院手動(dòng)化系的fú、YuZheng、Zhang、魯繼文和周杰也參與了研究。
據(jù)悉,論文二作丁大鈞來自美圖社交產(chǎn)品事業(yè)群視覺算法組。在平日的工作中,美圖視覺算法組通過深度學(xué)習(xí)算法,理解圖象和視頻內(nèi)容中的語義信息,給社區(qū)中推薦、搜索、反作弊和垃圾過濾等功能提供技術(shù)支持。
傳送門
論文地址:
項(xiàng)目主頁:
地址:
—完—
真摯急聘
量子位正在招募編輯/記者,工作地點(diǎn)在上海中關(guān)村。期盼有才華、有熱情的朋友加入我們!相關(guān)細(xì)節(jié),請?jiān)诹孔游还娞?)對話界面,回復(fù)“招聘”兩個(gè)字。
量子位·頭條號簽約作者
?'?'?追蹤AI技術(shù)和產(chǎn)品新動(dòng)態(tài)