安妮發自凹非寺
量子位出品|公眾號
不用再害怕視頻剖析數據集視頻小、場景少和沒標明的問題了,一個大規模視頻剖析數據集來了↓↓↓
如今,復旦學院和美圖開源了教程類行為視頻數據集COIN(video),內含11827條教程類視頻,涉及日常生活12個領域里的180個任務的視頻內容。
所謂教程類視頻,通常都集中在小吃、美妝和家居DIY等領域。例如,美妝博主教你化裝、美食博主教你做蛋糕,都屬于教程類視頻的范疇。
美圖表示,COIN為業界規模最大、最多樣性的教程類視頻數據集。
之后,在復雜場景下視頻動作時序定位()、視頻行為剖析與理解問題的研究中,不妨試試這套資源。
目前,論文COIN:ALarge-scaleforVideo早已被CVPR2019接收。
△COIN數據集概覽
分層結構
論文介紹說,現有教程類行為視頻數據集在規模性和多樣性都存在較大的局限性,無法應用于現實中的復雜場景,而COIN數據集就不會出現這些難堪的情況。
據研究人員統計量子視頻,COIN中的視頻均來自,共包含180個任務的11827個視頻片斷,每段視頻平均長2.36分鐘,視頻總時長為476個小時。
不僅數據集,研究人員還開發出配套的工具箱,給每一條視頻都加上了有效注釋,描述了視頻中涉及的動作和時間點。所以,除了數據量大,對數據的注釋也不少,共有46354個帶注釋的視頻段。
怎樣去組織如此多的數據?
研究人員表示,她們在COIN數據集中使用了“分層結構”。將整個數據集分為3個層次,即領域()、任務(task)和步驟(step)。
△COIN數據集的分層結構
在第一層(領域層)研究人員主要將數據集根據場景將數據簡略歸納為12個領域,即護工和護理、車輛、休閑生活、小機械、電器、家庭、科學和手工、植物與獼猴桃、零食與啤酒、菜品、運動、家務。
第二層(任務層)中,上述各分類進一步細化,精細到具體的目的。例如“更換燈泡”與“安裝風扇”的二級分類都歸屬與“電器”領域下。
到了第三層(步驟層),主要細化到了完成任務的具體動作步驟,舉個反例,“移除燈座”、“取出舊燈泡”、“安裝新燈泡”與“安裝燈座”等步驟都被界定到“更換燈泡”任務下了。
一環連一環,數據集中的層次結構層層遞進、逐步深入。
作者團隊
論文的作者來自北大學院和美圖公司,一作為北大手動化系的博士四年級在讀生Tang量子視頻,主攻計算機視覺方向,尤其是視頻動作剖析。
△一作Tang
今年,Tang朋友作為一作的論文-forGroup還被ACMMM18會議接收,被評為口頭報告論文。
復旦學院手動化系的fú、YuZheng、Zhang、魯繼文和周杰也參與了研究。
據悉,論文二作丁大鈞來自美圖社交產品事業群視覺算法組。在平日的工作中,美圖視覺算法組通過深度學習算法,理解圖象和視頻內容中的語義信息,給社區中推薦、搜索、反作弊和垃圾過濾等功能提供技術支持。
傳送門
論文地址:
項目主頁:
地址:
—完—
真摯急聘
量子位正在招募編輯/記者,工作地點在上海中關村。期盼有才華、有熱情的朋友加入我們!相關細節,請在量子位公眾號()對話界面,回復“招聘”兩個字。
量子位·頭條號簽約作者
?'?'?追蹤AI技術和產品新動態