機(jī)器人能否像人類一樣感知時(shí)間?新研究使用強(qiáng)化學(xué)習(xí)賦予時(shí)間感知
首先,他們提出了一個(gè)稱之為KnowIT(knowledge informated temporal)VQA的視頻數(shù)據(jù)集。該數(shù)據(jù)集源自電視劇生活大爆炸(The Big Bang Theory),其中包含了眾多知識(shí)問(wèn)答。KnowIT擁有24000多個(gè)人工生成的問(wèn)答對(duì),并將視覺、文本和時(shí)間與基于知識(shí)的問(wèn)題相結(jié)合。其次,他們提出了一個(gè)視頻理解模型,將視頻的視覺和文本內(nèi)容與特定的節(jié)目知識(shí)結(jié)合起來(lái)。
他們發(fā)現(xiàn):
知識(shí)的結(jié)合為視頻中的VQA帶來(lái)了顯著改進(jìn);KnowIT VQA的性能仍然落后于人類的準(zhǔn)確性,這表明它對(duì)于研究當(dāng)前視頻建模的局限性是有所幫助的。
他們的工作表明了基于知識(shí)的模型在視頻理解問(wèn)題中的巨大潛力,這些模型將會(huì)為將自然語(yǔ)言處理(NLP)和圖像理解的進(jìn)步結(jié)合發(fā)揮重大作用。
該框架證明,視頻理解和基于知識(shí)的推理都是回答問(wèn)題所必需的。它能夠檢索并融合語(yǔ)言和視頻的時(shí)空域,以便對(duì)問(wèn)題進(jìn)行推理,從而來(lái)預(yù)測(cè)正確答案。
但相比于人類的表現(xiàn),(該框架)仍存在著很大差距。研究人員希望該數(shù)據(jù)集將有助于在該領(lǐng)域開發(fā)更魯棒的模型。
原文:
https://arxiv.org/abs/1910.10706v3
用強(qiáng)化學(xué)習(xí)教機(jī)器人感知時(shí)間
眾所周知,人類和動(dòng)物的大腦具有負(fù)責(zé)時(shí)間認(rèn)知的不同區(qū)域,而機(jī)器人則根據(jù)將時(shí)間視為外部實(shí)體(例如時(shí)鐘)的算法來(lái)執(zhí)行任務(wù)。是否有可能從生物學(xué)上激發(fā)時(shí)間感知機(jī)制,并在機(jī)器人中重現(xiàn)它們呢?
在這項(xiàng)工作中,研究人員觀察了大腦用來(lái)負(fù)責(zé)時(shí)間感知的計(jì)時(shí)機(jī)制。他們利用貝葉斯推斷得出的結(jié)果來(lái)預(yù)估數(shù)據(jù)的時(shí)間流逝,并利用TD學(xué)習(xí)特征表示來(lái)訓(xùn)練代理成功完成與時(shí)間相關(guān)的任務(wù)。由于選擇了代表時(shí)間的特征,他們表明,在這種情況下,他們能夠?yàn)榇硖峁┮环N類似人類和動(dòng)物所經(jīng)歷的時(shí)間流失的感知。
本文的主要貢獻(xiàn):
提出了一種從機(jī)器人傳感器收集環(huán)境數(shù)據(jù)的建模方法;在特定假設(shè)下,可以從數(shù)據(jù)中獲得正確的時(shí)間估算;成功將時(shí)間認(rèn)知機(jī)制應(yīng)用于強(qiáng)化學(xué)習(xí)問(wèn)題當(dāng)中;賦予機(jī)器人在與時(shí)間有關(guān)的任務(wù)中復(fù)制動(dòng)物行為的能力。
這項(xiàng)工作提出了一種為代理提供時(shí)間認(rèn)知的過(guò)程。對(duì)機(jī)器人來(lái)說(shuō),對(duì)于時(shí)間的感知能夠讓它們像人類一樣,在不同的環(huán)境和人物中學(xué)習(xí)適應(yīng)對(duì)話。該框架已被提議在未來(lái)在真正的機(jī)器人中實(shí)現(xiàn)。
原文:
https://arxiv.org/abs/1912.10113
Lite BERT:自監(jiān)督學(xué)習(xí)語(yǔ)言表示
在本文中,Google AI的研究人員設(shè)計(jì)了一種Lite BERT(ALBERT)架構(gòu),該架構(gòu)具有比傳統(tǒng)BERT少得多的參數(shù)。一個(gè)類似于BERT-large的ALBERT配置與前者相比,參數(shù)減少了18倍,并且訓(xùn)練速度提高了約1.7倍。
ALBERT集成了兩種參數(shù)歸約技術(shù):第一種技術(shù)是分解式嵌入?yún)?shù)化;第二種技術(shù)是跨層參數(shù)共享,它可以防止參數(shù)隨著網(wǎng)絡(luò)深度的增加而增長(zhǎng)。這兩種技術(shù)在不嚴(yán)重影響性能的前提下大大減少了BERT的參數(shù)數(shù)量,從而提高了參數(shù)效率。
參數(shù)歸約技術(shù)也可以作為正則化的一種形式,從而穩(wěn)定訓(xùn)練并有助于泛化。
為了進(jìn)一步提高ALBERT的性能,研究人員還引入了一種自監(jiān)督的損失來(lái)進(jìn)行句子順序預(yù)測(cè)。結(jié)果,他們能夠擴(kuò)展到更大的ALBERT配置,同時(shí)這些配置的參數(shù)仍然比BERT-large少,但性能卻明顯提高,從而在GLUE、SQuAD和RACE基準(zhǔn)上為自然語(yǔ)言理解建立了全新的結(jié)果。
ALBERT的成功證明了它在識(shí)別模型方面的重要性,因?yàn)樗谶@些方面產(chǎn)生了強(qiáng)大且適當(dāng)?shù)谋硎尽?/span>
通過(guò)集中精力改進(jìn)模型體系結(jié)構(gòu)的這些方面,這項(xiàng)研究表明了可以在廣泛的NLP任務(wù)上極大提高模型的效率與性能。為了促進(jìn)NLP領(lǐng)域的進(jìn)一步發(fā)展,研究人員已將ALBERT開源給研究界。
代碼與預(yù)訓(xùn)練模型:
https://github.com/google-research/google-research/tree/master/albert
原文:
https://ai.googleblog.com/2019/12/albert-lite-bert-for-self-supervised.html
有序還是無(wú)序?讓我們重新審視用于視頻的人物身份識(shí)別
基于視頻的人員身份“再識(shí)別”方法是近些年來(lái)計(jì)算機(jī)視覺領(lǐng)域中一個(gè)熱門研究方向,因?yàn)樗梢酝ㄟ^(guò)充分利用時(shí)空信息來(lái)達(dá)到更好的識(shí)別結(jié)果。
在本文中,研究人員提出了一種簡(jiǎn)單但十分驚艷的VPRe-id方法,他們將VPRe-id視為基于圖像的人員重新識(shí)別問(wèn)題的有效無(wú)序集合。
具體來(lái)說(shuō),研究人員們將一段視頻劃分為許多個(gè)單獨(dú)的圖像,然后對(duì)這些圖像中出現(xiàn)的人進(jìn)行識(shí)別和排序、并重新組合出最終結(jié)果。他們以i.i.d.假設(shè)為前提,提供了一個(gè)錯(cuò)誤邊界用于闡明改進(jìn)VPRe-id的方式。
這項(xiàng)工作還提出了一種很有前景的方,可以彌合視頻和人物信息重新識(shí)別結(jié)果之間的差距。研究人員們對(duì)這個(gè)差距進(jìn)行評(píng)估,證明了他們所提出的這一方案在多個(gè)數(shù)據(jù)集(包括iLIDS-VID、PRID 2011、和MARS)中都達(dá)到了業(yè)界領(lǐng)先的水平。
基于視頻的人物重新識(shí)別非常重要,因?yàn)樗谝曈X監(jiān)視和取證等領(lǐng)域有著廣泛應(yīng)用。這項(xiàng)工作通過(guò)將VPReid視為一個(gè)進(jìn)行無(wú)序整體排名的任務(wù),提出了一種簡(jiǎn)單而強(qiáng)大的人物重新識(shí)別的解決方案。其中,每個(gè)基本排名都由一個(gè)具有單個(gè)人員身份的標(biāo)識(shí)符來(lái)體現(xiàn)。
該解決方案通過(guò)使用RNN輸出在不同時(shí)間步長(zhǎng)上的時(shí)間池中的多個(gè)特征表示,學(xué)習(xí)了無(wú)序表示,研究人員認(rèn)為這對(duì)于VPRe-id更為重要。結(jié)果也證明了我們可以從不同角度解決VPRe-id這一事實(shí)。