Reconnaissances des objets dans la vidéo égocentrique

Transcription

Reconnaissances des objets dans la vidéo égocentrique
Reconnaissancesdesobjetsdanslavidéoégocentrique:aideaucontrôlede
neuro-prothèses
Encadrants:Pr.JennyBenois-Pineau,Pr.PascalDesbarats,équipeImageetSon
Encollaborationavecl’INCIA,Dr.AymardeRugy.
Dueaudéveloppementrapidedesdispositifsvidéodefaiblestailleetpoids,l’analysede
lavidéoégocentréeacquiseparlescamérasportéespardespersonnestrouveles
applicationsdansplusieurssecteursetnotammentlasanté[1].Lesproblèmes
classiquesd’analyse/reconnaissance/visionseposentpourcescontenuscomplexes[2].
Danslecadredustagemasterrecherchenousnousintéressonsàlareconnaissancedes
objetsd’intérêtàsaisirpardessujetsamputésportantsdesneuro-prothèsesdes
membressupérieurs.
Ledispositifducontrôlevisuelconsisteenoutilsdesuividuregardsurdeslunettes
(Tobii).Ilenregistrelavueégocentréedusujet.Danslapérioded’enregistrementqui
précèdel’actiondesaisie,cesdonnéestraduisentl’attentionvisuelleetl’intentiondu
sujet.Lescartesd’attentionvisuellesontcalculéesàpartirdecesdonnéesetindiquent
leszonesd’intérêtcomportantlesobjetsd’intérêt.L’outildereconnaissancedesobjets
d’intérêtestlacomposantecentraledusystèmedecontrôlehybrideVision–EMGqui
piloteralaprothèse.Unpremiersystèmedereconnaissancedesobjetsdanslavue
égocentréeaétéélaboréeauseinduLABRIdanslecadreduprojetPEPSCNRS-Idex
Suvippaveclelaboratoiredebio-physiquel’INCIA[3].Unearchitecturedesréseaux
profondscommedans[4]estàlabasedecetoutil.
Danslecadredustagemasterils’agitd’étendrelareconnaissancedesobjetsauxcorpus
naturelsécologiques,enregistrésavecdeslunettesTOBIIetdel’inscriredanslecadrede
l’apprentissageincrémental:eneffetlescatégoriesdesobjetssontrépétablesdansdes
scenarioségocentrésécologiques,maisleurformeetapparencechangent.Unoutilpreentrainédoitss’adapteràl’évolutiondel’environnement.
.
[1]S.KARAMAN,J.BENOIS-PINEAU,V.DOVGALECS,R.MÉGRET,J.PINQUIER,R.ANDRÉ-OBRECHT,
Y.GAËSTELANDJ.-F.DARTIGUES,”HierarchicalHiddenMarkovModelinDetectingActivitiesofDaily
LivinginWearableVideosforStudiesofDementia”,MultimediaToolsandApplications,69(3):743-771
(2014)
[2]V.BUSO.I.GONZALEZ-DIAZ.J.BENOIS-PINEAU,«Goal-orientedtop-downprobabilisticvisual
attentionmodelforrecognitionofmanipulatedobjectsinegocentricvideos»,SignalProcessing:Image
Communication,2015,doi:10.1016/j.image.2015.05.006
[3]PhilippePérezdeSanRoman,JennyBenois-Pineau,Jean-PhilippeDomenger,Florent
Paclet,DanielCataert,AymardeRugy,«SaliencyDrivenObjectrecognitioninegocentric
videoswithdeepCNN»,arXiv:1606.07256,submittedtoCVIU
[4]R.B.Girshick,J.Donahue,T.Darrell,J.Malik,Region-basedconvolutional
networksforaccurateobjectdetectionandsegmentation,IEEETrans.PatternAnal.Mach.Intell.38(1)
(2016)142{158.doi:10.1109/TPAMI.2015.2437384.URhttp://dx.doi.org/10.1109/TPAMI.2015.2437384
[5].https://www.labri.fr/projet/AIV/dossierSiteSuVIPP/presentationFr.php
Environnementdetravail:Tobii,C++,OpenCVLinux,Caffe
Objectrecognitioninegocentricvideo:assistancetoneuro-prostheseswearers
Tutors:Pr.JennyBenois-Pineau,Pr.PascalDesbarats,ImageandSonresearch
department
IncollaborationwithINCIA,Dr.AymardeRugy.
Duetotherapiddevelopmentofwearablevideoacquisitiondeviceswhicharelightand
low-weight,egocentricvideoanalysisbecomespopularinvariousapplicationdomains
includingHealth[1].Theclassicalproblemofanalysispatternrecognition,computer
visionariseonthesecomplexcontent.[2].Inthemasterinternshipprojectweare
interestedinrecognitionofobjectstograspwiththegoalofassistanceofamputees
wearingneuro-prosthesesofupperlimbs.
Thevisualcontrolset-upconsistsofaneye-trackerandascenecameramountedonthe
glasses(Tobii).Itrecordstheegocentricviewofthesubject.Duringthetimeframe
precedingthegraspingaction,thesedataexpressvisualattentionandintentionofthe
subject.Visualattentionmapsarecomputedwiththesedataanddelimittheregionsof
interest(ROI)comprisingtheobjects-of-interest(OI).OIrecognitiontollisthecentral
componentofahybridVision-EMGcontrolsystemwhichisbeingdesignedforthe
prosthesescontrol.
ThefristobjectrecognitionframeworkhasbeendevelopedinLABRIduringtheproject
PEPSCNRS-IdexSuvipptime-frame[5]togetherwithbio-physicalLabINCIA.
ADeepCNNarchitectureasin[4]isthebasisofthisframework.
Duringthemasterinternshipprojectweexpecttofurtherdeveloptheobjectrecognition
approachfocusingonthereal-lifeobjectsinthewild,thatisinanecologicalsituationfor
subjects.Butalsothenewmethodologyofincrementallearninghastobeimplemented,
indeedthecategoriesofobjectsintheeverydaylifescenariosarerepeatable,buttheir
shapesandappearanceschange.Apre-trainedrecognitiontoolneedstobeadaptableto
evolvingenvironment.
Workingenvironment:Tobii,C++,OpenCVLinux,Caffe
[1]S.KARAMAN,J.BENOIS-PINEAU,V.DOVGALECS,R.MÉGRET,J.PINQUIER,R.ANDRÉ-OBRECHT,
Y.GAËSTELANDJ.-F.DARTIGUES,”HierarchicalHiddenMarkovModelinDetectingActivitiesofDaily
LivinginWearableVideosforStudiesofDementia”,MultimediaToolsandApplications,69(3):743-771
(2014)
[2]V.BUSO.I.GONZALEZ-DIAZ.J.BENOIS-PINEAU,«Goal-orientedtop-downprobabilisticvisual
attentionmodelforrecognitionofmanipulatedobjectsinegocentricvideos»,SignalProcessing:Image
Communication,2015,doi:10.1016/j.image.2015.05.006
[3]PhilippePérezdeSanRoman,JennyBenois-Pineau,Jean-PhilippeDomenger,Florent
Paclet,DanielCataert,AymardeRugy,«SaliencyDrivenObjectrecognitioninegocentric
videoswithdeepCNN»,arXiv:1606.07256,submittedtoCVIU
[4]R.B.Girshick,J.Donahue,T.Darrell,J.Malik,Region-basedconvolutional
networksforaccurateobjectdetectionandsegmentation,IEEETrans.PatternAnal.Mach.Intell.38(1)
(2016)142{158.doi:10.1109/TPAMI.2015.2437384.URhttp://dx.doi.org/10.1109/TPAMI.2015.2437384
[5].https://www.labri.fr/projet/AIV/dossierSiteSuVIPP/presentationFr.php