Phát hiện và nhận dạng đối tượng 3-D hỗ trợ sinh hoạt của người khiếm thị 3-D object detection and..

pdf 159 trang Phương Linh 03/04/2025 90
Bạn đang xem 30 trang mẫu của tài liệu "Phát hiện và nhận dạng đối tượng 3-D hỗ trợ sinh hoạt của người khiếm thị 3-D object detection and..", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

  • pdfluanvan_main_final.pdf
  • pdfluanvan_abstract_english.pdf
  • pdfluanvan_abstract_vietnamese.pdf
  • pdfThông tin đưa lên mạng.pdf
  • pdfTRÍCH YẾU LUẬN ÁN.pdf

Nội dung tài liệu: Phát hiện và nhận dạng đối tượng 3-D hỗ trợ sinh hoạt của người khiếm thị 3-D object detection and..

  1. BË GIO DÖC V€ €O T„O TR×ÍNG „I HÅC BCH KHOA H€ NËI L– V‹N HÒNG PHT HI›N V€ NHŠN D„NG ÈI T×ÑNG 3D HÉ TRÑ SINH HO„T CÕA NG×ÍI KHI˜M THÀ Ng nh: Khoa håc m¡y t½nh M¢ sè: 9480101 TÂM TT LUŠN N TI˜N Sž KHOA HÅC MY TNH H Nëi −2018
  2. Cæng tr¼nh ÷ñc ho n th nh t¤i: Tr÷íng ¤i håc B¡ch khoa H Nëi Ng÷íi h÷îng d¨n khoa håc: 1. TS. Vô H£i 2. PGS. TS. Nguy¹n Thà Thõy Ph£n bi»n 1: PGS.TS. L÷ìng Chi Mai Ph£n bi»n 2: PGS.TS. L¶ Thanh H Ph£n bi»n 3: PGS.TS. Nguy¹n Quang Hoan Luªn ¡n s³ ÷ñc b£o v» tr÷îc Hëi çng ¡nh gi¡ luªn ¡n ti¸n s¾ c§p Tr÷íng håp t¤i Tr÷íng ¤i håc B¡ch khoa H Nëi: V o hçi gií, ng y th¡ng n«m Câ thº t¼m hiºu luªn ¡n t¤i th÷ vi»n: 1. Th÷ vi»n T¤ Quang Bûu - Tr÷íng HBK H Nëi 2. Th÷ vi»n Quèc gia Vi»t Nam
  3. MÐ †U T½nh c§p thi¸t cõa luªn ¡n Ng÷íi Khi¸m Thà (NKT) th÷íng g°p nhi·u khâ kh«n trong cuëc sèng h ng ng y. Ng y nay, ¢ câ nhi·u h» thèng hé trñ cho NKT ¢ ÷ñc ph¡t triºn nh÷ dàch vö ành và ho°c ph¡t hi»n ch÷îng ng¤i vªt cõa (iNavBelt, GuideCane products Andreas et al. IROS, 2014; Rimon et al.,2016), nhªn d¤ng èi t÷ñng trong si¶u thà cõa (EyeRing Media MIT). Mët trong c¡c t¼nh huèng phê bi¸n nh§t trong cuëc sèng h ng ng y cõa NKT l c¦n (truy v§n) t¼m ki¸m v ành và c¡c èi t÷ñng trong nh v sau â c¦m n­m chóng (v½ dö: truy v§n c¡c èi t÷ñng phê bi¸n nh÷ chai, cèc c ph¶, lå, v.v). Tuy ¥y l c¡c ho¤t ëng ìn gi£n cõa ng÷íi b¼nh th÷íng nh÷ng â l cæng vi»c ¦y thû th¡ch vîi NKT. Qu¡ tr¼nh x¥y düng mët h» thèng hé trñ cho NKT, khæng ch¿ l x¡c ành và tr½ cõa èi t÷ñng m c¦n cung c§p th¶m c¡c thæng tin v· èi t÷ñng ÷ñc truy v§n (v½ dö: k½ch th÷îc cõa èi t÷ñng, tr¤ng th¡i cõa èi t÷ñng l ùng hay n¬m tr¶n b n, h÷îng an to n cho vi»c c¦m n­m). Chóng tæi xem x²t mët kàch b£n thüc t¸ m NKT th÷íng g°p trong cuëc sèng h ng ng y, nh÷ thº hi»n trong h¼nh 1. º t¼m ki¸m mët cèc uèng tr ho°c c ph¶, anh §y (cæ §y) v o trong nh b¸p v t¼m ki¸m trong mæi tr÷íng º c¦m n­m èi t÷ñng c¦n t¼m. Ng÷íi â t¤o truy v§n "Cèc c ph¶ ð ¥u?", "K½ch th÷îc cõa cèc l bao nhi¶u?", "Cèc l n¬m hay ùng tr¶n b n?". H» thèng trñ gióp c¦n cung c§p c¡c thæng tin cho NKT c¦m n­m c¡c èi t÷ñng v câ thº tr¡nh ÷ñc c¡c tai n¤n nh÷ bà bäng. M°c dò khi ph¡t hi»n, nhªn d¤ng èi t÷ñng 3-D tr¶n £nh 2-D v câ th¶m £nh ë s¥u ¢ ÷ñc tr¼nh b y trong (Bo et al. NIPS, 2010, Bo et al. CVPR, 2011, Bo et al. IROS, 2011), k¸t qu£ công ch¿ cung c§p ÷ñc thæng tin v· nh¢n cõa èi t÷ñng. Thæng tin m h» thèng thu thªp ÷ñc tø mæi tr÷íng l c¡c khung h¼nh (£nh) trong mæi tr÷íng cõa NKT, do â dú li»u c¡c èi t÷ñng tr¶n b n ch¿ l mët ph¦n câ thº nh¼n th§y cõa vªt thº nh÷ m°t tr÷îc cõa cèc, hëp ho°c tr¡i c¥y. Trong khi thæng tin m NKT c¦n l thæng tin v· và tr½, k½ch th÷îc v h÷îng º c¦m n­m mët c¡ch an to n. Do â, chóng tæi sû döng "÷îc l÷ñng c§u tróc h¼nh håc cõa èi t÷ñng 3-D" º ÷îc l÷ñng thæng tin cõa c¡c èi t÷ñng. Khi bi¸t èi t÷ñng ÷ñc truy v§n l mët cèc c ph¶, chóng th÷íng l h¼nh trö v n¬m tr¶n b n (m°t ph¯ng), h» thèng hé trñ câ thº gi£i quy¸t c¡c truy v§n b¬ng c¡ch ÷îc l÷ñng c§u tróc h¼nh håc cì b£n tø dú li»u ¡m m¥y iºm thu ÷ñc. Thæng tin bi¸t tr÷îc khi quan s¡t tø ngú c£nh thüc t¸ nh÷: cèc th÷íng ùng tr¶n b n, c¡c r ng buëc theo ngú c£nh nh÷ c¡c bùc t÷íng vuæng gâc vîi m°t ph¯ng b n; k½ch th÷îc v chi·u cao cõa èi t÷ñng ÷ñc truy v§n l giîi h¤n. C¡c thæng tin n y s³ l thæng tin câ gi¡ trà º c£i thi»n hi»u su§t cõa h» thèng. 1
  4. H¼nh 1: Minh håa mët ngú c£nh thüc: Mët NKT v o trong b¸p v °t ra truy v§n "C¡i cèc ð ¥u?". B¶n tr¡i thº hi»n c¡ch g­n Kinect tr¶n ngüc ng÷íi. B¶n ph£i thº hi»n h» thèng ÷ñc ph¡t triºn tr¶n Laptop. Chóng tæi nhªn th§y r¬ng c¡c èi t÷ñng truy v§n câ thº ÷ñc ành và thæng qua vi»c ìn gi£n hâa b¬ng c¡c c§u tróc h¼nh håc ìn gi£n: nh÷ c¡c m°t ph¯ng ÷ñc ph¥n o¤n (hëp), h¼nh trö (cèc c ph¶, lon soda), h¼nh c¦u (qu£ bâng, hoa qu£), h¼nh nân (ph¹u). V§n · n y khæng gi£i quy¸t ÷ñc b¬ng ph÷ìng ph¡p düa tr¶n håc tr¶n dú li»u 3-D v¼ h» thèng trñ gióp y¶u c¦u thíi gian t½nh to¡n nhanh v ìn gi£n hâa. Düa tr¶n nhúng þ t÷ðng n y, mët mæ h¼nh cho gi£i quy¸t v§n · "Ph¡t hi»n, nhªn d¤ng èi t÷ñng 3-D hé trñ ng÷íi khi¸m thà" ÷ñc · xu§t. Nâ bao gçm mët sè nhi»m vö bao gçm: (1) t¡ch c¡c èi t÷ñng truy v§n tø m°t ph¯ng b n sau khi ph¡t hi»n m°t ph¯ng b n v sû döng th¶m kÿ thuªt tåa ë; (2) ph¡t hi»n c¡c ùng vi¶n cõa èi t÷ñng quan t¥m sû döng c¡c °c tr÷ng tr¶n c¡c èi t÷ñng; v (3) ÷îc l÷ñng mët mæ h¼nh ¦y õ cõa èi t÷ñng ÷ñc truy v§n tø dú li»u ¡m m¥y iºm 3-D. Trong â nhi»m vö cuèi còng câ vai trá quan trång nh§t. Thay v¼ k¸t hñp c¡c mæ h¼nh 3-D th nh ph¦n cõa èi t÷ñng ÷ñc truy v§n th nh mæ h¼nh 3-D nh÷ c¡c ph÷ìng ph¡p düa tr¶n håc thæng th÷íng, nghi¶n cùu n y tªp trung v o vi»c x¥y düng mët mæ h¼nh h¼nh håc ìn gi£n cõa c¡c èi t÷ñng ÷ñc truy v§n tø c¡c ¡m m¥y iºm khæng câ c§u tróc ÷ñc thu thªp bði c£m bi¸n m u s­c v ë s¥u. Möc ti¶u cõa luªn ¡n Trong luªn ¡n, möc ti¶u cõa chóng tæi l · xu§t mët h» thèng b·n vúng cho vi»c ph¡t hi»n v nhªn d¤ng èi t÷ñng 3-D. ¥y l mët ph÷ìng thùc kh£ thi º ph¡t triºn mët ùng döng thüc t¸, mæ h¼nh ÷ñc · xu§t n¶n ìn gi£n, b·n vúng v th¥n thi»n vîi NKT. Tuy nhi¶n, c¦n l÷u þ r¬ng câ nhúng v§n · quan trång câ thº £nh h÷ðng ¸n hi»u su§t cõa h» thèng ÷ñc · xu§t. °c bi»t, mët sè v§n · c¦n gi£i quy¸t ÷ñc li»t k¶ nh÷ sau: (1) èi t÷ñng ÷ñc truy v§n trong mët c£nh phùc t¤p v tr÷íng hñp chóng câ thº bà che khu§t; (2) câ nhi¹u tø dú li»u thu thªp ÷ñc; v (3) thíi gian t½nh to¡n lîn khi h» thèng thüc hi»n tr¶n dú li»u ¡m m¥y iºm. M°c dò c¡c cæng tr¼nh nghi¶n cùu li¶n quan v· ph¡t hi»n v nhªn d¤ng èi t÷ñng 3-D ¢ cè g­ng gi£i quy¸t nhúng v§n · n y trong mët thíi gian d i nh÷ng v¨n cán nhúng tçn t¤i. Trong nghi¶n cùu n y, c¡c v§n · n¶u tr¶n khæng ÷ñc gi£i quy¸t ri¶ng r³. Thay v o â, chóng tæi 2
  5. H¼nh 2: Minh håa qu¡ tr¼nh ph¡t hi»n èi t÷ñng 3-D düa tr¶n truy v§n trong mæi tr÷íng trong nh . Mæ h¼nh èi t÷ñng ¦y õ l h¼nh trö m u xanh l¡ c¥y ÷îc l÷ñng tø ¡m m¥y iºm cõa cèc c ph¶ (c¡c iºm m u ä). ¢ · xu§t mët gi£i ph¡p thèng nh§t. º gi£ quy¸t ÷ñc nhúng v§n · n y, c¡c möc ti¶u cö thº l : - · xu§t mët h» thèng ho n ch¿nh hé trñ ph¡t hi»n èi t÷ñng 3-D düa tr¶n truy v§n cõa NKT vîi ë ch½nh x¡c cao. H¼nh 2 minh håa qu¡ tr¼nh ph¡t hi»n èi t÷ñng 3-D düa tr¶n truy v§n trong mæi tr÷íng trong nh . - Triºn khai mët ùng döng thüc º ành và v cung c§p thæng tin mæ t£ cõa èi t÷ñng hé trñ cho vi»c c¦m n­m c¡c èi t÷ñng cõa NKT. Ùng döng ÷ñc ¡nh gi¡ trong c¡c t¼nh huèng thüc t¸ nh÷ pháng chia s´, dòng chung, nh b¸p, v.v. Ngú c£nh, r ng buëc, th¡ch thùc cõa luªn ¡n H¼nh 1 cho th§y ngú c£nh khi mët NKT ¸n mët pháng cafe v sû döng mët h» thèng hé trñ º ành và mët vªt thº tr¶n b n. ¦u v o cõa h» thèng l mët truy v§n v ¦u ra l và tr½ èi t÷ñng trong khæng gian 3-D v thæng tin cõa èi t÷ñng (k½ch th÷îc, chi·u cao). H» thèng ÷ñc · xu§t ho¤t ëng vîi c£m bi¸n Kinect MS phi¶n b£n 1. C£m bi¸n Kinect ÷ñc g­n tr¶n ngüc cõa NKT v m¡y t½nh x¡ch tay ÷ñc º trong ba læ nh÷ trong h¼nh 1 - d÷îi. Düa tr¶n ngú c£nh °t ra cõa h» thèng v dú li»u thu thªp, câ mët sè th¡ch thùc ÷ñc li»t k¶ nh÷ sau: ˆ Sü che khu§t v ph¥n cöm c¡c èi t÷ñng quan t¥m: Trong thüc t¸, khi mët NKT v o mët pháng cafe ho°c nh b¸p º t¼m mët vªt thº tr¶n b n, nhúng vªt thº ÷ñc truy v§n câ thº bà che khu§t mët ph¦n bði c¡c èi t÷ñng kh¡c. T¤i mët h÷îng nh¼n nh§t ành, mët c£m bi¸n MS Kinect ch¿ thu ÷ñc mët ph¦n cõa vªt thº. Do â, dú li»u cõa c¡c èi t÷ñng ÷ñc truy v§n bà thi¸u. T¼nh huèng kh¡c l dú li»u bao gçm nhi·u nhi¹u v¼ h¼nh £nh ë s¥u thu ÷ñc tø c£m bi¸n Kinect phi¶n b£n 1 th÷íng bà £nh h÷ðng bði i·u ki»n chi¸u s¡ng. Nhúng v§n · n y l nhúng th¡ch thùc cho vi»c ÷îc l÷ñng, ph¡t hi»n v ph¥n lo¤i c¡c èi t÷ñng tø mët ¡m m¥y iºm. ˆ C¡c èi t÷ñng kh¡c nhau nh÷ng câ còng c§u tróc h¼nh håc: H» thèng hé trñ cho 3
  6. NKT truy v§n c¡c èi t÷ñng thæng döng trong cuëc sèng h ng ng y. Thüc t¸ l cèc tr ho°c c ph¶ câ "m u xanh" ho°c "m u v ng", chai câ còng mët c§u tróc h¼nh håc cì b£n (mæ h¼nh h¼nh trö). Nhúng èi t÷ñng n y câ c§u tróc h¼nh håc gièng nhau nh÷ng câ m u s­c kh¡c nhau. Chóng tæi khai th¡c c¡c kÿ thuªt düa tr¶n håc m¡y º håc c¡c °c tr÷ng xu§t hi»n tr¶n èi t÷ñng (tr¶n h¼nh £nh RGB) º nhªn d¤ng c¡c èi t÷ñng truy v§n. ˆ Thíi gian t½nh to¡n: Mët ¡m m¥y iºm cõa mët c£nh ÷ñc t¤o ra tø mët h¼nh £nh vîi k½ch th÷îc 640 × 480 iºm £nh bao gçm h ng tr«m ngh¼n iºm. V¼ vªy, t½nh to¡n trong mæi tr÷íng 3-D th÷íng ái häi chi ph½ t½nh to¡n cao hìn khi thüc hi»n trong mæi tr÷íng 2-D r§t nhi·u. ˆ ành ngh¾a c¡c tham sè theo kinh nghi»m: Trong luªn ¡n n y, mët sè tham sè ÷ñc x¡c ành tr÷îc. V½ dö: NKT câ chi·u cao ÷ñc x¡c ành tr÷îc v c¡c tham sè kh¡c ÷ñc chån ¡p döng cho c¡c r ng buëc theo ngú c£nh (v½ dö: k½ch th÷îc m°t ph¯ng b n trong c£nh, giîi h¤n chi·u cao cõa èi t÷ñng, v.v.). C¡c âng gâp cõa luªn ¡n Mët sè âng gâp ch½nh cõa luªn ¡n nh÷ sau: ˆ âng gâp 1: · xu§t mîi mët bë ÷îc l÷ñng b·n vúng ÷ñc gåi l (GCSAC - Sü çng thuªn cõa c¡c m¨u düa tr¶n r ng buëc h¼nh håc) º ÷îc l÷ñng c¡c c§u tróc h¼nh håc cì b£n tø ¡m m¥y iºm cõa c¡c èi t÷ñng. Thuªt to¡n ÷îc l÷ñng ÷ñc · xu§t düa tr¶n thuªt to¡n RANSAC v l mët bi¸n thº cõa RANSAC. Nâ düa tr¶n r ng buëc h¼nh håc º chån 'm¨u tèt' cho ÷îc l÷ñng c¡c c§u tróc h¼nh håc cì b£n. Hìn núa, chóng tæi mð rëng GCSAC b¬ng c¡ch sû döng r ng buëc ngú c£nh º c£i thi»n k¸t qu£ ÷îc l÷ñng mæ h¼nh. ˆ âng gâp 2: · xu§t mët nghi¶n cùu so s¡nh tr¶n ba ph÷ìng thùc kh¡c nhau cho vi»c nhªn d¤ng èi t÷ñng 3-D trong c£nh phùc t¤p. K¸t qu£ l ph÷ìng thùc tèt nh§t l sü k¸t hñp cõa kÿ thuªt håc s¥u v bë ÷îc l÷ñng b·n vúng GCSAC. Ph÷ìng thùc n y ph¡t huy c¡c ÷u iºm cõa håc s¥u cho ph¡t hi»n èi t÷ñng tr¶n £nh m u v khai th¡c bë ÷îc l÷ñng b·n vúng º ÷îc l÷ñng mæ h¼nh ¦y õ cõa èi t÷ñng ÷ñc truy v§n tr¶n dú li»u ¡m m¥y iºm. ˆ âng gâp 3: Ph¡t tri·n th nh cæng h» thèng düa tr¶n ph÷ìng thùc · xu§t cho vi»c ph¡t hi»n c¡c èi t÷ñng 3-D câ c§u tróc h¼nh håc ìn gi£n trong mæi tr÷íng pháng th½ nghi»m. Ph÷ìng thùc n y l sü k¸t hñp cõa ph÷ìng thùc ph¡t hi»n m°t ph¯ng b n, ph÷ìng thùc ph¡t hi»n v ÷îc l÷ñng èi t÷ñng 3-D. Ph÷ìng thùc · xu§t ¢ ¤t ÷ñc möc ti¶u thíi gian t½nh to¡n nhanh trong vi»c ành và v mi¶u t£ èi t÷ñng. Nh÷ k¸t qu£ thº hi»n, h» thèng · xu§t câ thº sû döng º hé trñ cho NKT c¦m n­m c¡c èi t÷ñng truy v§n. 4
  7. C§u tróc cõa luªn ¡n Trong luªn ¡n, chóng tæi · xu§t mët ph÷ìng thùc thèng nh§t º ph¡t hi»n c¡c èi t÷ñng 3-D ÷ñc truy v§n ð tr¶n b n cõa NKT trong mæi tr÷íng trong nh . Mæ h¼nh · xu§t bao gçm ba giai o¤n ch½nh nh÷ minh håa trong h¼nh 3. Acceleration vector Pre-processing step Microsoft Point cloud Table plane Kinect representation detection RGB-D image Objects 3-D objects 3-D objects 3-D objects detection on location on the model information RGB image table plane estimation Candidates Fitting 3-D objects H¼nh 3: Mæ h¼nh têng thº cõa h» thèng ph¡t hi»n èi t÷ñng 3-D tr¶n m°t b n düa tr¶n truy v§n cõa ng÷íi khi¸m thà. Nëi dung cõa luªn ¡n gçm 6 ch÷ìng nh÷ sau: ˆ Giîi thi»u: Ch÷ìng n y mæ t£ sü c§p thi¸t v möc ti¶u ch½nh cõa nghi¶n cùu. Chóng tæi công tr¼nh b y bèi c£nh, khâ kh«n v th¡ch thùc cõa nghi¶n cùu. Nhúng y¸u tè n y câ thº ÷ñc c£i thi»n khi gi£i quy¸t c¡c v§n · li¶n quan trong luªn ¡n. Ngo i ra, mæ h¼nh · xu§t v nhúng âng gâp ch½nh trong luªn ¡n n y công ÷ñc tr¼nh b y. ˆ Ch÷ìng 1: Nghi¶n cùu li¶n quan: Ch÷ìng n y chõ y¸u kh£o s¡t c¡c h» thèng ho n ch¿nh hi»n câ trñ gióp cho NKT. °c bi»t, c¡c kÿ thuªt li¶n quan º x¥y düng mët h» thèng trñ gióp cho NKT ÷ñc th£o luªn. Chóng tæi công tr¼nh b y c¡c thuªt to¡n ÷îc l÷ñng v mët lo¤t c¡c kÿ thuªt cho ph¡t hi»n, nhªn d¤ng èi t÷ñng 3-D. ˆ Ch÷ìng 2: Trong ch÷ìng n y, thº hi»n c¡ch thùc thu thªp dú li»u tø c£m bi¸n MS Kinect, ph÷ìng ph¡p ph¡t hi»n m°t ph¯ng b n, ph¥n t¡ch m°t ph¯ng b n v c¡c èi t÷ñng quan t¥m. Düa tr¶n ph÷ìng thùc gi£m dú li»u º gi£m thíi gian xû lþ. Düa tr¶n nhúng r ng buëc cõa ngú c£nh, chóng tæi · xu§t ph÷ìng ph¡p ph¡t hi»n m°t ph¯ng b n mîi. ˆ Ch÷ìng 3: Ch÷ìng n y mæ t£ · xu§t mët bë ÷îc l÷ñng b·n vúng mîi º ÷îc l÷ñng c¡c c§u tróc h¼nh håc cì b£n tø dú li»u ¡m m¥y iºm cõa c¡c èi t÷ñng. Thuªt to¡n (GCSAC) sû döng c¡c r ng buëc h¼nh håc º chån c¡c m¨u tèt cho vi»c ÷îc l÷ñng c¡c mæ h¼nh. Sau â, chóng tæi ¢ sû döng c¡c r ng buëc ngú 5
  8. c£nh º c£i thi»n k¸t qu£ ÷îc l÷ñng. ˆ Ch÷ìng 4: Ch÷ìng n y · xu§t mët ph÷ìng thùc thèng nh§t cho vi»c ph¡t hi»n c¡c èi t÷ñng 3-D düa tr¶n truy v§n cõa NKT m khai th¡c hi»u n«ng cõa håc s¥u v thuªt to¡n ÷îc l÷ñng b·n vúng ¢ · xu§t º ÷îc l÷ñng mæ h¼nh ¦y õ cõa èi t÷ñng. Ph÷ìng thùc n y ÷ñc ¡nh gi¡ v so s¡nh vîi c¡c ph÷ìng ph¡p ti¶n ti¸n kh¡c. çng thíi mët ùng döng ho n ch¿nh cho vi»c ph¡t hi»n èi t÷ñng 3-D v cung c§p c¡c thæng tin trñ gióp c¦m n­m cho NKT công ÷ñc mæ t£, thi¸t lªp v ¡nh gi¡. ˆ Ch÷ìng 5: K¸t luªn v c¡c nghi¶n cùu trong t÷ìng lai: Chóng tæi k¸t luªn c¡c k¸t qu£ nghi¶n cùu v th£o luªn v· nhúng h¤n ch¸ cõa c¡c ph÷ìng thùc ÷ñc · xu§t. C¡c h÷îng nghi¶n cùu ti¸p theo ÷ñc mæ t£ trong t÷ìng lai. CH×ÌNG 1 CC NGHI–N CÙU LI–N QUAN Trong ch÷ìng n y, chóng tæi tr¼nh b y têng quan v· c¡c nghi¶n cùu li¶n quan cõa c¡c h» thèng trñ gióp cho NKT v c¡c ph÷ìng th÷c ph¡t hi»n èi t÷ñng trong mæi tr÷íng trong nh . ¦u ti¶n, c¡c h» thèng trñ gióp cho NKT ¢ ÷ñc · xu§t ÷ñc tr¼nh b y trong ph¦n 1.1. Sau â, c¡c bë ÷îc l÷ñng b·n vúng ¢ ÷ñc · xu§t v c¡c ùng döng cõa c¡c bë ÷îc l÷ñng trong thà gi¡c m¡y t½nh, cæng ngh» robot ÷ñc tr¼nh b y trong ph¦n 1.2. Cuèi còng, chóng tæi giîi thi»u v ph¥n t½ch c¡c cæng vi»c ¢ nghi¶n cùu tr÷îc ¥y v· ph¡t hi»n, nhªn d¤ng èi t÷ñng 3-D trong ph¦n 1.3. 6
  9. 1.1 C¡c h» thèng trñ gióp cho ng÷íi khi¸m thà 1.1.1 C¡c h» thèng trñ gióp ành h÷îng 1.1.2 C¡c h» thèng trñ gióp cho ph¡t hi»n vªt c£n 1.1.3 C¡c h» thæng trñ gióp cho ph¡t hi»n c¡c èi t÷ñng trong cuëc sèng h ng ng y 1.1.4 Th£o luªn 1.2 Sì l÷ñc v· c¡c thuªt to¡n ÷îc l÷ñng c¡c c§u tróc h¼nh håc 1.2.1 C¡c thuªt to¡n ÷îc l÷ñng tuy¸n t½nh 1.2.2 Thuªt to¡n RANSAC v c¡c bi¸n thº cõa nâ 1.3 Ph¡t hi»n nhªn d¤ng èi t÷ñng 3-D tø dú li»u ¡m m¥y iºm 1.3.1 H÷îng ti¸p cªn düa tr¶n sü xu§t hi»n èi t÷ñng 1.3.2 Ph÷ìng thùc düa tr¶n h¼nh håc 1.3.3 Th£o luªn CH×ÌNG 2 BIšU DI™N DÚ LI›U M M…Y IšM V€ — XU‡T PH×ÌNG PHP PHT HI›N MT B€N Mët thao t¡c thæng döng h ng ng y cõa NKT l t¼m ki¸m (truy v§n) mët èi t÷ñng nh÷ cèc cafe, chai n÷îc tr¶n mët m°t ph¯ng. Chóng tæi gi£ sû m°t ph¯ng â l m°t ph¯ng b n trong pháng dòng chung ho°c nh b¸p. º x¥y düng mët h» thèng hé trñ cho NKT th¼ c¡c èi t÷ñng quan t¥m cõa NKT n¶n ÷ñc t¡ch ra khäi m°t ph¯ng b n. Trong ph÷ìng thùc chung th¼ câ mët sè b÷îc nh÷ ph¡t hi»n v ÷îc l÷ñng mæ h¼nh ¦y õ cõa èi t÷ñng. Trong â ph¡t hi»n m°t ph¯ng b n ÷ñc coi nh÷ l mët b÷îc ti·n xû lþ. Ch÷ìng n y ÷ñc tê chùc nh÷ sau: Chóng tæi tr÷îc h¸t giîi thi»u v· biºu di¹n dú li»u ¡m m¥y iºm tø dú li»u £nh ë s¥u thu thªp tø c£m bi¸n Kinect trong Ph¦n 2.1. Ti¸p theo l · xu§t ph÷ìng thùc cho ph¡t hi»n m°t b n trong (Ph¦n 2.2). 2.1 Biºu di¹n dú li»u ¡m m¥y iºm 2.1.1 Thu thªp dú li»u b¬ng c£m bi¸n Kinect º thu thªp dú li»u cõa mæi tr÷íng cho vi»c x¥y düng h» thèng trñ gióp cho NKT cho ph¡t hi»n, c¦m n­m c¡c ç vªt câ c§u tróc h¼nh håc ìn gi£n tr¶n b n, chóng tæi 7
  10. sû döng c£m bi¸n Kinect phi¶n b£n 1. ƒnh m u v £nh ë s¥u thu ÷ñc tø c£m bi¸n Kinect. 2.1.2 Biºu di¹n dú li»u ¡m m¥y iºm K¸t qu£ cõa hi»u ch¿nh £nh m u v £nh ë s¥u l mët ma trªn bë tham sè trong Hm cho vi»c chi¸u c¡c iºm £nh trong 2-D sang khæng gian 3-D nh÷ sau: 2 3 fx 0 cx 6 7 Hm = 4 0 fy cy5 0 0 1 ð ¥y (cx; cy) l iºm t¥m cõa £nh, fx v fy l ti¶u cü cõa c£m bi¸n. 2.2 Ph÷ìng thùc · xu§t cho ph¡t hi»n m°t ph¯ng b n 2.2.1 Khði ¦u Ph¡t hi»n m°t b n trong ¡m m¥y iºm 3-D l nhi»m vö quan trång èi vîi nhi·u ùng döng cõa thà gi¡c m¡y t½nh v cæng ngh» robot. º gióp ng÷íi mò ho°c khi¸m thà t¼m v c¦m n­m c¡c ç vªt quan t¥m (v½ dö: cèc c ph¶, chai, b¡t) tr¶n b n, ng÷íi ta ph£i ph¡t hi»n m°t ph¯ng b n trong c£nh. Vi»c n y ÷ñc ph¡t triºn düa tr¶n dú li»u gia tèc ÷ñc cung c§p bði c£m bi¸n MS Kinect º gi£m c¡c ùng vi¶n l m°t b n ÷ñc ph¡t hi»n cho vi»c ph¡t hi»n c¡c ùng cû vi¶n m°t ph¯ng b n. 2.2.2 Nghi¶n cùu li¶n quan 2.2.3 Ph÷ìng thùc · xu§t 2.2.3.1 Mæ h¼nh · xu§t Bèi c£nh nghi¶n cùu cõa chóng tæi nh¬m möc ½ch ph¡t triºn mët h» thèng trñ gióp t¼m ki¸m v c¦m n­m c¡c èi t÷ñng cho NKT. Mæ h¼nh ÷ñc · xu§t cho vi»c ph¡t hi»n m°t ph¯ng b n, nh÷ trong H¼nh 2.6, bao gçm bèn b÷îc: gi£m dú li»u, biºu di¹n ¡m m¥y iºm câ c§u tróc, ph¥n o¤n m°t ph¯ng trong c£nh v ph¡t hi»n m°t ph¯ng b n. Do cæng vi»c cõa chóng tæi ch¿ sû döng c¡c °c tr÷ng cõa dú li»u ë s¥u, mët ph÷ìng ph¡p ìn gi£n, hi»u qu£ º gi£m v l m màn dú li»u ë s¥u ÷ñc mæ t£ d÷îi ¥y. Cho mët cûa sê tr÷ñt (k½ch th÷îc n × n iºm £nh), gi¡ trà ë s¥u cõa iºm £nh trung t¥m D(xc; yc) ÷ñc t½nh to¡n tø cæng thùc 2.2: PN D(x ; y ) D(x ; y ) = i=1 i i (2:2) c c N 8
  11. Acceleration vector Microsoft Kinect Organized Down Plane Plane Table Depth point cloud sampling segmentation classification plane representation H¼nh 2.6: Mæ h¼nh · xu§t cho ph¡t hi»n m°t ph¯ng b n. th ð ¥y D(xi; yi) l gi¡ trà ë s¥u cõa iºm i £nh l¡ng gi·ng cõa iºm £nh trung t¥m (xc; yc); N l sè iºm £nh l¡ng gi·ng vîi k½ch th÷îc n x n (N=(n x n) -1). 2.2.3.2 Ph¥n o¤n m°t ph¯ng Quy tr¼nh chi ti¸t cõa ph¥n o¤n m°t ph¯ng ÷ñc ÷a ra trong thuªt to¡n trong c¡ch ti¸p cªn cõa (Holz et al. RoboCup, 2011). 2.2.3.3 Ph¡t hi»n v tr½ch xu§t m°t b n K¸t qu£ cõa b÷îc ¦u ti¶n l nhúng m°t ph¯ng m vuæng gâc vîi vector gia tèc. Sau â, chóng tæi xoay tröc y cõa h» tröc tåa ë º nâ song song vîi vector gia tèc. Tø r ng buëc cõa ngú c£nh, m°t ph¯ng b n l m°t ph¯ng cao nh§t trong c£nh, i·u â câ ngh¾a l c¡c iºm thuëc m°t b n câ gi¡ trà y nhä nh§t. 2.2.4 Th½ nghi»m v c¡c k¸t qu£ 2.2.4.1 Thi¸t lªp th½ nghi»m v cì sð dú li»u thu thªp Cì sð dú li»u thù nh§t ÷ñc gåi l 'MICA3D': MS Kinect phi¶n b£n 1 ÷ñc g­n tr¶n ngüc cõa ng÷íi, ng÷íi â di chuyºn quanh mët chi¸c b n trong pháng. Kho£ng c¡ch giúa Kinect v t¥m cõa b n l kho£ng 1; 5 m. Chi·u cao cõa Kinect so vîi m°t ph¯ng b n kho£ng 0; 6m. Chi·u cao cõa m°t b n l kho£ng 60 − 80 cm. Chóng tæi thu thªp dú li»u cõa 10 c£nh kh¡c nhau trong pháng cafe, pháng tr÷ng b y v nh b¸p, v.v. Nhúng c£nh n y bao gçm c¡c bèi c£nh chung trong c¡c ho¤t ëng h ng ng y cõa NKT. Tªp dú li»u thù hai ÷ñc giîi thi»u trong (Richtsfeld et al. IROS, 2012). Tªp dú li»u n y chùa dú li»u m u v ë s¥u ÷ñc hi»u ch¿nh cõa 111 c£nh. Méi c£nh câ mët m°t ph¯ng b n. K½ch th÷îc cõa h¼nh £nh l 640 x 480 iºm £nh. 2.2.4.2 ¡nh gi¡ ph÷ìng thùc ph¡t hi»n m°t b n Chóng tæi sû döng ba ë o ¡nh gi¡ l c¦n thi¸t º £m b£o ¡nh gi¡ v· ë l»ch v· gâc, di»n t½ch cõa m°t b n ph¡t hi»n ÷ñc. Chóng ÷ñc ành ngh¾a nh÷ sau: ë o ¡nh gi¡ 1 (EM1): ë o n y ¡nh gi¡ sü kh¡c bi»t giúa vector ph¡p tuy¸n ÷ñc tr½ch xu§t tø m°t ph¯ng b n ÷ñc ph¡t hi»n v vector ph¡p tuy¸n ÷ñc tr½ch xu§t tø dú li»u gèc. 9
  12. B£ng 2.2: K¸t qu£ trung b¼nh cõa ph¡t hi»n m°t b n tr¶n dú li»u 'MICA3D' (%). ë o ¡nh gi¡ Khæng ph¡t Khung H÷îng ti¸p cªn EM1 EM2 EM3 Trung b¼nh hi»n h¼nh/s Ph÷ìng thùc 87.43 87.26 71.77 82.15 1.2 0.2 1 Ph÷ìng thùc 98.29 98.25 96.02 97.52 0.63 0.83 2 Ph÷ìng thùc 96.65 96.78 97.73 97.0 0.81 5 · xu§t B£ng 2.3: K¸t qu£ trung b¼nh cõa m°t b n ph¡t hi»n ÷ñc tr¶n dú li»u [3] (%). ë o ¡nh gi¡ Khæng ph¡t khung H÷îng ti¸p cªn EM1 EM2 EM3 Trung b¼nh hi»n h¼nh/s Ph÷ìng thùc 87.39 68.47 98.19 84.68 0.0 1.19 1 Ph÷ìng thùc 87.39 68.47 95.49 83.78 0.0 0.98 2 Ph÷ìng thùc 87.39 68.47 99.09 84.99 0.0 5.43 · xu§t ë o ¡nh gi¡ 2 (EM2): B¬ng c¡ch sû döng EM1, ch¿ câ mët iºm ÷ñc sû döng (iºm trung t¥m cõa dú li»u gèc) º ÷îc t½nh gâc. º gi£m £nh h÷ðng cõa nhi¹u, sû döng nhi·u iºm hìn º x¡c ành vectì ph¡p tuy¸n cõa dú li»u gèc ÷ñc sû döng. èi vîi EM2, 3 iºm (p1; p2; p3) ÷ñc chån ng¨u nhi¶n tø ¡m m¥y iºm gèc. ë o ¡nh gi¡ 3 (EM3): Hai ë o ¡nh gi¡ ÷ñc tr¼nh b y ð tr¶n khæng t½nh ¸n di»n t½ch m°t ph¯ng b n ÷ñc ph¡t hi»n. Do â, · xu§t EM3 ÷ñc düa tr¶n þ t÷ðng cõa ch¿ sè Jaccard º ph¡t hi»n èi t÷ñng. R \ R r = d g (2:6) Rd [ Rg 2.2.4.3 C¡c k¸t qu£ C¡c k¸t qu£ so s¡nh cõa ba ph÷ìng ph¡p ¡nh gi¡ kh¡c nhau tr¶n hai bë dú li»u ÷ñc thº hi»n trong b£ng 2.2 v b£ng 2.3. 2.2.5 Th£o luªn Trong vi»c n y, mët ph÷ìng thùc º ph¡t hi»n m°t ph¯ng b n sû döng gi£m dú li»u, vector gia tèc v c§u tróc ¡m m¥y iºm câ c§u tróc thu ÷ñc tø £nh m u v ë s¥u cõa c£m bi¸n MS Kinect ÷ñc · xu§t. 10
  13. 2.3 Ph¥n t¡ch èi t÷ñng quan t¥m tr¶n b n 2.3.1 Chuyºn h» tröc tåa ë 2.3.2 Ph¥n t¡ch m°t b n v èi t÷ñng quan t¥m 2.3.3 Th£o luªn CH×ÌNG 3 ×ÎC L×ÑNG CC C‡U TRÓC HœNH HÅC CÌ BƒN BŒNG THUŠT TON ×ÎC L×ÑNG MÎI B—N VÚNG SÛ DÖNG CC R€NG BUËC 3.1 ×îc l÷ñng c¡c c§u tróc h¼nh håc cì b£n b¬ng GCSAC 3.1.1 Khði ¦u Mæ h¼nh h¼nh håc cõa mët èi t÷ñng quan t¥m câ thº ÷ñc ÷îc l÷ñng b¬ng c¡ch sû döng tø hai ¸n b£y tham sè cõa Schnabel. [5]. Thuªt to¡n sü çng thuªn m¨u ng¨u nhi¶n (RANSAC) v c¡c tham sè cõa mæ h¼nh º tr½ch xu§t c¡c h¼nh d¤ng câ thº bà sai ho°c nhi¹u lîn trong dú li»u, thíi gian xû lþ cao. °c bi»t, t¤i méi gi£ thuy¸t trong mæ h¼nh cõa mët thuªt to¡n düa tr¶n RANSAC, mët qu¡ tr¼nh t¼m ki¸m nh¬m t¼m ki¸m m¨u tèt düa tr¶n c¡c r ng buëc cõa mët mæ h¼nh ÷îc l÷ñng ÷ñc thüc hi»n. º thüc hi»n t¼m ki¸m c¡c m¨u tèt, chóng tæi x¡c ành hai ti¶u ch½: (1) C¡c m¨u ÷ñc chån ph£i £m b£o phò hñp vîi mæ h¼nh ÷îc l÷ñng thæng qua ¡nh gi¡ t l» c¡c iºm nëi t¤i (inlier ratio); (2) C¡c m¨u ph£i ¡p ùng c¡c r ng buëc h¼nh håc rã r ng cõa c¡c èi t÷ñng quan t¥m (v½ dö: c¡c r ng buëc h¼nh trö). 3.1.2 C¡c nghi¶n cùu li¶n quan 3.1.3 · xu§t bë ÷îc l÷ñng mîi b·n vúng 3.1.3.1 Têng quan v· ÷îc l÷ñng b·n vúng ÷ñc · xu§t (GCSAC) º ÷îc l÷ñng c¡c tham sè cõa mët c§u tróc h¼nh håc 3-D cì b£n, mët mæ h¼nh RANSAC ban ¦u, nh÷ ÷ñc hiºn thà trong ph¦n tr¶n còng cõa h¼nh 3.2, chån sè m¨u tèi thiºu ng¨u nhi¶n tø mët ¡m m¥y iºm v sau â c¡c tham sè mæ h¼nh ÷ñc ÷îc l÷ñng v kiºm ành. Thuªt to¡n th÷íng khæng kh£ thi v· thíi gian t½nh to¡n v khæng c¦n thi¸t ph£i thû t§t c£ c¡c m¨u câ thº ÷ñc chån. Ph÷ìng ph¡p ÷ñc · xu§t cõa chóng tæi (GCSAC - trong ph¦n d÷îi còng cõa h¼nh 3.2) düa tr¶n phi¶n b£n gèc cõa RANSAC, tuy nhi¶n nâ kh¡c nhau theo ba kh½a c¤nh ch½nh: (1) T¤i méi l¦n l°p l¤i, bë m¨u tèi thiºu ÷ñc thüc hi»n khi quy tr¼nh l§y m¨u ng¨u nhi¶n ÷ñc chån, do â vi»c kiºm tra dú li»u çng thuªn câ thº d¹ d ng ¤t ÷ñc. Nâi c¡ch kh¡c, mët ng÷ïng 11
  14. No Randomly Geometrical Model evaluation Update the number Terminate sampling a parameters M; Update the best of iterations K ? A point minimal subset estimation M model adaptively (Eq. 3.2) cloud yes Randomly Model evaluation M via Geometrical Update the number RANSAC/ sampling (inlier ratio or Negative Estimated parameters of iterations K MLESAC a minimal log-likelihood); Model Estimation M adaptively (Eq. 3.2) paradigm subset Update the best model Searching good samples using Randomly geometrical Model evaluation M via Proposed Update the number sampling a constraints Negative Method of iterations K minimal Log-likehood; (GCSAC ) adaptively (Eq. 3.2) subset Geometrical Update the best model parameters estimation M RANSAC Iteration A point cloud Search good sampling Random sampling based on Geometrical constraint based on (GS) Estimation model; Compute the inlier ratio w Yes ≥ k=0: MLESAC w wt Good samples ≥ (GS) k=1:w wt: Yes No Compute Negative log- ≥ k=1:w wt: No lihood L, update the best As MLESAC model k≤K No Estimated mode H¼nh 3.2: Ph¦n tr¶n: Têng quan v· thuªt to¡n düa tr¶n RANSAC. Ph¦n d÷îi: Sì ç triºn khai cõa GCSAC. th§p ÷ñc x¡c ành tr÷îc câ thº ÷ñc triºn khai nh÷ mët i·u ki»n y¸u cõa t½nh nh§t qu¡n. Sau â, ch¿ sau v i l¦n l°p m¨u ng¨u nhi¶n, c¡c ùng cû vi¶n m¨u tèt câ thº ¤t ÷ñc. (2) C¡c bë m¨u tèi thiºu bao gçm c¡c m¨u õ i·u ki»n £m b£o c¡c r ng buëc h¼nh håc cõa èi t÷ñng quan t¥m. (3) i·u ki»n døng cõa thuªt to¡n RANSAC phò hñp cõa (Hartley et al. 2003) ÷ñc sû döng º thuªt to¡n døng ngay khi tªp m¨u tèi thiºu ÷ñc t¼m th§y cho sè l¦n l°p cõa ÷îc l÷ñng hi»n t¤i nhä hìn sè ¢ ¤t ÷ñc. º x¡c ành i·u ki»n døng cho thuªt to¡n ÷îc l÷ñng, mët t½nh to¡n tèt º x¡c ành sè l¦n l°p K l cæng thùc 3.2. log(1 − p) K = (3:2) log(1 − ws) trong â p l x¡c su§t t¼m ÷ñc mæ h¼nh mæ t£ dú li»u, s l sè m¨u tèi thiºu c¦n thi¸t º ÷îc l÷ñng mët mæ h¼nh, w l t l» ph¦n tr«m cõa c¡c iºm nëi t¤i trong ¡m m¥y iºm. 12
  15. 3.1.3.2 Ph¥n t½ch h¼nh håc v c¡c r ng buëc cho lüa chån m¨u tèt Trong c¡c ph¦n ti¸p theo, chóng tæi tr¼nh b y qu¡ tr¼nh ÷îc l÷ñng c¡c c§u tróc h¼nh håc 3-D. Düa tr¶n ph¥n t½ch h¼nh håc n y, c¡c r ng buëc li¶n quan ÷ñc ÷a ra º chån c¡c m¨u tèt. Vector ph¡p tuy¸n cõa t§t c£ c¡c iºm ÷ñc t½nh theo c¡ch ti¸p cªn trong (Holz et al. 2011) T¤i méi iºm pi, k-l¥n cªn g¦n nh§t kn cõa iºm pi ÷ñc x¡c ành trong mët b¡n k½nh r. Do â, vector ph¡p tuy¸n cõa pi ÷ñc suy gi£m v· ph¥n t½ch vector ri¶ng v c¡c gi¡ trà ri¶ng cõa ma trªn hi»p ph÷ìng sai C, ÷ñc tr¼nh b y ð ph¦n 2.2.3.2. a. Ph¥n t½ch h¼nh håc cho c¡c èi t÷ñng h¼nh trö C¡c quan h» h¼nh håc cõa c¡c tham sè tr¶n ÷ñc thº hi»n trong h¼nh 3.3 (a). Mët h¼nh trö câ thº ÷ñc ÷îc l÷ñng tø hai iºm (p1; p2) (hai iºm m u xanh) v vectì ph¡p tuy¸n t÷ìng ùng cõa chóng (n1; n2) (÷ñc ¡nh d§u b¬ng m u xanh l¡ c¥y v m u v ng). °t γc l tröc ch½nh cõa h¼nh trö (÷íng m u ä) ÷ñc ÷îc t½nh b¬ng: γc = n1 × n2 (3:3) º x¡c ành mët iºm t¥m I, chóng tæi chi¸u tham sè cõa hai ÷íng th¯ng L1 = p1 + tn1 v L2 = p2 + tn2 v o m°t ph¯ng P laneY (nh÷ h¼nh 3.3 (b)). Vector ph¡p tuy¸n cõa m°t ph¯ng n y ÷ñc ÷îc l÷ñng b¬ng mët t½ch ch²o cõa c¡c vectì γc v n1 (γc × n1). iºm t¥m I l giao iºm cõa L1 v L2 (xem h¼nh 3.3 (c)). B¡n k½nh Ra ÷ñc °t bði kho£ng c¡ch giúa I v p1 trong P laneY . K¸t qu£ cõa h¼nh trö ÷îc l÷ñng tø mët ¡m m¥y iºm ÷ñc minh håa trong h¼nh 3.4 (f). Chi·u cao cõa h¼nh trö ÷îc l÷ñng ÷ñc chu©n hâa l 1. ¦u ti¶n chóng tæi x¥y düng mët m°t ph¯ng π vuæng gâc vîi m°t ph¯ng P laneY v chùa n1. Do â vector ph¡p tuy¸n cõa nâ l nπ = (nP laneY × n1) trong â nP laneY l vectì ph¡p tuy¸n cõa P laneY , nh÷ trong H¼nh 3.4 (a). Nâi c¡ch kh¡c, n1 g¦n vuæng gâc vîi ∗ trong â ∗ l ph²p chi¸u l¶n m°t ph¯ng . Quan s¡t n y d¨n ¸n r ng n2 n2 n2 π buëc d÷îi ¥y: n n∗ cp = arg min f 1 · 2g (3:4) p22fUnnp1g R ng buëc trong cæng thùc (3.4) gióp vi»c t¼m ÷ñc c¡c m¨u tèt cho ÷îc l÷ñng mæ h¼nh h¼nh trö. 3.1.4 Th½ nghi»m k¸t qu£ cõa bë ÷îc l÷ñng b·n vúng 3.1.4.1 Cì sð dú li»u ¡nh gi¡ cõa bë ÷îc l÷ñng b·n vúng Chóng tæi công t¤o ra c¡c iºm ng¨u nhi¶n theo c§u tróc h¼nh trö, h¼nh c¦u, h¼nh nân. èi vîi c¡c èi t÷ñng h¼nh trö, tªp dú li»u ÷ñc thu thªp tø tªp dú li»u ¢ cæng 13
  16. PlaneY Ic n n1 2 γc L1 p2 p1 L2 (a) (b) (c) p 1 n p 1 3 γ2 n3 γ n2 n1 n2 Estimated p γ1 p1 2 p2 cylinder (d) (e) (f) H¼nh 3.3: C¡c thæng sè h¼nh håc cõa vªt thº h¼nh trö. (a)-(c) Gi£i th½ch v· ph¥n t½ch h¼nh håc º ÷îc l÷ñng mët èi t÷ñng h¼nh trö. (d)-(e) Minh håa c¡c r ng buëc h¼nh håc ÷ñc ¡p döng trong GCSAC. (f) K¸t qu£ cõa h¼nh trö ÷îc l÷ñng ÷ñc tø mët ¡m m¥y iºm. iºm m u xanh d÷ìng l c¡c iºm ngo¤i lai, c¡c iºm m u ä l c¡c iºm nëi t¤i. H¼nh 3.4: (a) Thi¸t lªp c¡c tham sè h¼nh håc º ÷îc t½nh mët èi t÷ñng h¼nh trö tø mët ¡m m¥y iºm nh÷ mæ t£ ð tr¶n. (b) H¼nh trö ÷îc l÷ñng (m u xanh löc) tø mët inlier p1 v mët outlier p2. Nh÷ ÷ñc hiºn thà, â l ÷îc l÷ñng khæng ch½nh x¡c. (c) vectì ph¡p tuy¸n v ∗ tr¶n m°t ph¯ng ÷ñc ÷îc l÷ñng. n1 n2 π bè [1] chùa 300 èi t÷ñng thuëc 51 lo¤i, nâ °t t¶n l 'h¼nh trö thù hai'. èi vîi èi t÷ñng h¼nh c¦u, tªp dú li»u bao gçm hai qu£ bâng ÷ñc thu thªp tø bèn c£nh thüc. Cuèi còng, dú li»u ¡m m¥y iºm cõa c¡c èi t÷ñng h¼nh nân, câ t¶n l 'h¼nh nân thù hai', ÷ñc sû döng tø tªp dú li»u ÷ñc cæng bè [4]. 3.1.4.2 ë o ¡nh gi¡ bë ÷îc l÷ñng m¤nh b·n vúng - Léi t÷ìng quan Ew cõa t l» iºm nëi t¤i ÷îc l÷ñng ÷ñc. Ew c ng nhä, thuªt to¡n c ng tèt. Trong â wgt l t l» iºm nëi t¤i ÷ñc x¡c ành cõa dú li»u; w l t l» nëi t¤i cõa mæ h¼nh ÷îc l÷ñng ÷ñc. - Têng sè léi kho£ng c¡ch Sd ÷ñc t½nh b¬ng têng kho£ng c¡ch tø b§t ký c¡c iºm pj ¸n mæ h¼nh ÷îc l÷ñng ÷ñc Me. 14
  17. B£ng 3.2: K¸t qu£ ¡nh gi¡ trung b¼nh cõa c¡c bë dú li»u sinh. C¡c bë dú li»u sinh ÷ñc l°p l¤i 50 l¦n cho thèng k¶ k¸t qu£. Dú li»u/ ë o RANSAC PROSAC MLESAC MSAC LOSAC NAPSAC GCSAC Ph÷ìng thùc Ew 23.59 28.62 43.13 10.92 9.95 61.27 8.49 (%) 'h¼nh Sd 1528.71 1562.42 1568.81 1527.93 1536.47 3168.17 1495.33 trö 1' tp(ms) 89.54 52.71 70.94 90.84 536.84 52.03 41.35 Ed(cm) 0.05 0.06 0.17 0.04 0.05 0.93 0.03 EA(deg:) 3.12 4.02 5.87 2.81 2.84 7.02 2.24 Er(%) 1.54 2.33 7.54 1.02 2.40 112.06 0.69 Ew(%) 23.01 31.53 85.65 33.43 23.63 57.76 19.44 3801.95 3803.62 3774.77 3804.27 3558.06 3904.22 3452.88 'h¼nh Sd 10.68 23.45 1728.21 9.46 31.57 2.96 6.48 c¦u 1' tp(ms) Ed(cm) 0.05 0.07 1.71 0.08 0.21 0.97 0.05 Er(%) 2.92 4.12 203.60 5.15 17.52 63.60 2.61 Ew(%) 24.89 37.86 68.32 40.74 30.11 86.15 24.40 Sd 2361.79 2523.68 2383.01 2388.64 2298.03 13730.53 2223.14 'h¼nh tp(ms) 495.26 242.26 52525 227.57 1258.07 206.17 188.4 nân 1' EA(deg:) 6.48 15.64 11.67 15.64 6.79 14.54 4.77 E_r(%) 20.47 17.65 429.44 17.31 20.22 54.44 17.21 - Thíi gian xû lþ tp ÷ñc t½nh b¬ng mili gi¥y (ms). Tp c ng nhä l thuªt to¡n nhanh. - Sai sè t÷ìng èi cõa t¥m ÷îc l÷ñng ÷ñc (ch¿ d nh cho c¡c bë dú li»u têng hñp) Ed l kho£ng c¡ch Euclide cõa t¥m ÷îc l÷ñng ÷ñc Ee v mët gèc Et. - Léi t÷ìng èi cõa b¡n k½nh (èi vîi h¼nh trö v h¼nh c¦u) Er l b¡n k½nh ÷îc l÷ñng ÷ñc re v gi¡ trà thüc t¸ rt. - ë l»ch Ea cõa gâc mð h¼nh nân ÷îc l÷ñng ae v ¢ ành ngh¾a gâc at. 3.1.4.3 K¸t qu£ ¡nh gi¡ cõa bë ÷îc l÷ñng b·n vúng mîi Hi»u n«ng cõa méi ph÷ìng thùc tr¶n c¡c bë dú li»u têng hñp ÷ñc thº hi»n trong b£ng 3.2. º ¡nh gi¡ c¡c tªp dú li»u thüc, k¸t qu£ thû nghi»m ÷ñc thº hi»n trong b£ng 3.3 cho c¡c èi t÷ñng h¼nh trö. B£ng 3.4 thº hi»n k¸t qu£ ÷îc l÷ñng cho c¡c bë dú li»u h¼nh c¦u v h¼nh nân. 3.1.5 Th£o luªn Trong nghi¶n cùu n y, chóng tæi ¢ · xu§t GCSAC l mët bë ÷îc l÷ñng b·n vúng k¸t hñp giúa vi»c £m b£o sü nh§t qu¡n vîi mæ h¼nh ÷îc l÷ñng thæng qua vi»c ¡nh gi¡ t l» inlier v r ng buëc h¼nh håc cõa èi t÷ñng quan t¥m. Chi¸n l÷ñc n y nh¬m möc ½ch chån c¡c m¨u tèt º ÷îc l÷ñng mæ h¼nh. Ph÷ìng thùc ÷ñc · xu§t ¢ ÷ñc kiºm tra vîi c¡c c§u tróc h¼nh håc cì b£n nh÷ h¼nh trö, h¼nh c¦u v h¼nh nân. 15
  18. B£ng 3.3: K¸t qu£ thû nghi»m tr¶n tªp dú li»u 'h¼nh trö thù 2'. C¡c th½ nghi»m ÷ñc l°p l¤i 20 l¦n, sau â c¡c k¸t qu£ ÷ñc t½nh trung b¼nh. Dú li»u/ w t E Ph÷ìng thùc S p r ë o (%) d (ms) (%) 'h¼nh trö 2' MLESAC 9.94 3269.77 110.28 9.93 (cèc c ph¶) GCSAC 13.83 2807.40 33.44 7.00 'h¼nh trö 2' MLESAC 19.05 1231.16 479.74 19.58 (lon ç «n) GCSAC 21.41 1015.38 119.46 13.48 'H¼nh trö 2' MLESAC 15.04 1211.91 101.61 21.89 (Cèc ç «n) GCSAC 18.8 1035.19 14.43 17.87 'H¼nh trö 2' MLESAC 13.54 1238.96 620.62 29.63 (lon soda) GCSAC 20.6 1004.27 16.25 27.7 B£ng 3.4: K¸t qu£ ¡nh gi¡ trung b¼nh tr¶n bë dú li»u 'qu£ c¦u thù hai', 'nân thù hai'. C¡c tªp dú li»u thüc ÷ñc l°p l¤i 20 l¦n cho k¸t qu£ thèng k¶. Dú li»u/ ë o RANSACPROSAC MLESAC MSAC LOSAC NAPSAC GCSAC Ph÷ìng thùc w(%) 99.77 99.98 99.83 99.80 99.78 98.20 100.00 Sd 29.60 26.62 29.38 29.37 28.77 35.55 11.31 'H¼nh tp(ms) 3.44 3.43 4.17 2.97 7.82 4.11 2.93 c¦u 2' Er(%) 30.56 26.55 30.36 30.38 31.05 33.72 14.08 w(%) 79.52 71.89 75.45 71.89 80.21 38.79 82.27 Sd 126.56 156.40 147.00 143.00 96.37 1043.34 116.09 'H¼nh tp(ms) 10.94 7.42 13.05 9.65 96.37 25.39 7.14 nân 2' EA(deg:) 38.11 40.35 35.62 25.39 29.42 52.64 23.74 Er(%) 77.52 77.09 74.84 75.10 71.66 76.06 68.84 C¡c tªp dú li»u thû nghi»m bao gçm c¡c bë dú li»u sinh v bë dú li»u thu thüc t¸. K¸t qu£ cõa thuªt to¡n GCSAC ÷ñc so s¡nh vîi c¡c thuªt to¡n düa tr¶n RANSAC v chóng ta câ thº th§y GCSAC ¢ ÷îc l÷ñng tèt ngay c£ nhúng ¡m m¥y iºm vîi t l» inlier th§p. Trong t÷ìng lai, chóng tæi ti¸p töc thû nghi»m GCSAC vîi c¡c c§u tróc h¼nh håc kh¡c v ¡nh gi¡ ph÷ìng ph¡p ÷ñc · xu§t vîi kàch b£n thüc t¸ º ph¡t hi»n nhi·u èi t÷ñng. 3.2 ×îc l÷ñng èi t÷ñng sû döng ngú c£nh v r ng buëc h¼nh håc 3.2.1 Ph¡t hi»n èi t÷ñng sû döng ngú c£nh v r ng buëc h¼nh håc Chóng ta h¢y xem x²t mët kàch b£n thüc trong c¡c ho¤t ëng phê bi¸n h ng ng y cõa nhúng NKT. Hå i v o mët pháng cafe sau â ÷a ra mët c¥u häi "cèc c ph¶ ð ¥u?", Nh÷ trong h¼nh 1. 16
  19. B£ng 3.5: K¸t qu£ trung b¼nh cõa c¡c ë o ¡nh gi¡ sû döng GCSAC v MLESAC tr¶n ba tªp dú li»u. C¡c thõ töc ÷ñc l°p l¤i 50 l¦n º ¡nh gi¡ thèng k¶. Khæng sû döng Dú li»u/ Ph÷ìng thùc r ng buëc Ea(deg:) Er(%) tp(ms) dú li»u MLESAC 46.47 92.85 18.10 1 GCSAC 36.17 81.01 13.51 Dú li»u MLESAC 47.56 50.78 25.89 2 GCSAC 40.68 38.29 18.38 Dú li»u MLESAC 45.32 48.48 22.75 3 GCSAC 43.06 46.9 17.14 3.2.2 · xu§t ph÷ìng thùc ph¡t hi»n èi t÷ñng sû döng ngú v r ng buëc h¼nh håc Trong bèi c£nh ph¡t triºn c¡c h» thèng hé trñ t¼m ki¸m èi t÷ñng cho NKT (nh÷ trong h¼nh 1). 3.2.2.1 Kiºm ành mæ h¼nh sû döng r ng buëc ngú c£nh 3.2.3 Th½ nghi»m k¸t qu£ cõa ph¡t hi»n c¡c èi t÷ñng sû döng r ng buëc ngú c£nh 3.2.3.1 Mi¶u t£ cì sð dú li»u ¡nh gi¡ Tªp dú li»u ¦u ti¶n ÷ñc t¤o tø mët tªp dú li»u cæng bè trong [3]. 3.2.3.2 C¡c ë o ¡nh gi¡ 3.2.3.3 C¡c k¸t qu£ cõa ph¡t hi»n c¡c èi t÷ñng sû döng r ng buëc ngú c£nh B£ng 3.5 so s¡nh hi»u n«ng cõa ph÷ìng ph¡p · xu§t GCSAC v MLESAC. 3.2.4 Th£o luªn CH×ÌNG 4 PHT HI›N V€ ×ÎC L×ÑNG MÆ HœNH †Y Õ CÕA ÈI T×ÑNG 3-D V€ PHT TRIšN ÙNG DÖNG 4.1 Ph¡t hi»n èi t÷ñng 3-D 4.1.1 Khði ¦u C¡c èi t÷ñng quan t¥m ÷ñc °t tr¶n m°t ph¯ng b n v l c¡c èi t÷ñng câ c§u tróc h¼nh håc ìn gi£n (v½ dö: cèc c ph¶, lå, chai, lon soda l h¼nh trö, bâng ¡, hoa 17
  20. B£ng 4.1: K¸t qu£ trung b¼nh ph¡t hi»n c¡c vªt thº h¼nh c¦u tr¶n hai giai o¤n ë o/ Giai Giai o¤n 2 Thíi gian Dú li»u o¤n xû lþ 1 tp(s)/c£nh ë tri»u ë ch½nh ë tri»u ë ch½nh Ph÷ìng thùc hçi(%) x¡c(%) hçi(%) x¡c(%) Dú li»u PSM 62.23 48.36 60.56 46.68 1.05 thù 1 CVFGS 56.24 50.38 48.27 42.34 1.2 DLGS 88.24 78.52 76.52 72.29 0.5 qu£ l h¼nh c¦u). Ph÷ìng ph¡p cõa chóng tæi ¢ khai th¡c hi»u su§t cõa YOLO [2] nh÷ mët ph÷ìng ph¡p khði nguçn º ph¡t hi»n èi t÷ñng trong h¼nh £nh RGB v¼ nâ l ph÷ìng ph¡p câ hi»u su§t cao nh§t º ph¡t hi»n èi t÷ñng. Sau â, c¡c èi t÷ñng ÷ñc ph¡t hi»n ÷ñc chi¸u v o dú li»u ¡m m¥y iºm (dú li»u 3-D) º t¤o ra mæ h¼nh èi t÷ñng ¦y õ º c¦m n­m, mæ t£ c¡c èi t÷ñng. 4.1.2 C¡c nghi¶n cùu li¶n quan 4.1.3 Mët nghi¶n cùu so s¡nh cõa ph¡t hi»n èi t÷ñng 3-D 4.1.3.1 Ph÷ìng thùc düa tr¶n h¼nh håc cho ph¡t hi»n c¡c c§u tróc h¼nh håc ìn gi£n (PSM) Ph÷ìng ph¡p n y sû döng ph¡t hi»n c¡c c§u tróc h¼nh håc cì b£n (PSM) cõa (Schnabel et al. 2007) trong ¡m m¥y iºm cõa c¡c èi t÷ñng. 4.1.3.2 K¸t hñp ph¥n cöm èi t÷ñng, °c tr÷ng ph¥n bè h÷îng (VFH), GCSAC cho ÷îc l÷ñng mæ h¼nh ¦y õ - (CVFGS) 4.1.3.3 K¸t hñp cõa håc s¥u v GCSAC cho ph¡t hi»n v x¥y düng mæ h¼nh ¦y õ cõa èi t÷ñng - (DLGS) M¤ng n y chia h¼nh £nh ¦u v o th nh mët h¼nh chú nhªt câ k½ch th÷îc c × c v sû döng c¡c °c tr÷ng tø to n bë h¼nh £nh º dü o¡n èi t÷ñng méi æ cõa l÷îi n y. 4.1.4 C¡c th½ nghi»m v k¸t qu£ 4.1.4.1 Cì sð dú li»u thu thªp 4.1.4.2 ¡nh gi¡ ph¡t hi»n èi t÷ñng 4.1.4.3 C¡c tham sè ¡nh gi¡ 4.1.4.4 C¡c k¸t qu£ K¸t qu£ trung b¼nh cõa vi»c ph¡t hi»n c¡c èi t÷ñng h¼nh c¦u ð 2 giai o¤n ÷ñc tr¼nh b y trong b£ng 4.1. 4.1.5 Th£o luªn 18
  21. B£ng 4.2: K¸t qu£ trung b¼nh cõa vi»c ph¡t hi»n c¡c èi t÷ñng h¼nh trö ð giai o¤n ¦u cõa tªp dú li»u ¦u ti¶n v thù hai. Dú li»u ë o/Ph÷ìng thùc ë tri»u hçi (%) å ch½nh x¡c(%) PSM 15.40 10.45 Dú li»u CVFGS 40.85 31.83 1 DLGS 92.68 81.74 PSM 21.35 16.37 Dú li»u CVFGS 52.52 38.15 2 DLGS 78.22 68.45 B£ng 4.4: Thíi gian xû lþ trung b¼nh cõa vi»c ph¡t hi»n c¡c èi t÷ñng h¼nh trö trong c£ hai tªp dú li»u ¦u ti¶n v thù hai. Thíi gian xû lþ trung b¼nh Dú li»u ë o/Ph÷ìng thùc cõa ph¡t hi»n èi t÷ñng 3-D tp(s) PSM 1.24 Dú li»u CVFGS 0.9 1 DLGS 0.6 PSM 1.24 Dú li»u CVFGS 3.6 2 DLGS 1.02 Acceleration vector Microsoft Point cloud Table plane Kinect representation detection RGB-D image Objects 3-D objects 3-D objects 3-D objects detection on located on the model RGB image information RGB image table plane estimation Detected table plane Point cloud representation 3-D Objects located on the table plane (m) (m) 3-D objects location, description for grasping Depth image Detected Objects H¼nh 4.20: Mæ h¼nh º ph¡t triºn h» thèng ho n ch¿nh cho ph¡t hi»n c¡c èi t÷ñng 3-D câ c§u tróc h¼nh håc cì b£n theo c¡c truy v§n cõa NKT. 4.2 Ph¡t triºn mët h» thèng trñ gióp cho ng÷íi khi¸m thà Tø c¡c ¡nh gi¡ tr¶n, chóng ta câ thº th§y r¬ng ph÷ìng thùc DLGS câ k¸t qu£ tèt nh§t º ph¡t hi»n c¡c èi t÷ñng 3-D câ c§u tróc h¼nh håc cì b£n düa tr¶n truy v§n cõa NKT. Do â, h» thèng ho n ch¿nh ÷ñc ph¡t triºn theo mæ h¼nh nh÷ trong h¼nh 4.20. º ph¡t hi»n c¡c èi t÷ñng düa tr¶n truy v§n cõa NKT tr¶n b n trong mæi tr÷íng 3-D, c¡c b÷îc ÷ñc thüc hi»n nh÷ sau: 1. T¤o ra ¡m m¥y iºm m u s­c tø h¼nh £nh m u v £nh ë s¥u sû döng gi£m dú 19
  22. li»u v ma trªn hiºu ch¿nh giúa hai lo¤i dú li»u £nh n y. 2. Sû döng vector gia tèc v c¡c r ng buëc º ph¡t hi»n m°t ph¯ng b n. 3. Ph¥n t¡ch m°t ph¯ng b n v èi t÷ñng quan t¥m. 4. Ph¡t hi»n èi t÷ñng tr¶n £nh m u (YOLO). 5. ành và c¡c èi t÷ñng 3-D tr¶n m°t ph¯ng b n. 6. ×îc l÷ñng mæ h¼nh ¦y õ cõa èi t÷ñng º cung c§p c¡c thæng tin phöc vö cho c¦m n­m c¡c èi t÷ñng. 4.2.1 Mæi tr÷íng v thi¸t lªp th½ nghi»m º x¥y düng mët h» thèng trñ gióp cho ph¡t hi»n, ành và c¡c èi t÷ñng 3-D ìn gi£n theo truy v§n cõa NKT ð tr¶n b n, chóng tæi sû döng 2 lo¤i thi¸t bà: mët c£m bi¸n Kinect phi¶n b£n 1, mët Laptop câ c§u h¼nh b¼nh th÷íng: CPU core I5; 8 GB RAM. º k¸t nèi giúa m¡y t½nh v c£m bi¸n Kinect º thu thªp dú li»u tø mæi tr÷íng v xû lþ dú li»u cõa h» thèng, chóng tæi ph¡t triºn 1 ch÷ìng tr¼nh tr¶n ngæn ngú lªp tr¼nh C++ vîi sü hé trñ cõa 2 bë th÷ vi»n: OpenCV 3.4.0 library, PCL 1.7.1 library. 4.2.2 Kàch b£n Chóng tæi thû nghi»m tr¶n ba NKT t¤i ba khung c£nh theo c¡c kàch b£n: ˆ Mët NKT di chuyºn quanh b n v muèn t¼m c¡c vªt thº h¼nh c¦u ho°c c¡c vªt thº h¼nh trö tr¶n b n v tr¶n b n câ cèc c ph¶, b¼nh, qu£ bâng. Giúa chóng câ mët kho£ng c¡ch õ lîn. ˆ Mët NKT di chuyºn quanh b n v muèn t¼m c¡c vªt thº h¼nh c¦u ho°c c¡c vªt thº h¼nh trö tr¶n b n v tr¶n b n câ cèc c ph¶, b¼nh, qu£ bâng. Nhúng vªt thº n y câ thº bà che khu§t khi NKT di chuyºn. 4.2.3 Th½ nghi»m v c¡c k¸t qu£ Tø thi¸t lªp thû nghi»m cõa h» thèng ÷ñc mæ t£ trong ph¦n 4.2.1 v ph¦n 4.2.2. Cì sð dú li»u n y bao gçm 8 c£nh vîi c¡c lo¤i b n kh¡c nhau, méi c£nh câ kho£ng 400 khung h¼nh, tèc ë thu thªp dú li»u cõa MS Kinect l kho£ng 10 khung h¼nh / gi¥y. 4.2.3.1 ¡nh gi¡ ph¡t hi»n èi t÷ñng 3-D º ¡nh gi¡ ph¡t hi»n c¡c èi t÷ñng 3-D theo truy v§n cõa NKT, chóng tæi ¢ chu©n bà dú li»u gèc theo hai giai o¤n. Giai o¤n ¦u ti¶n l ¡nh gi¡ ph¡t hi»n m°t ph¯ng b n, chóng ta ¢ chu©n bà nh÷ ph¦n 2.2.4.2 v sû döng ë o 'EM1' º ¡nh gi¡ ph¡t hi»n m°t ph¯ng b n. º ¡nh gi¡ ph¡t hi»n c¡c èi, chóng tæi công chu©n bà dú li»u gèc v t½nh to¡n T1 º ¡nh gi¡ ph¡t hi»n èi t÷ñng h¼nh trö 3-D v T2 º ¡nh gi¡ ph¡t hi»n èi t÷ñng h¼nh c¦u 3-D. Chóng ÷ñc tr¼nh b y trong ph¦n 4.1.4.2. 20
  23. º ph¡t hi»n c¡c èi t÷ñng trong £nh RGB, chóng tæi sû döng m¤ng YOLO º hu§n luy»n bë ph¥n lo¤i èi t÷ñng. Sè l÷ñng c¡c lîp, c¡c l¦n l°p ÷ñc sû döng nh÷ l ph¦n 4.1.4.3. T§t c£ m¢ nguçn cõa ch÷ìng tr¼nh ÷ñc cæng bè trong li¶n k¸t: 1. Chóng tæi ¢ thüc hi»n håc tr¶n 20% dú li»u v thû nghi»m tr¶n 80% dú li»u. T§t c£ dú li»u ÷ñc cæng bè trong li¶n k¸t: 2. Mët ph¡t hi»n èi t÷ñng óng l ph¡t hi»n m°t ph¯ng b n óng v thäa m¢n t l» T1 cho ph¡t hi»n èi t÷ñng h¼nh trö 3-D v T2 º ¡nh gi¡ ph¡t hi»n èi t÷ñng h¼nh c¦u 3-D. K¸t qu£ trung b¼nh cõa ph¡t hi»n èi t÷ñng 3-D theo truy v§n khi sû döng ph÷ìng ph¡p DLGS ÷ñc hiºn thà trong b£ng 4.6. B£ng 4.6: K¸t qu£ trung b¼nh cõa ph¡t hi»n èi t÷ñng truy v§n 3-D. First stage Second stage Processing Measurement Recall Precision Recall Precision time (%) (%) (%) (%) (frame/s) Average 100 99.27 97.80 90.45 0.86 Results Video cõa h» thèng thüc ÷ñc thº hi»n trong li¶n k¸t:3. 4.2.4 ¡nh gi¡ kh£ n«ng ho¤t ëng CH×ÌNG 5 K˜T LUŠN V€ ÀNH H×ÎNG NGHI–N CÙU TI˜P THEO 5.1 K¸t luªn Trong luªn ¡n n y, chóng tæi ¢ · xu§t mët bë ÷îc l÷ñng b·n vúng mîi ÷ñc gåi l 'GCSAC - Geometrical Constraints SAmple Consensus)' º ÷îc l÷ñng c¡c c§u tróc h¼nh håc cì b£n (v½ dö: h¼nh trö, h¼nh c¦u, h¼nh nân) tø dú li»u ¡m m¥y iºm cõa c¡c èi t÷ñng m dú li»u câ thº chùa nhi·u nhi¹u, l¶n tîi 85%. Thuªt to¡n n y l mët bi¸n thº RANSAC v ÷ñc c£i thi»n tø thuªt to¡n MLESAC. Nâ tªp trung v o b÷îc l§y m¨u, khæng gièng nh÷ RANSAC v MLESAC l l§y m¨u ng¨u nhi¶n. Nâ chån c¡c m¨u l câ chõ ½ch, c¡c m¨u ÷ñc chån l c¡c m¨u tèt º ÷îc l÷ñng c¡c mæ h¼nh, chóng düa tr¶n c¡c r ng buëc h¼nh håc ÷ñc · xu§t tø qu¡ tr¼nh ph¥n t½ch h¼nh håc. GCSAC ÷ñc ¡nh gi¡ v so s¡nh vîi c¡c bi¸n thº cõa RANSAC º ÷îc l÷ñng c¡c c¡c tróc h¼nh håc cì b£n tr¶n dú li»u sinh v dú li»u thüc cõa c¡c èi t÷ñng trong 1 2 3 21
  24. mæi tr÷íng. C¡c k¸t qu£ tr¶n cho th§y GCSAC tèt hìn c¡c bi¸n thº cõa RANSAC cho ÷îc l÷ñng c¡c c§u tróc h¼nh håc cì b£n tø ¡m m¥y iºm. Chóng tæi công ¢ · xu§t sû döng r ng buëc cõa ngú c£nh º c£i thi»n k¸t qu£ ÷îc l÷ñng cõa c¡c èi t÷ñng câ c§u tróc h¼nh håc cì b£n. R ng buëc theo ngú c£nh l tø bèi c£nh cõa mæi tr÷íng khi NKT v o nh b¸p. C¡c èi t÷ñng quan t¥m cõa NKT ang ð tr¶n b n. Do â, vector ph¡p tuy¸n ph¡t hi»n ÷ñc cõa m°t ph¯ng b n l mët r ng buëc ngú c£nh quan trång. C¡c èi t÷ñng th÷íng câ hai tr÷íng hñp: ùng ho°c n¬m tr¶n b n. V¼ vªy, chóng tæi t½nh to¡n gâc l»ch cõa tröc ch½nh ÷îc l÷ñng ÷ñc t¤i méi l¦n l°p cõa thuªt to¡n GCSAC v vectì ph¡p tuy¸n cõa m°t ph¯ng b n. C¡c k¸t qu£ tr¶n cho th§y k¸t qu£ ÷îc l÷ñng c¡c c§u tróc h¼nh håc cì b£n l tèt hìn khi sû döng c¡c r ng buëc theo ngú c£nh, °c bi»t l tr¶n dú li»u ¡m m¥y iºm m c¡c iºm tªp trung v o ph¦n tr¶n (mi»ng) cõa èi t÷ñng ho°c bà thi¸u do che khu§t. Luªn ¡n công · xu§t mët h» thèng hé trñ ho n ch¿nh º ph¡t hi»n c¡c èi t÷ñng 3-D câ c§u tróc h¼nh håc cì b£n tø truy v§n cõa NKT. H» thèng n y ÷ñc thüc hi»n trong mæi tr÷íng thüc t¸ tr¶n NKT trong mæi tr÷íng pháng th½ nghi»m. Nâ l sü k¸t hñp cõa c¡c ph÷ìng ph¡p nh÷ sau: ˆ · xu§t ph÷ìng thùc ph¡t hi»n m°t ph¯ng b n thíi gian thüc d÷îi d¤ng mët b÷îc xû lþ tr÷îc. Nâ l sü k¸t hñp cõa thuªt to¡n gi£m dú li»u, vòng lan täa, v c¡c r ng buëc theo ngú c£nh. Trong â, chóng tæi ¢ · xu§t ph÷ìng thùc gi£m dú li»u º gi£m dú li»u tr¶n £nh ë s¥u. Tø â, sè iºm cõa ¡m m¥y iºm ÷ñc gi£m v gi£m thíi gian xû lþ. ˆ K¸t hñp hi»u n«ng cõa håc s¥u (Deep Learning (YOLO)) º ph¡t hi»n èi t÷ñng tr¶n £nh RGB v sû döng bë ÷îc l÷ñng b·n vúng ÷ñc · xu§t (GCSAC) º ÷îc l÷ñng c¡c mæ h¼nh èi t÷ñng ¦y õ nh¬m cung c§p thæng tin hé trñ c¡c èi t÷ñng cho vi»c c¦m n­m cho NKT. Trong â, YOLO l ë ch½nh x¡c câ thº ch§p nhªn ÷ñc v thíi gian t½nh to¡n cõa nâ º ph¡t hi»n c¡c èi t÷ñng tr¶n £nh l nhanh nh§t èi vîi c¡c m¤ng Neuron ÷ñc · xu§t kh¡c. ¥y l mët CNN câ thíi gian t½nh to¡n nhanh nh§t hi»n t¤i v c¡c èi t÷ñng ÷ñc g¡n nh¢n thíi gian thüc khi thüc hi»n tr¶n CPU. ˆ Ph¡t hi»n èi t÷ñng 3-D nhanh, ch½nh x¡c º ành và, mæ t£ èi t÷ñng trong mæi tr÷íng 3-D. H» thèng ¢ ÷ñc ¡nh gi¡ vîi c¡c ph÷ìng thùc tèt v ph¡t triºn tr¶n NKT trong mët sè mæi tr÷íng ho¤t ëng h ng ng y cõa NKT nh÷ trong nh b¸p, pháng tr . Thæng tin trñ gióp cho t¼m v c¦m n­m c¡c èi t÷ñng l trüc quan v phò hñp vîi tèc ë di chuyºn cõa ng÷íi khi¸m thà. Trong c¡c thû nghi»m, chóng tæi công t¼m th§y nhúng h¤n ch¸ cõa c¡c ph÷ìng ph¡p ÷ñc · xu§t, ÷ñc li»t k¶ d÷îi ¥y: 22
  25. ˆ Trong b÷îc ph¡t hi»n m°t ph¯ng b n, mët sè r ng buëc ngú c£nh cùng nh­c khi m°t ph¯ng b n tr¶n s n v khæng nhä hìn chi·u cao cõa MS Kinect so vîi m°t s n vîi mët ng÷ïng. ˆ º ph¡t hi»n c¡c èi t÷ñng, thæng tin chi·u s¥u ÷ñc sû döng º k¸t hñp vîi thæng tin m u s­c º chi¸u l¶n khæng gian 3-D. Tuy nhi¶n, ë ph¥n gi£i cõa £nh s¥u thu ÷ñc tø c£m bi¸n MS Kinect l khæng õ tèt. °c bi»t, ð kho£ng c¡ch xa (hìn 4m) ho°c qu¡ g¦n (th§p hìn 0,8m), dú li»u ë s¥u khæng câ. Do â, hi»u su§t cõa ph÷ìng ph¡p · xu§t câ thº ÷ñc gi£m khi MS Kinect g­n tr¶n ng÷íi dòng ùng qu¡ xa ho°c qu¡ g¦n so vîi c¡c èi t÷ñng. ˆ Méi c§u tróc h¼nh håc cì b£n sû döng mët lo¤i r ng buëc kh¡c nhau, do â sè l÷ñng èi t÷ñng câ thº ÷îc l÷ñng ÷ñc bà h¤n ch¸. ˆ R ng buëc ngú c£nh ch¿ ÷ñc ¡p döng cho mët sè èi t÷ñng (c§u tróc h¼nh håc câ tröc ch½nh). ˆ H» thèng ÷ñc · xu§t y¶u c¦u thíi gian håc cho nhi·u èi t÷ñng. ˆ C¡c èi t÷ñng 3-D ÷ñc ph¡t hi»n, ành và, mæ t£ ch¿ câ ba lo¤i èi t÷ñng: h¼nh trö, h¼nh c¦u, h¼nh nân èi t÷ñng. Ngo i ra, chóng tæi ch÷a gi£i quy¸t ÷ñc v§n · ph¡t hi»n nhªn d¤ng èi t÷ñng 3-D câ c§u tróc h¼nh håc phùc t¤p v ch÷a sû döng c¡c r ng buëc trong ph¡t hi»n nhªn d¤ng èi t÷ñng m ÷ñc t¤o bði c¡c c§u tróc h¼nh håc ìn gi£n. 5.2 C¡c nghi¶n cùu ti¸p theo Khæng ch¿ nhúng giîi h¤n tr¶n, m cán l nhúng h¤n ch¸ cõa nghi¶n cùu gñi þ cho chóng tæi nhúng h÷îng nghi¶n cùu trong t÷ìng lai. ˆ K¸ ho¤ch ng­n h¤n:  V· bë ÷îc l÷ñng b·n vúng º ÷îc l÷ñng c¡c c§u tróc h¼nh håc cì b£n: Chóng tæi c¦n · xu§t c¡c r ng buëc h¼nh håc º ÷îc l÷ñng nhi·u c§u tróc h¼nh håc kh¡c cho GCSAC. Sü k¸t hñp cõa thuªt to¡n · xu§t v c¡c r ng buëc º ph¡t hi»n nhªn d¤ng èi t÷ñng düa tr¶n nhi·u c§u tróc h¼nh håc cì b£n nh÷ trong (Schnabel et al. 2007) ho°c c¡c èi t÷ñng phùc t¤p ÷ñc t¤o bði c¡c c¡c c§u tróc h¼nh håc cì b£n v chóng câ k¸t hñp vîi nhau b¬ng mët ç thà. Tø i·u n y, c¡c èi t÷ñng ÷ñc ph¡t hi»n, nhªn d¤ng düa tr¶n c¡c c§u tróc h¼nh håc cì b£n nh÷ (Nieuwenhuisen et al. 2012).  Thû nghi»m h» thèng cõa chóng tæi tr¶n nhi·u ng÷íi khi¸m thà ð c¡c ë tuêi v ë cao kh¡c nhau º nhªn ph£n hçi v· sü ti»n lñi cõa h» thèng.  Thû nghi»m h» thèng cõa chóng tæi trong nhi·u mæi tr÷íng: H» thèng · 23
  26. xu§t hi»n ang ÷ñc triºn khai trong mæi tr÷íng pháng th½ nghi»m. Nâ ph£i ÷ñc kiºm tra trong nhi·u mæi tr÷íng nh÷ trong lîp håc, ho°c trong b§t ký mæi tr÷íng n o cõa NKT. ˆ K¸ ho¤ch d i h¤n:  K¸t hñp vîi mæ-un h÷îng d¨n º c¦m n­m c¡c èi t÷ñng: H» thèng n¶n ÷ñc k¸t hñp vîi mæ-un h÷îng d¨n º c¦m n­m c¡c èi t÷ñng cho NKT º ho n th nh mët h» thèng ph¡t hi»n v c¦m n­m c¡c èi t÷ñng.  H» thèng hi»n ang sû döng c£m bi¸n MS Kinect º thu thªp dú li»u tø mæi tr÷íng v xû lþ tr¶n m¡y t½nh x¡ch tay n¶n nâ cçng k·nh v £nh h÷ðng ¸n t½nh di ëng cõa NKT n¶n nâ c¦n ph£i ÷ñc chuyºn sang thüc hi»n tr¶n i»n tho¤i thæng minh gån nhµ hìn v thuªn ti»n hìn cho ng÷íi khi¸m thà.  Chóng tæi s³ ¡p döng kÿ thuªt håc th½ch nghi v o trong håc s¥u º t«ng hi»u qu£ cõa ph¡t hi»n v nhªn d¤ng èi t÷ñng. T€I LI›U THAM KHƒO [1] Lai K., Bo L., Ren X., and Fox D. (2011). A large-scale hierarchical multi-view RGB- D object dataset. In IEEE International Conference on Robotics and Automation (ICRA), pp. 18171824. [2] Redmon J., Divvala S., Girshick R., and Farhadi A. (2016). You Only Look Once: Unified, Real-Time Object Detection. In Computer Vision and Pattern Recognition. [3] Richtsfeld A., Morwald T., Prankl J. andZillich M., and Vincze M. (2012). Segmen- tation of unknown objects in indoor environments. In 2012 IEEE/RSJ International Conference on Intelligent Robots and Systems, pp. 47914796. [4] Scharstein D. and Szeliski R. (2003). High-Accuracy Stereo Depth Maps Using Structured Light. In IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 1(June):pp. 195202. [5] Schnabel R., Wahl R., and Klein R. (2007). Efficient ransac for point-cloud shape detection. Computer Graphics Forum, 26(2):pp. 214226. 24
  27. DANH MÖC CC CÆNG TRœNH ‚ CÆNG BÈ CÕA LUŠN N [1] Van-Hung Le, Hai Vu, Thuy Thi Nguyen, Thi Lan Le, and Thanh Hai Tran (2015). Table plane detction using geometrical constraints on depth image, The 8th Vietnamese Conference on Fundamental and Applied IT Research, FAIR, Hanoi, VietNam, ISBN: 978-604-913-397-8, pp.647-657. [2] Van-Hung Le, Hai Vu, Thuy Thi Nguyen, Thi-Lan Le, Thi-Thanh-Hai Tran, Michiel Vlaminck, Wilfried Philips and Peter Veelaert. (2015). 3D Object Finding Us- ing Geometrical Constraints on Depth Images, The 7th International Conference on Knowledge and Systems Engineering, HCM city, Vietnam, ISBN 978-1-4673-8013-3, pp.389-395. [3] Van-Hung Le, Thi-Lan Le, Hai Vu, Thuy Thi Nguyen, Thanh-Hai Tran, TranChung Dao and Hong-Quan Nguyen (2016), Geometry-based 3-D Object Fitting and Localization in Grasping Aid for Visually Impaired People, The 6th International Conference on Communications and Electronics (IEEE-ICCE), HaLong, Vietnam, ISBN: 978-1-5090-1802-4, pp.597-603. [4] Van-Hung Le, Michiel Vlaminck, Hai Vu, Thuy Thi Nguyen, Thi-Lan Le, ThanhHai Tran, Quang-Hiep Luong, Peter Veelaert and Wilfried Philips (2016), Real-time table plane detection using accelerometer and organized point cloud data from Kinect sensor, Journal of Computer Science and Cybernetics, Vol. 32, N.3, ISSN: 1813-9663, pp. 243-258. [5] Van-Hung Le, Hai Vu, Thuy Thi Nguyen, Thi-Lan Le, Thanh-Hai Tran (2017), Fitting Spherical Objects in 3-D Point Cloud Using the Geometrical constraints. Journal of Science and Technology, Section in Information Technology and Commu- nications, Number 11, 12/2017, ISSN: 1859-0209, pp 5-17. [6] Van-Hung Le, Hai Vu, Thuy Thi Nguyen, Thi-Lan Le, Thanh-Hai Tran (2018), Acquiring qualified samples for RANSAC using geometrical constraints, Pattern Recognition Letters, Vol. 102, ISSN: 0167-8655, pp. 58-66, (ISI). [7] Van-Hung Le, Hai Vu, Thuy Thi Nguyen (2018), A Comparative Study on Detec- tion and Estimation of a 3-D Object Model in a Complex Scene, 10th International Conference on Knowledge and Systems Engineering (KSE 2018), pp. 203-208. [8] Van-Hung Le, Hai Vu, Thuy Thi Nguyen, Thi-Lan Le, Thanh-Hai Tran (2018), GCSAC: geometrical constraint sample consensus for primitive shapes estimation in
  28. 3D point cloud, International Journal Computational Vision and Robotics, Accepted (SCOPUS). [9] Van-Hung Le, Hai Vu, Thuy Thi Nguyen (2018), A Frame-work assisting the Visually Impaired People: Common Object Detection and Pose Estimation in Sur- rounding Environment, 10th Nafosted Conference on (NICS 2018), pp. 218-223. [10] Hai Vu, Van-Hung Le, Thuy Thi Nguyen, Thi-Lan Le, Thanh-Hai Tran (2019), Fitting Cylindrical Objects in 3-D Point Cloud Using the Context and Geometri- cal constraints, Journal of Information Science and Engineering, ISSN: 1016-2364, Vol.35, N1, (ISI).