深層学習-まとめ - clannad35のブログ

物体認識系

検出系

Keras implementation of RetinaNet object detection https://t.co/32lD95PzGB pic.twitter.com/xtliGyDaai
— Deep Hub (@Deep_Hub) 2018年3月10日

YOLOv3: An Incremental Improvement (ワシントン大) https://t.co/dC56ih5tvX 説明不要に面白いのでぜひ一読を．v3で加えた改善点＆試したけど上手く行かなかったことの報告．同程度の性能のRetinaNetより3.8倍高速に物体認識．youtube https://t.co/oDdOB9eQVF code https://t.co/8xpJ5sjFMt pic.twitter.com/jAaKoCqXHZ
— Kyosuke Nishida (@kyoun) 2018年3月26日

#代表例

Faster R-CNN, FPN, SSD, YOLO

セグメンテーション系

Google、画像をピクセル単位で把握し各オブジェクトに割り当てるセマンティックセグメンテーションCNNモデル「DeepLab-v3」オープンソース発表 https://t.co/jEYVXavxmL pic.twitter.com/Y5gu97dxOz
— Seamless (@shiropen2) 2018年3月13日

姿勢推定

Facebook AI Researchら、密集した人間の姿勢を2D画像から推定し、人の表面にテクスチャマッピングできるCNNを用いたシステム「DensePose」を発表 https://t.co/0RK1xNovYs pic.twitter.com/0ZCuFMNmaA
— Seamless (@shiropen2) 2018年2月5日

手領域はロボット操作に活用してデモンストレーションを実行する。アーキテクチャでは、主に姿勢推定、3次元への投影（VoxelPoseNet）、手領域の法線ベクトル推定（HandNormalNet）から構成される。姿勢推定はOpenPoseを活用、VoxelPoseNetは3次元のL2ノルム誤差により計算する。 https://t.co/rzfkLxTnfd
— cvpaper.challenge (@CVpaperChalleng) 2018年3月15日

トラッキング系

Social GAN (Stanford) https://t.co/GRcp4R4QT4 複数人の移動軌跡の予測．物理的には尤もらしくても社会的におかしい（ぶつかる等）軌跡の予測を避ける．生成器をEncoder-PoolingModule(PM)-Decoderの構成として，PMで複数人の相互作用を考慮．PMはEncodingされた各人の状態と他人と相対位置を利用 pic.twitter.com/aRSJmqdSz9
— Kyosuke Nishida (@kyoun) 2018年3月30日

マルチモーダル系

Learning a Text-Video Embedding from Incomplete and Heterogeneous Data (ENS) https://t.co/bqljM2xJfl テキストと動画の同空間埋込．動画の画像，動き，顔，音声をマルチモーダルに考慮．全モーダルが揃ってないデータからも学習可．コード https://t.co/SdwRVfXrcA デモ https://t.co/zsSI4PqgeS pic.twitter.com/1PHpGfjwfE
— Kyosuke Nishida (@kyoun) 2018年4月10日

文字認識系

Multi-Oriented Scene Text Detection via Corner Localization and Region Segmentation (Huazhong大) https://t.co/knpZMwq4MZ シーン画像からのテキスト抽出．テキスト領域の4コーナーの点および領域を個別に予測．抽出点をグルーピングして候補領域のスコア算出．COCO-Textや多言語のMLTで良い精度 pic.twitter.com/M0KelhxYUC
— Kyosuke Nishida (@kyoun) 2018年4月21日