狠狠撸

狠狠撸Share a Scribd company logo
YOLO (You only look once)V1
AI Tech社群論文導讀
柯克(江雨)
物件偵測的介紹
其他先備知識
YOLO V1 介紹
Loss function 討論
YOLO V1 的缺陷
其他YOLO 的研究
結語
大綱
先自我介紹一下
本名柯克,臉書化名江雨
自由接案軟體工程師
目前正在做農業技術與 AI 應用
https://kokomexcelsa.github.io/kokoweb/
什麼是物件偵測(Object detection)
一張影像經過運算之後得知該影像中有哪些分類別,並得知分類別在影像中的位置
這樣的技術在監視攝影機、自駕車等領域,是相當重要的
框框一般稱為 Bounding boxes
在哪裡
是什麼
YOLO V1 論文導讀
研究常用的資料集
Pascal VOC:
http://host.robots.ox.ac.uk/pascal/VOC/
● Person: person
● Animal: bird, cat, cow, dog, horse, sheep
● Vehicle: aeroplane, bicycle, boat, bus, car, motorbike, train
● Indoor: bottle, chair, dining table, potted plant, sofa, tv/monitor
Pascal VOC 的標記檔
<annotation>
<folder>VOC2012</folder>
<filename>xxxxxxxx.jpg</filename> //文件名稱
<source> //文件來源
<database>The VOC2007 Database</database>
<annotation>PASCAL VOC2007</annotation>
<image>flickr</image>
</source>
<size> //圖片的長、寬、深
<width>500</width>
<height>366</height>
<depth>3</depth>
</size>
<segmented>1</segmented> //是否用於語義分割
<object> //偵測的目標,會有多個物件標簽
<name>aeroplane</name> //類別
<pose>Unspecified</pose> //拍攝角度
<truncated>0</truncated> //是否被截斷、0表示完整
<difficult>0</difficult> //是否容易被識別、0表示容易識別
<bndbox> //bounding-box, 包含左下角和右上角xy坐标
<xmin>9</xmin>
<ymin>107</ymin>
<xmax>499</xmax>
<ymax>263</ymax>
</bndbox>
</object>
...
用來評價物件偵測的IOU是什麼
IOU (Intersection over Union):一般預測最常用的指標是 0.5 IOU, 表示在一次
bounding box 預測中,該 bounding box 算出的 IOU > 0.5 時為預測成功。
用來評價物件偵測的 mAP 是什麼
用來評價物件偵測的 mAP 是什麼
https://sanchom.wordpress.com/tag/average-precision/
mAP(Mean Average Precision)
一個類別可以計算一個 AP
mAP 就是多個類別的 AP 平均起來
注意這是在 PASCAL VOC裡用的 mAP
在 COCO 這個資料集裡用的 mAP還乘上了 IOU
https://medium.com/@jonathan_hui/map-mean-average-precision-for-object-detection-45c121a31173
YOLO V1 在物件偵測的歷史定位
從 R-CNN 到 Fast R-CNN,大幅提高了物件偵測準確程度和效率
YOLO V1 突破了 R-CNN 最大限制:每FPS 偵測得太慢了
YOLO V1 的成功,帶領了後面版本 YOLO 的發展,又能更快更準確
YOLO V1 可以說是承先起後,繼往開來的經典論文!!
YOLO V1 論文導讀
https://www.youtube.com/watch?v=U9c1gXO8xEU
YOLO V1 論文導讀
YOLO V1 的核心精神
“We frame object detection as a regression
problem to spatially separated bounding
boxes and associated class probabilities.”
YOLO V1 論文導讀
每個grid cell 預測
1. B 個框框的位置 (x, y, w, h)
2. 框框有沒有物件(confidence)劃分成 S×S 個grid cell
框框中心落在某grid cell内部
則中心 cell 負責 classification
每個框框預測 C
個條件機率
最後輸出 S x S x (5*B + C) 的 tensor
eg.
S = 7, B = 2, C = 20 (20 classes)
=> 是7×7×30 的 tensor
YOLO 網路架構
受到GoogLeNet啟發,用24個卷積層和2個全連接層
前20個卷積層是用ImageNet pretrain
Activation 用 Leaky ReLU
除了最後一層用 Linear
直接吐血的loss function
直接吐血的loss function
https://blog.csdn.net/c20081052/article/details/80236015
YOLO V1 論文導讀
Sum-squared error
這麼長的loss function,本質上是Sum-squared error
大框框和小框框會提供同樣的權重
小error 在小框框中會對 IOU造成比較大的影響
和其他模型的比较
跟 Fast R-CNN 的比较
兩個模型二合一
注意速度還是被Fast R-CNN所限制
VOC 2012 排行榜
YOLO V1 辨識畫作的能力很強
YOLO V1 辨識畫作的能力很強
实际辨识照片也很準
YOLO V1 的缺陷
在物件偵測的定位(location)上,還輸給 Fast R-CNN
物件太小或靠得太近的話,辨識會較差
為了求快,所以downsampling,在太過細緻的特徵上不易辨別
小error 在小框框中會對 IOU造成比較大的影響
YOLO V1 之後的研究
出了很多的升級版
YOLO V1 -> YOLO V2 -> YOLO 9000 -> YOLO V3
歡迎繼續來AI Tech 社群聽之後的論文導讀
YOLO V1結語
mAP 比 R-CNN 來得高,更加準確
有高FPS的辨識的需求,導入 YOLO 是比較好選擇
如果要辨識的目標太小或太近,可能會影響成功率
可以直接用後面版的YOLO
目前专案分享
YOLO 官網:https://pjreddie.com/darknet/yolo/
程式碼:https://zhuanlan.zhihu.com/p/25053311
謝謝大家
歡迎討論指教
Ad

Recommended

從圖像辨識到物件偵測,進階的圖影像人工智慧 (From Image Classification to Object Detection, Advance...
從圖像辨識到物件偵測,進階的圖影像人工智慧 (From Image Classification to Object Detection, Advance...
Jian-Kai Wang
?
鲍滨の色のコントラスト比十分ですか?
鲍滨の色のコントラスト比十分ですか?
Kasumi Morita
?
贬础罢贰罢搁滨厂を攻略する础滨を作る
贬础罢贰罢搁滨厂を攻略する础滨を作る
threepipes_s
?
サイレントシーズン叠颁滨
サイレントシーズン叠颁滨
Takashi Ito
?
アセット生成AIで作成したキャラクターをリリースした事例 ~これが『逆転オセロニア』のエイプリルフール!~
アセット生成AIで作成したキャラクターをリリースした事例 ~これが『逆転オセロニア』のエイプリルフール!~
TakumaYoshimura
?
贬辞濒辞尝别苍蝉ハンズオン:ハンドトラッキング&补尘辫;音声入力编
贬辞濒辞尝别苍蝉ハンズオン:ハンドトラッキング&补尘辫;音声入力编
Takashi Yoshinaga
?
笔尝/笔测迟丑辞苍で独自の集约関数を作ってみる
笔尝/笔测迟丑辞苍で独自の集约関数を作ってみる
Uptime Technologies LLC (JP)
?
Structure from Motion
Structure from Motion
Ryutaro Yamauchi
?
技术系文书作成のコツ
技术系文书作成のコツ
Hideo Terada
?
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII
?
础搁マーカーを利用した贬辞濒辞尝别苍蝉同士の位置合わせ
础搁マーカーを利用した贬辞濒辞尝别苍蝉同士の位置合わせ
Takahiro Miyaura
?
20210711 deepI2P
20210711 deepI2P
Takuya Minagawa
?
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII
?
ポアソン画像合成
ポアソン画像合成
Arumaziro
?
MRTKをNreal Lightに対応させてみた
MRTKをNreal Lightに対応させてみた
Takashi Yoshinaga
?
搁翱厂でつながる痴搁颁丑补迟
搁翱厂でつながる痴搁颁丑补迟
Hirokazu Onomichi
?
めざせスカウター! HoloLensによる特定個人の 顔認識アプリ制作とその課題
めざせスカウター! HoloLensによる特定個人の 顔認識アプリ制作とその課題
Kenta Iwasaki
?
[第2回3D勉強会 研究紹介] Neural 3D Mesh Renderer (CVPR 2018)
[第2回3D勉強会 研究紹介] Neural 3D Mesh Renderer (CVPR 2018)
Hiroharu Kato
?
并列化による高速化
并列化による高速化
sakura-mike
?
[DL輪読会]Multi-Agent Cooperation and the Emergence of (Natural) Language
[DL輪読会]Multi-Agent Cooperation and the Emergence of (Natural) Language
Deep Learning JP
?
No011-01-Suc3rum-20100225
No011-01-Suc3rum-20100225
Sukusuku Scrum
?
猫でも分かるUE4を使った VRコンテンツ開発 超入門編 2021
猫でも分かるUE4を使った VRコンテンツ開発 超入門編 2021
エピック?ゲームズ?ジャパン Epic Games Japan
?
Tesseract ocr
Tesseract ocr
Takuya Minagawa
?
第1回ROS勉強会発表資料 ROS+Gazeboではじめるロボットシミュレーション
第1回ROS勉強会発表資料 ROS+Gazeboではじめるロボットシミュレーション
akio19937
?
Virtual Tsukuba Challenge on Unity について
Virtual Tsukuba Challenge on Unity について
UnityTechnologiesJapan002
?
SSII2019企画: 画像および LiDAR を用いた自動走行に関する動向
SSII2019企画: 画像および LiDAR を用いた自動走行に関する動向
SSII
?
Hololens2 MRTK2.7(OpenXR) でのビルド環境構築(環境設定からビルドまで)
Hololens2 MRTK2.7(OpenXR) でのビルド環境構築(環境設定からビルドまで)
聡 大久保
?
ゲーム开発におけるバックトラック法
ゲーム开発におけるバックトラック法
大介 束田
?
應用 LLM 框架:LangChain 入門工作坊,LangChain Workshop
應用 LLM 框架:LangChain 入門工作坊,LangChain Workshop
Ko Ko
?
20240912 Hello World Dev Conference 工作坊「使用 LangServe 快速部署 AI」
20240912 Hello World Dev Conference 工作坊「使用 LangServe 快速部署 AI」
Ko Ko
?

More Related Content

What's hot (20)

技术系文书作成のコツ
技术系文书作成のコツ
Hideo Terada
?
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII
?
础搁マーカーを利用した贬辞濒辞尝别苍蝉同士の位置合わせ
础搁マーカーを利用した贬辞濒辞尝别苍蝉同士の位置合わせ
Takahiro Miyaura
?
20210711 deepI2P
20210711 deepI2P
Takuya Minagawa
?
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII
?
ポアソン画像合成
ポアソン画像合成
Arumaziro
?
MRTKをNreal Lightに対応させてみた
MRTKをNreal Lightに対応させてみた
Takashi Yoshinaga
?
搁翱厂でつながる痴搁颁丑补迟
搁翱厂でつながる痴搁颁丑补迟
Hirokazu Onomichi
?
めざせスカウター! HoloLensによる特定個人の 顔認識アプリ制作とその課題
めざせスカウター! HoloLensによる特定個人の 顔認識アプリ制作とその課題
Kenta Iwasaki
?
[第2回3D勉強会 研究紹介] Neural 3D Mesh Renderer (CVPR 2018)
[第2回3D勉強会 研究紹介] Neural 3D Mesh Renderer (CVPR 2018)
Hiroharu Kato
?
并列化による高速化
并列化による高速化
sakura-mike
?
[DL輪読会]Multi-Agent Cooperation and the Emergence of (Natural) Language
[DL輪読会]Multi-Agent Cooperation and the Emergence of (Natural) Language
Deep Learning JP
?
No011-01-Suc3rum-20100225
No011-01-Suc3rum-20100225
Sukusuku Scrum
?
猫でも分かるUE4を使った VRコンテンツ開発 超入門編 2021
猫でも分かるUE4を使った VRコンテンツ開発 超入門編 2021
エピック?ゲームズ?ジャパン Epic Games Japan
?
Tesseract ocr
Tesseract ocr
Takuya Minagawa
?
第1回ROS勉強会発表資料 ROS+Gazeboではじめるロボットシミュレーション
第1回ROS勉強会発表資料 ROS+Gazeboではじめるロボットシミュレーション
akio19937
?
Virtual Tsukuba Challenge on Unity について
Virtual Tsukuba Challenge on Unity について
UnityTechnologiesJapan002
?
SSII2019企画: 画像および LiDAR を用いた自動走行に関する動向
SSII2019企画: 画像および LiDAR を用いた自動走行に関する動向
SSII
?
Hololens2 MRTK2.7(OpenXR) でのビルド環境構築(環境設定からビルドまで)
Hololens2 MRTK2.7(OpenXR) でのビルド環境構築(環境設定からビルドまで)
聡 大久保
?
ゲーム开発におけるバックトラック法
ゲーム开発におけるバックトラック法
大介 束田
?
技术系文书作成のコツ
技术系文书作成のコツ
Hideo Terada
?
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII
?
础搁マーカーを利用した贬辞濒辞尝别苍蝉同士の位置合わせ
础搁マーカーを利用した贬辞濒辞尝别苍蝉同士の位置合わせ
Takahiro Miyaura
?
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII
?
ポアソン画像合成
ポアソン画像合成
Arumaziro
?
MRTKをNreal Lightに対応させてみた
MRTKをNreal Lightに対応させてみた
Takashi Yoshinaga
?
搁翱厂でつながる痴搁颁丑补迟
搁翱厂でつながる痴搁颁丑补迟
Hirokazu Onomichi
?
めざせスカウター! HoloLensによる特定個人の 顔認識アプリ制作とその課題
めざせスカウター! HoloLensによる特定個人の 顔認識アプリ制作とその課題
Kenta Iwasaki
?
[第2回3D勉強会 研究紹介] Neural 3D Mesh Renderer (CVPR 2018)
[第2回3D勉強会 研究紹介] Neural 3D Mesh Renderer (CVPR 2018)
Hiroharu Kato
?
并列化による高速化
并列化による高速化
sakura-mike
?
[DL輪読会]Multi-Agent Cooperation and the Emergence of (Natural) Language
[DL輪読会]Multi-Agent Cooperation and the Emergence of (Natural) Language
Deep Learning JP
?
No011-01-Suc3rum-20100225
No011-01-Suc3rum-20100225
Sukusuku Scrum
?
第1回ROS勉強会発表資料 ROS+Gazeboではじめるロボットシミュレーション
第1回ROS勉強会発表資料 ROS+Gazeboではじめるロボットシミュレーション
akio19937
?
Virtual Tsukuba Challenge on Unity について
Virtual Tsukuba Challenge on Unity について
UnityTechnologiesJapan002
?
SSII2019企画: 画像および LiDAR を用いた自動走行に関する動向
SSII2019企画: 画像および LiDAR を用いた自動走行に関する動向
SSII
?
Hololens2 MRTK2.7(OpenXR) でのビルド環境構築(環境設定からビルドまで)
Hololens2 MRTK2.7(OpenXR) でのビルド環境構築(環境設定からビルドまで)
聡 大久保
?
ゲーム开発におけるバックトラック法
ゲーム开発におけるバックトラック法
大介 束田
?

More from Ko Ko (20)

應用 LLM 框架:LangChain 入門工作坊,LangChain Workshop
應用 LLM 框架:LangChain 入門工作坊,LangChain Workshop
Ko Ko
?
20240912 Hello World Dev Conference 工作坊「使用 LangServe 快速部署 AI」
20240912 Hello World Dev Conference 工作坊「使用 LangServe 快速部署 AI」
Ko Ko
?
DevDays Asia 2024 Demo LangChain 與 Azure
DevDays Asia 2024 Demo LangChain 與 Azure
Ko Ko
?
LangServe source code explain in 2024 COSCUP
LangServe source code explain in 2024 COSCUP
Ko Ko
?
The theory of vector database and qdrant
The theory of vector database and qdrant
Ko Ko
?
Langchain and Azure ML and Open AI
Langchain and Azure ML and Open AI
Ko Ko
?
20230830 淺談 Azure OpenAI.pdf
20230830 淺談 Azure OpenAI.pdf
Ko Ko
?
Learn Django With ChatGPT
Learn Django With ChatGPT
Ko Ko
?
Introduction Hugging face.pdf
Introduction Hugging face.pdf
Ko Ko
?
Building Chatbot With Huggging Face
Building Chatbot With Huggging Face
Ko Ko
?
Triton As NLP Model Inference Back-end
Triton As NLP Model Inference Back-end
Ko Ko
?
Run Bokeh in back-end, draw real-time charts to front-end, and make data sc...
Run Bokeh in back-end, draw real-time charts to front-end, and make data sc...
Ko Ko
?
入門 Teams Bot
入門 Teams Bot
Ko Ko
?
Introduction to MLOps in Azure Machine Learning with Live Demo
Introduction to MLOps in Azure Machine Learning with Live Demo
Ko Ko
?
Azure Machine Learning 重頭學
Azure Machine Learning 重頭學
Ko Ko
?
厂颈驳苍补濒搁整合尝滨狈贰,在尝滨贵贵裡建立一对一聊天管道
厂颈驳苍补濒搁整合尝滨狈贰,在尝滨贵贵裡建立一对一聊天管道
Ko Ko
?
來玩 Bot Framework Composer 2.0版吧!
來玩 Bot Framework Composer 2.0版吧!
Ko Ko
?
用 C# 與 .NET 也能打造機器學習模型:你所不知道的 ML.NET 初體驗
用 C# 與 .NET 也能打造機器學習模型:你所不知道的 ML.NET 初體驗
Ko Ko
?
聊天机器人的行销与开发技巧应用在婚礼上
聊天机器人的行销与开发技巧应用在婚礼上
Ko Ko
?
ML.NET 在遷移式學習的應用與挑戰
ML.NET 在遷移式學習的應用與挑戰
Ko Ko
?
應用 LLM 框架:LangChain 入門工作坊,LangChain Workshop
應用 LLM 框架:LangChain 入門工作坊,LangChain Workshop
Ko Ko
?
20240912 Hello World Dev Conference 工作坊「使用 LangServe 快速部署 AI」
20240912 Hello World Dev Conference 工作坊「使用 LangServe 快速部署 AI」
Ko Ko
?
DevDays Asia 2024 Demo LangChain 與 Azure
DevDays Asia 2024 Demo LangChain 與 Azure
Ko Ko
?
LangServe source code explain in 2024 COSCUP
LangServe source code explain in 2024 COSCUP
Ko Ko
?
The theory of vector database and qdrant
The theory of vector database and qdrant
Ko Ko
?
Langchain and Azure ML and Open AI
Langchain and Azure ML and Open AI
Ko Ko
?
20230830 淺談 Azure OpenAI.pdf
20230830 淺談 Azure OpenAI.pdf
Ko Ko
?
Learn Django With ChatGPT
Learn Django With ChatGPT
Ko Ko
?
Introduction Hugging face.pdf
Introduction Hugging face.pdf
Ko Ko
?
Building Chatbot With Huggging Face
Building Chatbot With Huggging Face
Ko Ko
?
Triton As NLP Model Inference Back-end
Triton As NLP Model Inference Back-end
Ko Ko
?
Run Bokeh in back-end, draw real-time charts to front-end, and make data sc...
Run Bokeh in back-end, draw real-time charts to front-end, and make data sc...
Ko Ko
?
入門 Teams Bot
入門 Teams Bot
Ko Ko
?
Introduction to MLOps in Azure Machine Learning with Live Demo
Introduction to MLOps in Azure Machine Learning with Live Demo
Ko Ko
?
Azure Machine Learning 重頭學
Azure Machine Learning 重頭學
Ko Ko
?
厂颈驳苍补濒搁整合尝滨狈贰,在尝滨贵贵裡建立一对一聊天管道
厂颈驳苍补濒搁整合尝滨狈贰,在尝滨贵贵裡建立一对一聊天管道
Ko Ko
?
來玩 Bot Framework Composer 2.0版吧!
來玩 Bot Framework Composer 2.0版吧!
Ko Ko
?
用 C# 與 .NET 也能打造機器學習模型:你所不知道的 ML.NET 初體驗
用 C# 與 .NET 也能打造機器學習模型:你所不知道的 ML.NET 初體驗
Ko Ko
?
聊天机器人的行销与开发技巧应用在婚礼上
聊天机器人的行销与开发技巧应用在婚礼上
Ko Ko
?
ML.NET 在遷移式學習的應用與挑戰
ML.NET 在遷移式學習的應用與挑戰
Ko Ko
?
Ad

YOLO V1 論文導讀