ভূমিকা
অবজেক্ট ডিটেকশন হল কম্পিউটার ভিশনের একটি বৃহৎ ক্ষেত্র, এবং কম্পিউটার ভিশনের অন্যতম গুরুত্বপূর্ণ অ্যাপ্লিকেশন "বন্যে"।
অবজেক্ট ডিটেকশন ইমেজ শ্রেণীবিভাগের মতো প্রমিত নয়, প্রধানত কারণ বেশিরভাগ নতুন বিকাশ সাধারণত বড় লাইব্রেরি এবং ফ্রেমওয়ার্কের পরিবর্তে পৃথক গবেষক, রক্ষণাবেক্ষণকারী এবং বিকাশকারীদের দ্বারা করা হয়। TensorFlow বা PyTorch-এর মতো একটি কাঠামোতে প্রয়োজনীয় ইউটিলিটি স্ক্রিপ্টগুলি প্যাকেজ করা এবং এপিআই নির্দেশিকাগুলি বজায় রাখা কঠিন যা এখন পর্যন্ত বিকাশকে নির্দেশ করেছে।
এটি বস্তুর শনাক্তকরণকে কিছুটা জটিল করে তোলে, সাধারণত আরও ভার্বস (কিন্তু সবসময় নয়), এবং চিত্রের শ্রেণীবিভাগের তুলনায় কম অ্যাক্সেসযোগ্য।
সৌভাগ্যবশত জনসাধারণের জন্য - Ultralytics তাদের YOLOv5 এর আশেপাশে একটি সহজ, খুব শক্তিশালী এবং সুন্দর অবজেক্ট ডিটেকশন API তৈরি করেছে যা অন্যান্য গবেষণা এবং উন্নয়ন দলগুলি YOLOv7 এর মতো নতুন সংস্করণে প্রসারিত করেছে।
এই সংক্ষিপ্ত নির্দেশিকাতে, আমরা Python-এ অত্যাধুনিক YOLOv7 সহ পোজ এস্টিমেশন (কীপয়েন্ট ডিটেকশন) সম্পাদন করব।
কীপয়েন্টগুলি বিভিন্ন পয়েন্ট হতে পারে - মুখের অংশ, শরীরের অঙ্গপ্রত্যঙ্গ ইত্যাদি। পোজ অনুমান হল কীপয়েন্ট সনাক্তকরণের একটি বিশেষ কেস - যেখানে পয়েন্টগুলি একটি মানব দেহের অংশ, এবং ব্যয়বহুল অবস্থান ট্র্যাকিং হার্ডওয়্যার প্রতিস্থাপন করতে ব্যবহার করা যেতে পারে, ওভার-দ্য-এয়ার রোবোটিক্স নিয়ন্ত্রণ সক্ষম করুন এবং AR এবং VR-এর মাধ্যমে মানুষের আত্মপ্রকাশের একটি নতুন যুগকে শক্তিশালী করুন।
YOLO এবং পোজ অনুমান
YOLO (আপনি শুধুমাত্র একবার দেখুন) একটি পদ্ধতি, সেইসাথে বস্তু সনাক্তকরণের জন্য নির্মিত মডেলের পরিবার। 2015 সালে সূচনা হওয়ার পর থেকে, YOLOv1, YOLOv2 (YOLO9000) এবং YOLOv3 একই লেখক(রা) দ্বারা প্রস্তাবিত হয়েছে – এবং গভীর শিক্ষার সম্প্রদায় অব্যাহত বছরগুলিতে ওপেন সোর্সড অগ্রগতি অব্যাহত রেখেছে।
Ultralytics' YOLOv5 PyTorch-এ YOLO-এর প্রথম বড় আকারের বাস্তবায়ন, যা এটিকে আগের চেয়ে আরও বেশি অ্যাক্সেসযোগ্য করে তুলেছে, কিন্তু YOLOv5-এর এমন একটি পা রাখার প্রধান কারণ হল এর চারপাশে নির্মিত সুন্দর সহজ এবং শক্তিশালী API। প্রকল্পটি অপ্রয়োজনীয় বিশদগুলিকে বিমূর্ত করে, কাস্টমাইজ করার অনুমতি দেয়, কার্যত সমস্ত ব্যবহারযোগ্য রপ্তানি বিন্যাস, এবং আশ্চর্যজনক অনুশীলনগুলি নিয়োগ করে যা সমগ্র প্রকল্পটিকে দক্ষ এবং যতটা হতে পারে ততটা অনুকূল করে তোলে।
YOLOv5 এখনও অবজেক্ট ডিটেকশন মডেল তৈরি করার প্রধান প্রকল্প, এবং অনেক রিপোজিটরি যা YOLO পদ্ধতিকে অগ্রসর করার লক্ষ্যে YOLOv5 দিয়ে একটি বেসলাইন হিসাবে শুরু করে এবং একটি অনুরূপ API অফার করে (অথবা কেবল প্রকল্পটি কাঁটাচামচ করে এটির উপরে তৈরি করে)। এরকমই ঘটনা YOLOR (আপনি শুধুমাত্র একটি প্রতিনিধিত্ব শিখুন) এবং YOLOv7 যা YOLOR (একই লেখক) এর উপরে নির্মিত যা YOLO পদ্ধতির সর্বশেষ অগ্রগতি।
YOLOv7 শুধুমাত্র একটি অবজেক্ট ডিটেকশন আর্কিটেকচার নয় - নতুন মডেল হেড প্রদান করে, যা কিপয়েন্ট (কঙ্কাল) আউটপুট করতে পারে এবং শুধুমাত্র বাউন্ডিং বক্স রিগ্রেশন ছাড়াও ইনস্ট্যান্স সেগমেন্টেশন করতে পারে, যা পূর্ববর্তী YOLO মডেলের সাথে মানসম্মত ছিল না। এটা আশ্চর্যজনক কিছু নয়, যেহেতু অনেক অবজেক্ট ডিটেকশন আর্কিটেকচার আগেও উদাহরণ সেগমেন্টেশন এবং কীপয়েন্ট ডিটেকশন টাস্কের জন্য পুনরুজ্জীবিত করা হয়েছিল, শেয়ার করা সাধারণ আর্কিটেকচারের কারণে, টাস্কের উপর নির্ভর করে বিভিন্ন আউটপুট সহ। যদিও এটি আশ্চর্যজনক নয় - সমর্থনকারী উদাহরণ বিভাজন এবং কীপয়েন্ট সনাক্তকরণ সম্ভবত YOLO-ভিত্তিক মডেলগুলির জন্য নতুন স্ট্যান্ডার্ড হয়ে উঠবে, যা কয়েক বছর আগে কার্যত অন্য সমস্ত দ্বি-পর্যায়ের ডিটেক্টরকে ছাড়িয়ে যেতে শুরু করেছে।
এটি ইন্সট্যান্স সেগমেন্টেশন এবং কীপয়েন্ট সনাক্তকরণকে আগের চেয়ে দ্রুততর করে তোলে, দ্বি-পর্যায়ের ডিটেক্টরের চেয়ে সহজ আর্কিটেকচারের সাথে।
মডেলটি নিজেই স্থাপত্য পরিবর্তনের মাধ্যমে তৈরি করা হয়েছিল, সেইসাথে প্রশিক্ষণের অপ্টিমাইজিং দিকগুলিকে "ব্যাগ-অফ-ফ্রিবিস" হিসাবে ডাকা হয়েছে, যা অনুমান খরচ না বাড়িয়ে নির্ভুলতা বাড়িয়েছে।
YOLOv7 ইনস্টল করা হচ্ছে
আসুন এগিয়ে যান এবং গিটহাব থেকে প্রকল্পটি ইনস্টল করি:
! git clone https://github.com/WongKinYiu/yolov7.git
এটি তৈরি করে a yolov7
আপনার বর্তমান কাজের ডিরেক্টরির অধীনে ডিরেক্টরি, যেখানে আপনি মৌলিক প্রকল্প ফাইলগুলি খুঁজে পেতে সক্ষম হবেন:
%cd yolov7
!ls
/Users/macbookpro/jup/yolov7
LICENSE.md detect.py models tools
README.md export.py paper train.py
cfg figure requirements.txt train_aux.py
data hubconf.py scripts utils
deploy inference test.py
বিঃদ্রঃ: Google Colab Notebooks কল করার পরেও পরবর্তী সেলের প্রধান কার্যকারী ডিরেক্টরিতে রিসেট করে %cd dirname
, তাই আপনাকে প্রতিটি কক্ষে এটিকে কল করতে হবে যেখানে আপনি একটি অপারেশন করতে চান৷ স্থানীয় জুপিটার নোটবুকগুলি পরিবর্তনটি মনে রাখে, তাই কমান্ডটি কল করা চালিয়ে যাওয়ার দরকার নেই৷
যখনই আপনি একটি নির্দিষ্ট ওজনের সেট সহ কোড চালান - সেগুলি এই ডিরেক্টরিতে ডাউনলোড এবং সংরক্ষণ করা হবে। ভঙ্গি অনুমান সঞ্চালন করতে, আমরা সেই কাজের জন্য প্রাক-প্রশিক্ষিত YOLOv7 মডেলের ওজন ডাউনলোড করতে চাই, যা নীচে পাওয়া যাবে /releases/download/
GitHub এ ট্যাব:
! curl -L https://github.com/WongKinYiu/yolov7/releases/download/v0.1/yolov7-w6-pose.pt -o yolov7-w6-pose.pt
%cd ..
% Total % Received % Xferd Average Speed Time Time Time Current
Dload Upload Total Spent Left Speed
0 0 0 0 0 0 0 0 --:--:-- --:--:-- --:--:-- 0
100 153M 100 153M 0 0 3742k 0 0:00:42 0:00:42 --:--:-- 4573k
/Users/macbookpro/jup
চমৎকার, আমরা ডাউনলোড করেছি yolov7-w6-pose.pt
ওজন ফাইল, যা পোজ অনুমানের জন্য একটি প্রশিক্ষিত মডেল লোড এবং পুনর্গঠন করতে ব্যবহার করা যেতে পারে।
YOLOv7 পোজ অনুমান মডেল লোড করা হচ্ছে
আসুন লাইব্রেরিগুলি আমদানি করি যা আমাদের পোজ অনুমান সম্পাদন করতে হবে:
import torch
from torchvision import transforms
from utils.datasets import letterbox
from utils.general import non_max_suppression_kpt
from utils.plots import output_to_keypoint, plot_skeleton_kpts
import matplotlib.pyplot as plt
import cv2
import numpy as np
torch
এবং torchvision
যথেষ্ট সহজবোধ্য - YOLOv7 PyTorch এর সাথে প্রয়োগ করা হয়েছে। দ্য utils.datasets
, utils.general
এবং utils.plots
মডিউলগুলি YOLOv7 প্রকল্প থেকে আসে এবং আমাদেরকে এমন পদ্ধতিগুলি সরবরাহ করে যা অনুমান চালানোর জন্য মডেলের জন্য প্রিপ্রসেসিং এবং ইনপুট প্রস্তুত করতে সহায়তা করে। এর মধ্যে রয়েছে letterbox()
ছবি প্যাড করতে, non_max_supression_keypoint()
মডেলের প্রাথমিক আউটপুটে নন-ম্যাক্স সাপ্রেশন অ্যালগরিদম চালানোর জন্য এবং আমাদের ব্যাখ্যার জন্য একটি পরিষ্কার আউটপুট তৈরি করতে, সেইসাথে output_to_keypoint()
এবং plot_skeleton_kpts()
একটি প্রদত্ত ছবিতে কীপয়েন্ট যোগ করার পদ্ধতি, একবার সেগুলি পূর্বাভাস দেওয়া হয়।
আমরা ওজন ফাইল থেকে মডেল লোড করতে পারেন সঙ্গে torch.load()
. একটি জিপিইউ উপলব্ধ আছে কিনা তা পরীক্ষা করার জন্য একটি ফাংশন তৈরি করুন, মডেলটি লোড করুন, এটিকে ইনফারেন্স মোডে রাখুন এবং যদি উপলব্ধ থাকে তবে এটিকে জিপিইউতে স্থানান্তর করুন:
def load_model():
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
model = torch.load('yolov7/yolov7-w6-pose.pt', map_location=device)['model']
model.float().eval()
if torch.cuda.is_available():
model.half().to(device)
return model
model = load_model()
সেরা-অভ্যাস, শিল্প-স্বীকৃত মান এবং অন্তর্ভুক্ত চিট শীট সহ গিট শেখার জন্য আমাদের হ্যান্ডস-অন, ব্যবহারিক গাইড দেখুন। গুগলিং গিট কমান্ড এবং আসলে বন্ধ করুন শেখা এটা!
মডেল লোড দিয়ে, এর একটি তৈরি করা যাক run_inference()
পদ্ধতি যা আমাদের সিস্টেমে একটি ফাইল নির্দেশ করে একটি স্ট্রিং গ্রহণ করে। পদ্ধতিটি OpenCV ব্যবহার করে চিত্রটি পড়বে (cv2
), এটি দিয়ে প্যাড করুন letterbox()
, এটিতে রূপান্তরগুলি প্রয়োগ করুন এবং এটিকে একটি ব্যাচে পরিণত করুন (মডেলটি প্রশিক্ষিত এবং ব্যাচ আশা করে, যথারীতি):
def run_inference(url):
image = cv2.imread(url)
image = letterbox(image, 960, stride=64, auto=True)[0]
image = transforms.ToTensor()(image)
image = image.unsqueeze(0)
output, _ = model(image)
return output, image
এখানে, আমরা রূপান্তরিত চিত্রটি ফিরিয়ে দিয়েছি (কারণ আমরা আসলটি বের করতে চাই এবং এটিতে প্লট করতে চাই) এবং মডেলের আউটপুট। এই আউটপুটগুলিতে 45900টি কীপয়েন্ট পূর্বাভাস রয়েছে, যার বেশিরভাগই ওভারল্যাপ করে। আমরা এই কাঁচা ভবিষ্যদ্বাণীগুলিতে নন-ম্যাক্স সাপ্রেশন প্রয়োগ করতে চাই, ঠিক যেমন অবজেক্ট ডিটেকশন ভবিষ্যদ্বাণীগুলির সাথে (যেখানে অনেকগুলি বাউন্ডিং বাক্সের পূর্বাভাস দেওয়া হয় এবং তারপরে কিছু আত্মবিশ্বাস এবং IoU থ্রেশহোল্ড দেওয়া হলে সেগুলি "পতন" হয়)। দমন করার পরে, আমরা মূল চিত্রটিতে প্রতিটি কীপয়েন্ট প্লট করতে পারি এবং এটি প্রদর্শন করতে পারি:
def visualize_output(output, image):
output = non_max_suppression_kpt(output,
0.25,
0.65,
nc=model.yaml['nc'],
nkpt=model.yaml['nkpt'],
kpt_label=True)
with torch.no_grad():
output = output_to_keypoint(output)
nimg = image[0].permute(1, 2, 0) * 255
nimg = nimg.cpu().numpy().astype(np.uint8)
nimg = cv2.cvtColor(nimg, cv2.COLOR_RGB2BGR)
for idx in range(output.shape[0]):
plot_skeleton_kpts(nimg, output[idx, 7:].T, 3)
plt.figure(figsize=(12, 12))
plt.axis('off')
plt.imshow(nimg)
plt.show()
এখন, কিছু ইনপুট ছবির জন্য, যেমন karate.jpg
প্রধান কার্যকারী ডিরেক্টরিতে, আমরা অনুমান চালাতে পারি, নন-ম্যাক্স সাপ্রেশন করতে পারি এবং এর সাথে ফলাফল প্লট করতে পারি:
output, image = run_inference('./karate.jpg')
visualize_output(output, image)
এর ফলে:
এটি অনুমান করা একটি মোটামুটি কঠিন চিত্র! ডানদিকে অনুশীলনকারীর ডান হাতের বেশিরভাগ অংশ লুকানো আছে, এবং আমরা দেখতে পাচ্ছি যে মডেলটি অনুমান করেছে যে এটি লুকানো এবং শরীরের ডানদিকে, অনুপস্থিত যে কনুই বাঁকানো আছে এবং বাহুর একটি অংশ সামনে রয়েছে . বাম দিকের অনুশীলনকারী, যা অনেক বেশি স্পষ্টভাবে দেখা যায়, এমনকি একটি লুকানো পা দিয়েও সঠিকভাবে অনুমান করা হয়।
প্রকৃতপক্ষে - পিছনে বসা একজন ব্যক্তি, ক্যামেরার কাছে প্রায় সম্পূর্ণ অদৃশ্য বসার সময় নিতম্বের অবস্থানের উপর ভিত্তি করে তাদের ভঙ্গি আপাতদৃষ্টিতে সঠিকভাবে অনুমান করা হয়েছে। নেটওয়ার্কের পক্ষে দুর্দান্ত কাজ!
উপসংহার
এই নির্দেশিকায় - আমরা YOLOv7-এ সংক্ষিপ্তভাবে দেখেছি, YOLO পরিবারের সর্বশেষ অগ্রগতি, যা YOLOR-এর উপরে তৈরি করে এবং আরও বেশির ভাগ YOLO-ভিত্তিক মডেলের মানক বস্তু সনাক্তকরণ ক্ষমতার বাইরে ইন্সট্যান্স সেগমেন্টেশন এবং কীপয়েন্ট সনাক্তকরণ ক্ষমতা প্রদান করে। .
তারপরে আমরা দেখেছি কিভাবে আমরা প্রকাশ করা ওজনের ফাইলগুলি ডাউনলোড করতে পারি, একটি মডেল তৈরি করতে সেগুলি লোড করতে পারি এবং মানুষের জন্য পোজ অনুমান অনুমান সম্পাদন করতে পারি, যা চিত্তাকর্ষক ফলাফল দেয়।
আরও এগিয়ে যাওয়া - কম্পিউটার ভিশনের জন্য ব্যবহারিক গভীর শিক্ষা
আপনার অনুসন্ধিৎসু প্রকৃতি আপনাকে আরও যেতে চায়? আমরা আমাদের চেক আউট সুপারিশ পথ: "পাইথনের সাথে কম্পিউটার ভিশনের জন্য ব্যবহারিক গভীর শিক্ষা".
আরেকটি কম্পিউটার ভিশন কোর্স?
আমরা MNIST সংখ্যা বা MNIST ফ্যাশনের শ্রেণিবিন্যাস করব না। তারা অনেক আগে থেকেই তাদের দায়িত্ব পালন করেছে। উন্নত ব্ল্যাক-বক্স আর্কিটেকচারগুলিকে পারফরম্যান্সের ভার বহন করতে দেওয়ার আগে অনেকগুলি শেখার সংস্থান মৌলিক ডেটাসেট এবং মৌলিক আর্কিটেকচারের উপর ফোকাস করছে।
আমরা ফোকাস করতে চাই demystification, বাস্তবতা, বোধশক্তি, স্বজ্ঞা এবং বাস্তব প্রকল্প. শিখতে চাই কিভাবে আপনি একটি পার্থক্য করতে পারেন? স্তন ক্যান্সারের জন্য আমাদের মস্তিষ্ক যেভাবে ছবিগুলিকে প্রক্রিয়াকরণ করে, তার থেকে শুরু করে স্তন ক্যান্সারের জন্য একটি গবেষণা-গ্রেড ডিপ লার্নিং ক্লাসিফায়ার লেখা পর্যন্ত আমরা আপনাকে "হ্যালুসিনেট" করার নেটওয়ার্কগুলিতে নিয়ে যাব, আপনাকে ব্যবহারিক কাজের মাধ্যমে নীতি ও তত্ত্ব শেখাবো, আপনাকে সজ্জিত করব কম্পিউটারের দৃষ্টিভঙ্গি সমাধানের জন্য গভীর শিক্ষা প্রয়োগে বিশেষজ্ঞ হওয়ার উপায় এবং সরঞ্জাম।
ভিতরে কি?
- দৃষ্টির প্রথম নীতি এবং কীভাবে কম্পিউটারকে "দেখতে" শেখানো যায়
- কম্পিউটার ভিশনের বিভিন্ন কাজ এবং অ্যাপ্লিকেশন
- ট্রেডের টুল যা আপনার কাজকে সহজ করে তুলবে
- কম্পিউটার ভিশনের জন্য ডেটাসেট খোঁজা, তৈরি এবং ব্যবহার করা
- কনভোল্যুশনাল নিউরাল নেটওয়ার্কের তত্ত্ব এবং প্রয়োগ
- ডেটাসেটে ডোমেন শিফট, সহ-ঘটনা এবং অন্যান্য পক্ষপাতগুলি পরিচালনা করা
- আপনার সুবিধার জন্য শেখার স্থানান্তর এবং অন্যদের প্রশিক্ষণের সময় এবং গণনামূলক সংস্থানগুলি ব্যবহার করুন
- একটি অত্যাধুনিক স্তন ক্যান্সারের শ্রেণীবিভাগ তৈরি এবং প্রশিক্ষণ
- কীভাবে মূলধারার ধারণাগুলিতে সংশয়বাদের একটি স্বাস্থ্যকর ডোজ প্রয়োগ করা যায় এবং ব্যাপকভাবে গৃহীত কৌশলগুলির প্রভাব বোঝা যায়
- T-SNE এবং PCA ব্যবহার করে একটি ConvNet-এর "ধারণা স্থান" ভিজ্যুয়ালাইজ করা
- কোম্পানিগুলি কীভাবে ভাল ফলাফল অর্জন করতে কম্পিউটার দৃষ্টি কৌশল ব্যবহার করে তার কেস স্টাডি
- সঠিক মডেল মূল্যায়ন, সুপ্ত স্থান ভিজ্যুয়ালাইজেশন এবং মডেলের মনোযোগ সনাক্তকরণ
- ডোমেন গবেষণা সম্পাদন করা, আপনার নিজস্ব ডেটাসেট প্রক্রিয়াকরণ এবং মডেল পরীক্ষা স্থাপন করা
- অত্যাধুনিক স্থাপত্য, ধারণাগুলির অগ্রগতি, কী সেগুলিকে অনন্য করে তোলে এবং কীভাবে সেগুলি বাস্তবায়ন করা যায়
- KerasCV – একটি আধুনিক পাইপলাইন এবং মডেল তৈরি করার জন্য একটি WIP লাইব্রেরি
- কিভাবে পার্স এবং পেপার পড়ুন এবং সেগুলি নিজেই প্রয়োগ করুন
- আপনার আবেদনের উপর নির্ভর করে মডেল নির্বাচন করুন
- এন্ড-টু-এন্ড মেশিন লার্নিং পাইপলাইন তৈরি করা
- দ্রুত আর-সিএনএন, রেটিনানেট, এসএসডি এবং ইওলোর সাহায্যে অবজেক্ট সনাক্তকরণের উপর ল্যান্ডস্কেপ এবং অন্তর্দৃষ্টি
- উদাহরণ এবং শব্দার্থিক বিভাজন
- YOLOv5 এর সাথে রিয়েল-টাইম অবজেক্ট রিকগনিশন
- YOLOv5 অবজেক্ট ডিটেক্টর প্রশিক্ষণ
- KerasNLP ব্যবহার করে ট্রান্সফরমারের সাথে কাজ করা (শিল্প-শক্তি WIP লাইব্রেরি)
- চিত্রের ক্যাপশন তৈরি করতে ConvNets-এর সাথে ট্রান্সফরমার একীভূত করা
- ডিপড্রিম
- কম্পিউটার ভিশনের জন্য ডিপ লার্নিং মডেল অপ্টিমাইজেশান
- blockchain
- সি ++
- কোড
- coingenius
- কম্পিউটার ভিশন
- গভীর জ্ঞানার্জন
- জাভা
- কীপয়েন্ট সনাক্তকরণ
- মেশিন লার্নিং
- অ ছত্রাকযুক্ত টোকেন
- খোলা সমুদ্র
- পিএইচপি
- Plato
- প্লেটো এআই
- প্লেটো ডেটা ইন্টেলিজেন্স
- প্লেটো গেম
- প্লেটো ব্লকচেইন
- প্লেটোডাটা
- প্লেটোগেমিং
- বহুভুজ
- ভঙ্গি অনুমান
- পাইথন
- পাইটার্চ
- প্রতিক্রিয়া
- স্মার্ট চুক্তি
- সোলানা
- Stackabuse
- টর্চভিশন
- ভাইপার
- Web3
- Yolo
- zephyrnet