টর্চভিশনের আধুনিকীকরণের যাত্রা - টর্চভিশন বিকাশকারীর স্মৃতিকথা - 3 প্লাটোব্লকচেন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.

টর্চভিশনের আধুনিকীকরণের যাত্রা – টর্চভিশন বিকাশকারীর স্মৃতি – ৩

টর্চভিশনের আধুনিকীকরণের যাত্রা – টর্চভিশন বিকাশকারীর স্মৃতি – ৩

আমি শেষবার টর্চভিশন স্মৃতিতে একটি নতুন এন্ট্রি পোস্ট করার পর কিছুক্ষণ হয়ে গেছে ক্রম. ভেবেছিলাম, আমি এর আগে অফিসিয়াল PyTorch ব্লগে খবর শেয়ার করেছি Twitter, আমি ভেবেছিলাম টর্চভিশন (v0.12) এর শেষ প্রকাশে কী ঘটেছিল, পরবর্তীতে কী আসছে (v0.13) এবং 2022H2 এর জন্য আমাদের পরিকল্পনা কী সে সম্পর্কে আরও কথা বলা ভাল ধারণা হবে। আমার লক্ষ্য হল নতুন বৈশিষ্ট্যগুলির একটি ওভারভিউ প্রদানের বাইরে যাওয়া এবং পরবর্তী মাসগুলিতে আমরা কোথায় প্রকল্পটি নিতে চাই তার অন্তর্দৃষ্টি প্রদান করা।

টর্চভিশন v0.12 দ্বৈত ফোকাস সহ একটি বড় রিলিজ ছিল: ক) স্বচ্ছতা উন্নত করতে এবং আরও বেশি সম্প্রদায়ের অবদানকারীদের আকৃষ্ট করতে আমাদের অবচয় এবং মডেল অবদান নীতিগুলি আপডেট করুন এবং খ) জনপ্রিয় নতুন মডেল আর্কিটেকচার, ডেটাসেট এবং ML কৌশলগুলি যুক্ত করে আমাদের আধুনিকীকরণ প্রচেষ্টাকে দ্বিগুণ করুন৷

আমাদের নীতি আপডেট করা হচ্ছে

একটি সফল ওপেন-সোর্স প্রকল্পের মূল চাবিকাঠি হল একটি সুস্থ, সক্রিয় সম্প্রদায় বজায় রাখা যা এতে অবদান রাখে এবং এটিকে এগিয়ে নিয়ে যায়। এইভাবে আমাদের দলের জন্য একটি গুরুত্বপূর্ণ লক্ষ্য হল সম্প্রদায়ের অবদানের সংখ্যা বৃদ্ধি করা, দীর্ঘমেয়াদী দৃষ্টিভঙ্গি সহ সম্প্রদায়কে সাধারণ ক্রমবর্ধমান উন্নতির (বাগ/ডক ফিক্সস) উপরে বড় বৈশিষ্ট্যগুলি (নতুন মডেল, এমএল কৌশল, ইত্যাদি) অবদান রাখতে সক্ষম করা। , ছোট বৈশিষ্ট্য ইত্যাদি)।

ঐতিহাসিকভাবে হলেও সম্প্রদায় ছিল আগ্রহী এই ধরনের বৈশিষ্ট্যগুলি অবদান রাখার জন্য, আমাদের দল সেগুলি গ্রহণ করতে দ্বিধা করেছিল৷ মূল ব্লকার ছিল একটি কংক্রিট মডেল অবদান এবং অবচয় নীতির অভাব। এটি মোকাবেলা করার জন্য, জোয়াও গোমস আমাদের প্রথম খসড়া এবং প্রকাশ করার জন্য সম্প্রদায়ের সাথে কাজ করেছেন মডেল অবদান নির্দেশিকা যা নতুন আর্কিটেকচার, প্রাক-প্রশিক্ষিত ওজন এবং মডেল প্রশিক্ষণের প্রয়োজন এমন বৈশিষ্ট্যগুলি অবদান রাখার প্রক্রিয়া সম্পর্কে স্পষ্টতা প্রদান করে। অধিকন্তু, নিকোলাস আলিঙ্গন একটি কংক্রিট প্রণয়ন এবং গ্রহণ করতে পাইটর্চ কোর বিকাশকারীদের সাথে কাজ করেছেন অবচয় নীতি.

পূর্বোক্ত পরিবর্তনগুলি প্রকল্পে অবিলম্বে ইতিবাচক প্রভাব ফেলেছিল। নতুন অবদান নীতি আমাদেরকে বৃহৎ বৈশিষ্ট্যগুলির জন্য অসংখ্য সম্প্রদায়ের অবদান পেতে সাহায্য করেছে (নীচে আরও বিশদ বিবরণ) এবং পরিষ্কার অবচয় নীতি আমাদের কোড-বেস পরিষ্কার করতে সক্ষম করেছে এবং এখনও নিশ্চিত করেছে যে টর্চভিশন শক্তিশালী ব্যাকওয়ার্ডস সামঞ্জস্যতার গ্যারান্টি দেয়। টর্চভিশনকে প্রাসঙ্গিক এবং তাজা বজায় রাখতে ওপেন সোর্স ডেভেলপার, গবেষণা দল এবং ডাউনস্ট্রিম লাইব্রেরি নির্মাতাদের সাথে কাজ চালিয়ে যেতে আমাদের দল খুবই অনুপ্রাণিত। যদি আপনার কোন প্রতিক্রিয়া, মন্তব্য বা একটি বৈশিষ্ট্য অনুরোধ থাকে পৌঁছনো আমাদেরকে.

টর্চভিশনের আধুনিকীকরণ

এটা কোন গোপন যে গত কয়েক জন্য আমাদের মুক্তি লক্ষ্য টর্চভিশনে সমস্ত প্রয়োজনীয় অগমেন্টেশন, লস, লেয়ার, ট্রেনিং ইউটিলিটি এবং অভিনব আর্কিটেকচার যোগ করা ছিল যাতে আমাদের ব্যবহারকারীরা পাইটর্চ ব্যবহার করে সহজে SOTA ফলাফল পুনরুত্পাদন করতে পারে। টর্চভিশন v0.12 সেই পথে চলতে থাকে:

  • আমাদের রকস্টার সম্প্রদায়ের অবদানকারী, হু ইয়ে এবং ঝিকিয়াং ওয়াং, অবদান রেখেছেন FCOS আর্কিটেকচার যা একটি এক-পর্যায়ের বস্তু সনাক্তকরণ মডেল।

  • নিকোলাস আলিঙ্গন যোগ করে টর্চভিশনে অপটিক্যাল প্রবাহের সমর্থন যোগ করেছেন ভেলা স্থাপত্য।

  • Yiwen গান জন্য সমর্থন যোগ করেছে ভিশন ট্রান্সফরমার (ViT) এবং আমি যোগ করেছি ConvNeXt উন্নত প্রাক-প্রশিক্ষিত ওজন সহ স্থাপত্য।

  • অবশেষে সঙ্গে সাহায্য আমাদের সম্প্রদায়ের, আমরা যোগ করেছি 14টি নতুন শ্রেণীবিভাগ এবং 5 নতুন অপটিক্যাল প্রবাহ ডেটাসেট

  • যথারীতি, রিলিজটি অনেক ছোটো বর্ধন, বাগ ফিক্স এবং ডকুমেন্টেশন উন্নতির সাথে এসেছে। সমস্ত নতুন বৈশিষ্ট্য এবং আমাদের অবদানকারীদের তালিকা দেখতে অনুগ্রহ করে চেক করুন v0.12 রিলিজ নোট.

টর্চভিশন v0.13 প্রায় কোণায়, জুনের শুরুতে এর প্রত্যাশিত প্রকাশের সাথে। উল্লেখযোগ্য সংখ্যক নতুন বৈশিষ্ট্য এবং বড় API উন্নতি সহ এটি একটি খুব বড় রিলিজ।

আধুনিকীকরণ গুটিয়ে নেওয়া এবং SOTA থেকে ব্যবধান বন্ধ করা

আমরা আমাদের চালিয়ে যাচ্ছি গ্রন্থাগারের আধুনিকীকরণের যাত্রা মূল কম্পিউটার ভিশন কাজের জন্য SOTA ফলাফল তৈরি করতে প্রয়োজনীয় আদিম, মডেল আর্কিটেকচার এবং রেসিপি ইউটিলিটি যোগ করে:

  • ভিক্টর ফোমিনের সাহায্যে, আমি গুরুত্বপূর্ণ অনুপস্থিত ডেটা অগমেন্টেশন কৌশলগুলি যেমন যোগ করেছি অগমিক্স, বড় মাপের জিটার ইত্যাদি। এই কৌশলগুলি আমাদের SOTA থেকে ব্যবধান বন্ধ করতে এবং আরও ভাল ওজন তৈরি করতে সক্ষম করেছে (নীচে দেখুন)।

  • আদিত্য ওকে, হু ইয়ে, ইয়াসিন আলুইনি এবং অভিজিৎ দেও-এর সাহায্যে আমরা গুরুত্বপূর্ণ সাধারণ বিল্ডিং ব্লকগুলি যুক্ত করেছি যেমন ড্রপব্লক স্তর, MLP ব্লক, cIoU & dIoU ক্ষতি ইত্যাদি। অবশেষে আমি PyTorch এর একটি দীর্ঘস্থায়ী সমস্যা সমাধানের জন্য শেন লির সাথে কাজ করেছি SyncBatchNorm স্তর যা সনাক্তকরণ মডেলগুলিকে প্রভাবিত করে।

  • জোয়াও গোমেসের সমর্থনে হু ইয়ে যোগ করেন সুইন ট্রান্সফরমার উন্নত প্রাক-প্রশিক্ষিত ওজন সহ। আমি যোগ EfficientNetV2 স্থাপত্য এবং বেশ কিছু পোস্ট-পেপার আর্কিটেকচারাল অপ্টিমাইজেশান বাস্তবায়নের উপর রেটিনানেট, ফাস্টারআরসিএনএন এবং মাস্কআরসিএনএন.

  • PyTorch ব্লগে আমি আগে আলোচনা করেছি, আমরা একটি উন্নত তৈরি করে আমাদের প্রাক-প্রশিক্ষিত ওজন উন্নত করার জন্য উল্লেখযোগ্য প্রচেষ্টা করেছি প্রশিক্ষণ রেসিপি. এটি আমাদের সঠিকতা উন্নত করতে সক্ষম করেছে শ্রেণিবিন্যাস মডেল 3 নির্ভুলতা পয়েন্ট দ্বারা, বিভিন্ন আর্কিটেকচারের জন্য নতুন SOTA অর্জন। জন্য একটি অনুরূপ প্রচেষ্টা সঞ্চালিত হয় সনাক্তকরণ এবং বিভাজন, যেখানে আমরা মডেলগুলির নির্ভুলতা গড়ে 8.1 mAP-এর বেশি উন্নত করেছি৷ অবশেষে ইয়োসুয়া মাইকেল এম সমর্থন যোগ করতে লরা গুস্তাফসন, মান্নাত সিংহন্দ এবং অ্যারন অ্যাডককের সাথে কাজ করেছেন SWAG, ViT এবং RegNets-এর জন্য নতুন অত্যন্ত নির্ভুল অত্যাধুনিক প্রাক-প্রশিক্ষিত ওজনের একটি সেট।

নতুন মাল্টি-ওজন সমর্থন API

আমি হিসাবে পূর্বে আলোচনা PyTorch ব্লগে, TorchVision একাধিক প্রাক-প্রশিক্ষিত ওজনকে সমর্থন করার জন্য তার বিদ্যমান মডেল নির্মাতা প্রক্রিয়া প্রসারিত করেছে। নতুন API সম্পূর্ণরূপে পিছনের দিকে সামঞ্জস্যপূর্ণ, বিভিন্ন ওজন সহ মডেলগুলিকে তাত্ক্ষণিক করার অনুমতি দেয় এবং দরকারী মেটা-ডেটা (যেমন বিভাগ, প্যারামিটারের সংখ্যা, মেট্রিক্স ইত্যাদি) এবং মডেলের প্রিপ্রসেসিং ইনফারেন্স রূপান্তরগুলি পেতে প্রক্রিয়া প্রদান করে। একটি উত্সর্গীকৃত প্রতিক্রিয়া আছে Github এ সমস্যা আমাদের যেকোন রুক্ষ প্রান্ত লোহা করতে সাহায্য করতে।

পরিমার্জিত ডকুমেন্টেশন

নিকোলাস আলিঙ্গন পুনর্গঠন প্রচেষ্টার নেতৃত্বে মডেল ডকুমেন্টেশন টর্চভিশনের। নতুন কাঠামো প্রাক-প্রশিক্ষিত ওজন এবং লাইব্রেরিতে তাদের ব্যবহারের জন্য একটি ভাল ডকুমেন্টেশন অফার করতে মাল্টি-ওয়েট সাপোর্ট API থেকে আসা বৈশিষ্ট্যগুলি ব্যবহার করতে সক্ষম। আমাদের সম্প্রদায়ের সদস্যদের জন্য ব্যাপক চিৎকার আমাদের সাহায্য করছে সময়মত সমস্ত আর্কিটেকচার নথিভুক্ত করুন।

2022H2-এর জন্য আমাদের বিশদ রোডম্যাপ এখনও চূড়ান্ত হয়নি বলে মনে হয়েছে, এখানে কিছু মূল প্রকল্প রয়েছে যা আমরা বর্তমানে কাজ করার পরিকল্পনা করছি:

  • আমরা হাওকি ফ্যান এবং ক্রিস্টোফ ফেইচেনহোফারের সাথে ঘনিষ্ঠভাবে কাজ করছি পাইটর্চ ভিডিও, যোগ করতে উন্নত মাল্টিস্কেল ভিশন ট্রান্সফরমার (MViTv2) আর্কিটেকচার থেকে টর্চভিশন।

  • ফিলিপ মেয়ার এবং নিকোলাস হাগ এর একটি উন্নত সংস্করণে কাজ করছেন ডেটাসেট API (v2) যা ব্যবহার করে টর্চডেটা এবং ডেটা পাইপ. ফিলিপ মেয়ার, ভিক্টর ফোমিন এবং আমি আমাদের প্রসারিত করার জন্যও কাজ করছি রূপান্তর API (v2) শুধুমাত্র ছবিই নয়, বাউন্ডিং বক্স, সেগমেন্টেশন মাস্ক ইত্যাদিকেও সমর্থন করতে।

  • অবশেষে সম্প্রদায় জনপ্রিয় স্থাপত্য এবং কৌশল যোগ করে টর্চভিশনকে সতেজ এবং প্রাসঙ্গিক রাখতে আমাদের সাহায্য করছে। লেজওয়ান ক্যাসেলিনো বর্তমানে ভিক্টর ফোমিনের সাথে যুক্ত করার জন্য কাজ করছেন সিম্পল কপিপেস্ট বৃদ্ধি হু ইয়ে বর্তমানে যুক্ত করার জন্য কাজ করছে DeTR আর্কিটেকচার.

আপনি যদি প্রকল্পের সাথে জড়িত হতে চান, তাহলে অনুগ্রহ করে আমাদের দেখুন ভাল প্রথম সমস্যা এবং সাহায্য চেয়েছিলেন তালিকা আপনি যদি একজন অভিজ্ঞ PyTorch/কম্পিউটার ভিশন অভিজ্ঞ হন এবং আপনি অবদান রাখতে চান, তাহলে আমাদের কাছে নতুনের জন্য বেশ কয়েকটি প্রার্থী প্রকল্প রয়েছে অপারেটরদের, লোকসান, বৃদ্ধি পায় এবং মডেল.

আমি আশা করি আপনি নিবন্ধটি আকর্ষণীয় পেয়েছেন। আপনি যদি যোগাযোগ করতে চান, আমার উপর আঘাত করুন লিঙ্কডইন or Twitter.

সময় স্ট্যাম্প:

থেকে আরো ডেটাবক্স