ใช้แนวทางที่เน้นข้อมูลเป็นศูนย์กลางเพื่อลดปริมาณข้อมูลที่จำเป็นในการฝึกโมเดล Amazon SageMaker

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

เมื่อโมเดลแมชชีนเลิร์นนิง (ML) ได้รับการปรับปรุง นักวิทยาศาสตร์ข้อมูล วิศวกร ML และนักวิจัยได้เปลี่ยนความสนใจไปที่การกำหนดและปรับปรุงคุณภาพของข้อมูลมากขึ้น สิ่งนี้นำไปสู่การเกิดขึ้นของวิธีการที่เน้นข้อมูลเป็นศูนย์กลางสำหรับ ML และเทคนิคต่างๆ เพื่อปรับปรุงประสิทธิภาพของโมเดลโดยมุ่งเน้นไปที่ความต้องการข้อมูล การใช้เทคนิคเหล่านี้ช่วยให้ผู้ปฏิบัติงาน ML สามารถลดจำนวนข้อมูลที่ต้องใช้ในการฝึกโมเดล ML

ส่วนหนึ่งของวิธีการนี้ เทคนิคการเลือกชุดย่อยข้อมูลขั้นสูงได้ปรากฏขึ้นเพื่อเร่งการฝึกอบรมโดยลดปริมาณข้อมูลที่ป้อนเข้า กระบวนการนี้ขึ้นอยู่กับการเลือกจำนวนจุดที่กำหนดโดยอัตโนมัติ ซึ่งใกล้เคียงกับการกระจายของชุดข้อมูลที่ใหญ่กว่าและใช้สำหรับการฝึกอบรม การใช้เทคนิคประเภทนี้ช่วยลดระยะเวลาที่ต้องใช้ในการฝึกโมเดล ML

ในโพสต์นี้ เราอธิบายถึงการนำหลักการ AI ที่เน้นข้อมูลมาใช้กับ ความจริงของ Amazon SageMakerวิธีการใช้เทคนิคการเลือกชุดย่อยของข้อมูลโดยใช้ สาย ที่เก็บข้อมูลบน อเมซอน SageMaker เพื่อลดปริมาณข้อมูลที่ต้องใช้ในการฝึกโมเดลเริ่มต้น และวิธีการเรียกใช้การทดสอบโดยใช้แนวทางนี้ด้วย การทดลอง Amazon SageMaker.

แนวทางที่เน้นข้อมูลเป็นศูนย์กลางในการเรียนรู้ของเครื่อง

ก่อนที่จะดำดิ่งสู่เทคนิคขั้นสูงที่เน้นข้อมูลเป็นศูนย์กลาง เช่น การเลือกชุดย่อยของข้อมูล คุณสามารถปรับปรุงชุดข้อมูลของคุณได้หลายวิธีโดยการใช้หลักการพื้นฐานชุดหนึ่งกับกระบวนการติดฉลากข้อมูลของคุณ ด้วยเหตุนี้ Ground Truth จึงสนับสนุนกลไกต่างๆ เพื่อปรับปรุงความสอดคล้องของฉลากและคุณภาพของข้อมูล

ความสอดคล้องของฉลากมีความสำคัญต่อการปรับปรุงประสิทธิภาพของโมเดล หากไม่มีสิ่งนี้ แบบจำลองไม่สามารถสร้างขอบเขตการตัดสินใจที่แยกทุกจุดที่เป็นของคลาสต่างๆ ได้ วิธีหนึ่งที่จะทำให้มั่นใจได้คือการใช้ การรวมคำอธิบายประกอบใน Ground Truthซึ่งช่วยให้คุณแสดงตัวอย่างที่กำหนดแก่ผู้ติดป้ายกำกับหลายราย และใช้ป้ายกำกับรวมที่ให้ไว้เป็นความจริงพื้นฐานสำหรับตัวอย่างนั้น ความแตกต่างในฉลากวัดจากคะแนนความเชื่อมั่นที่เกิดจากความจริงพื้นฐาน เมื่อมีความแตกต่างในฉลาก คุณควรดูว่ามีความคลุมเครือในคำแนะนำในการติดฉลากที่ให้ไว้กับผู้ติดฉลากของคุณที่สามารถลบออกได้หรือไม่ วิธีการนี้ช่วยลดผลกระทบจากความลำเอียงของผู้ติดฉลากแต่ละราย ซึ่งเป็นส่วนสำคัญในการทำให้ฉลากมีความสอดคล้องกันมากขึ้น

อีกวิธีในการปรับปรุงประสิทธิภาพของโมเดลโดยเน้นที่ข้อมูลคือการพัฒนาวิธีการวิเคราะห์ข้อผิดพลาดในฉลาก เมื่อเกิดขึ้นเพื่อระบุชุดย่อยที่สำคัญที่สุดของข้อมูลที่ต้องปรับปรุง คุณสามารถทำเช่นนี้กับชุดข้อมูลการฝึกอบรมของคุณด้วยการผสมผสานความพยายามด้วยตนเองที่เกี่ยวข้องกับการดำน้ำในตัวอย่างที่มีป้ายกำกับและการใช้ อเมซอน คลาวด์วอตช์ บันทึกและเมตริกที่สร้างโดยงานการติดฉลาก Ground Truth สิ่งสำคัญคือต้องดูข้อผิดพลาดที่โมเดลสร้างขึ้นในเวลาอนุมานเพื่อขับเคลื่อนการติดฉลากซ้ำครั้งถัดไปสำหรับชุดข้อมูลของเรา นอกจากกลไกเหล่านี้แล้ว Amazon SageMaker ชี้แจง ช่วยให้นักวิทยาศาสตร์ข้อมูลและวิศวกร ML เรียกใช้อัลกอริทึมเช่น เคอร์เนล SHAP เพื่อให้พวกเขาตีความการคาดคะเนจากโมเดลของตนได้ ดังที่กล่าวไว้ คำอธิบายเชิงลึกเกี่ยวกับการคาดคะเนของแบบจำลองสามารถเชื่อมโยงย้อนกลับไปยังกระบวนการติดฉลากเริ่มต้นเพื่อปรับปรุงได้

ท้ายสุด คุณสามารถพิจารณาตัดตัวอย่างที่มีเสียงดังหรือซ้ำซ้อนมากเกินไปออกไปได้ การทำเช่นนี้ช่วยให้คุณลดเวลาการฝึกโดยการลบตัวอย่างที่ไม่ช่วยปรับปรุงประสิทธิภาพของโมเดล อย่างไรก็ตาม การระบุส่วนย่อยที่มีประโยชน์ของชุดข้อมูลที่กำหนดด้วยตนเองนั้นยากและใช้เวลานาน การใช้เทคนิคการเลือกชุดย่อยของข้อมูลที่อธิบายไว้ในโพสต์นี้ ช่วยให้คุณสามารถทำให้กระบวนการนี้เป็นไปโดยอัตโนมัติตามกรอบการทำงานที่กำหนดไว้

ใช้กรณี

ตามที่กล่าวไว้ AI ที่เน้นข้อมูลเป็นศูนย์กลางจะมุ่งเน้นไปที่การปรับปรุงอินพุตของโมเดลมากกว่าสถาปัตยกรรมของตัวโมเดลเอง เมื่อคุณใช้หลักการเหล่านี้ในระหว่างการติดฉลากข้อมูลหรือวิศวกรรมคุณลักษณะแล้ว คุณสามารถมุ่งเน้นไปที่การป้อนข้อมูลแบบจำลองต่อไปได้โดยใช้การเลือกชุดย่อยของข้อมูลในเวลาฝึกอบรม

สำหรับโพสต์นี้ เราใช้การเลือกชุดย่อยข้อมูลตามลักษณะทั่วไปเพื่อการเรียนรู้ที่มีประสิทธิภาพและแข็งแกร่ง (กลิสเตอร์) ซึ่งเป็นหนึ่งในเทคนิคการเลือกชุดย่อยของข้อมูลจำนวนมากที่นำไปใช้ในที่เก็บ CORDS กับอัลกอริทึมการฝึกของ เรสเน็ต-18 โมเดลเพื่อลดเวลาที่ใช้ในการฝึกโมเดลเพื่อจัดประเภท ซิฟาร์ -10 ภาพ ต่อไปนี้คือภาพตัวอย่างบางส่วนที่มีป้ายกำกับที่เกี่ยวข้องซึ่งดึงมาจากชุดข้อมูล CIFAR-10

ชุดข้อมูล CIFAR

ResNet-18 มักใช้สำหรับงานจำแนกประเภท เป็นโครงข่ายประสาทเทียมลึก 18 ชั้น ชุดข้อมูล CIFAR-10 มักจะใช้เพื่อประเมินความถูกต้องของเทคนิคและวิธีการต่างๆ ใน ML ประกอบด้วยภาพสีขนาด 60,000×32 จำนวน 32 ภาพใน 10 คลาส

ในส่วนต่อไปนี้ เราจะแสดงให้เห็นว่า GLISTER สามารถช่วยคุณตอบคำถามต่อไปนี้ได้ในระดับหนึ่งได้อย่างไร:

เราสามารถใช้ชุดข้อมูลที่กำหนดกี่เปอร์เซ็นต์และยังคงได้รับประสิทธิภาพของแบบจำลองที่ดีในระหว่างการฝึกอบรม

การใช้ GLISTER กับอัลกอริทึมการฝึกของคุณจะแนะนำเศษส่วนเป็นไฮเปอร์พารามิเตอร์ในอัลกอริทึมการฝึกของคุณ นี่แสดงถึงเปอร์เซ็นต์ของชุดข้อมูลที่คุณต้องการใช้ เช่นเดียวกับไฮเปอร์พารามิเตอร์ การค้นหาค่าที่ให้ผลลัพธ์ที่ดีที่สุดสำหรับโมเดลและข้อมูลของคุณจำเป็นต้องมีการปรับแต่ง เราจะไม่ลงลึกในการปรับไฮเปอร์พารามิเตอร์ในโพสต์นี้ สำหรับข้อมูลเพิ่มเติม โปรดดูที่ ปรับไฮเปอร์พารามิเตอร์ให้เหมาะสมด้วยการปรับโมเดลอัตโนมัติของ Amazon SageMaker.

เราทำการทดสอบหลายอย่างโดยใช้ SageMaker Experiments เพื่อวัดผลกระทบของแนวทางดังกล่าว ผลลัพธ์จะแตกต่างกันไปขึ้นอยู่กับชุดข้อมูลเริ่มต้น ดังนั้นจึงเป็นเรื่องสำคัญที่จะต้องทดสอบแนวทางกับข้อมูลของเราในขนาดย่อยที่แตกต่างกัน

แม้ว่าเราจะพูดถึงการใช้ GLISTER กับรูปภาพ แต่คุณก็นำไปใช้กับอัลกอริทึมการฝึกทำงานกับข้อมูลที่มีโครงสร้างหรือตารางได้

การเลือกชุดย่อยของข้อมูล

จุดประสงค์ของการเลือกชุดย่อยของข้อมูลคือเพื่อเร่งกระบวนการฝึกอบรมในขณะที่ลดผลกระทบต่อความแม่นยำให้น้อยที่สุดและเพิ่มความทนทานของโมเดล โดยเฉพาะอย่างยิ่ง GLISTER-ONLINE จะเลือกชุดย่อยตามที่โมเดลเรียนรู้โดยพยายามเพิ่มความเป็นไปได้สูงสุดในการบันทึกของชุดย่อยข้อมูลการฝึกอบรมนั้นในชุดการตรวจสอบความถูกต้องที่คุณระบุ การปรับการเลือกเซ็ตย่อยของข้อมูลให้เหมาะสมด้วยวิธีนี้ช่วยลดสัญญาณรบกวนและความไม่สมดุลของคลาสที่มักพบในชุดข้อมูลในโลกแห่งความเป็นจริง และช่วยให้กลยุทธ์การเลือกเซ็ตย่อยปรับเปลี่ยนได้ตามที่โมเดลเรียนรู้

เริ่มต้น กระดาษกลิสเทอร์ อธิบายการแลกเปลี่ยนความเร็ว/ความแม่นยำที่ชุดย่อยข้อมูลขนาดต่างๆ ดังต่อไปนี้โดยใช้ เลเน็ต รูปแบบ:

ขนาดย่อย	speedup	ความถูกต้อง
10%	6x	-3%
30%	2.5x	-1.20%
50%	1.5x	-0.20%

ในการฝึกโมเดล เราเรียกใช้ a งานฝึกอบรม SageMaker โดยใช้สคริปต์การฝึกอบรมที่กำหนดเอง เรายังได้อัปโหลดชุดข้อมูลภาพของเราไปที่ บริการจัดเก็บข้อมูลอย่างง่ายของ Amazon (อเมซอน S3). เช่นเดียวกับงานฝึกอบรมใดๆ ของ SageMaker เราจำเป็นต้องกำหนด Estimator วัตถุ. ตัวประมาณ PyTorch จาก sagemaker.pytorch แพ็คเกจช่วยให้เราเรียกใช้สคริปต์การฝึกอบรมของเราเองในคอนเทนเนอร์ PyTorch ที่มีการจัดการ เดอะ inputs ตัวแปรที่ส่งผ่านไปยังตัวประมาณค่า .fit ฟังก์ชันมีพจนานุกรมของตำแหน่ง S3 ของชุดข้อมูลการฝึกอบรมและการตรวจสอบความถูกต้อง

พื้นที่ train.py สคริปต์ถูกเรียกใช้เมื่อเริ่มงานการฝึกอบรม ในสคริปต์นี้ เรานำเข้าโมเดล ResNet-18 จากไลบรารี CORDS และส่งผ่านจำนวนคลาสในชุดข้อมูลของเราดังนี้:

from cords.utils.models import ResNet18 numclasses = 10
model = ResNet18(numclasses)

จากนั้นเราก็ใช้ gen_dataset ฟังก์ชันจาก CORDS เพื่อสร้างการฝึกอบรม การตรวจสอบ และทดสอบชุดข้อมูล:

from cords.utils.data.datasets.SL import gen_dataset train_set, validation_set, test_set, numclasses = gen_dataset(
datadir="/opt/ml/input/data/training",
dset_name="cifar10",
feature="dss",
type="image")

จากชุดข้อมูลแต่ละชุด เราสร้างตัวโหลดข้อมูล PyTorch ที่เทียบเท่ากัน:

train_loader = torch.utils.data.DataLoader(train_set,
batch_size=batch_size,
shuffle=True) validation_loader = torch.utils.data.DataLoader(validation_set,
batch_size=batch_size,
shuffle=False)

สุดท้ายนี้ เราใช้ตัวโหลดข้อมูลเหล่านี้เพื่อสร้าง GLISTERDataLoader จากห้องสมุด CORDS มันใช้กลยุทธ์การเลือกของ GLISTER-ONLINE ซึ่งใช้การเลือกเซ็ตย่อยเมื่อเราอัปเดตโมเดลระหว่างการฝึก ตามที่กล่าวไว้ก่อนหน้าในโพสต์นี้

ในการสร้างอ็อบเจกต์ เราส่งอาร์กิวเมนต์เฉพาะของกลยุทธ์การเลือกเป็น a DotMap วัตถุพร้อมกับ train_loader, validation_loaderและ logger:

import logging
from cords.utils.data.dataloader.SL.adaptive import GLISTERDataLoader
from dotmap import DotMap dss_args = # GLISTERDataLoader specific arguments
dss_args = DotMap(dss_args)
dataloader = GLISTERDataLoader(train_loader,
validation_loader,
dss_args,
logger,
batch_size=batch_size,
shuffle=True,
pin_memory=False)

พื้นที่ GLISTERDataLoader สามารถใช้เป็นตัวโหลดข้อมูลปกติกับลูปการฝึกอบรมได้แล้ว ระบบจะเลือกชุดข้อมูลย่อยสำหรับชุดการฝึกอบรมถัดไปเมื่อโมเดลเรียนรู้ตามการสูญเสียของโมเดลนั้น ตามที่แสดงในตารางก่อนหน้านี้ การเพิ่มกลยุทธ์การเลือกชุดย่อยข้อมูลช่วยให้เราลดเวลาการฝึกอบรมลงได้อย่างมาก แม้ว่าจะมีขั้นตอนเพิ่มเติมของการเลือกชุดย่อยของข้อมูล โดยมีความแม่นยำเพียงเล็กน้อย

นักวิทยาศาสตร์ข้อมูลและวิศวกร ML มักจะต้องประเมินความถูกต้องของวิธีการโดยเปรียบเทียบกับข้อมูลพื้นฐาน เราจะสาธิตวิธีการในส่วนถัดไป

การติดตามการทดสอบ

คุณสามารถใช้ SageMaker Experiments เพื่อวัดความถูกต้องของวิธีการเลือกชุดข้อมูลย่อย สำหรับข้อมูลเพิ่มเติม โปรดดูที่ การทดลอง Amazon SageMaker รุ่นต่อไป – จัดระเบียบ ติดตาม และเปรียบเทียบการฝึกอบรมแมชชีนเลิร์นนิงของคุณตามขนาด.

ในกรณีของเรา เราทำการทดสอบสี่ครั้ง: พื้นฐานโดยไม่ใช้การเลือกเซ็ตย่อยของข้อมูล และอีกสามการทดสอบที่แตกต่างกัน fraction พารามิเตอร์ ซึ่งแสดงถึงขนาดของชุดย่อยที่สัมพันธ์กับชุดข้อมูลโดยรวม โดยธรรมชาติใช้ขนาดเล็กกว่า fraction พารามิเตอร์ควรส่งผลให้เวลาการฝึกลดลง แต่ความแม่นยำของโมเดลก็จะลดลงเช่นกัน

สำหรับโพสต์นี้ การฝึกแต่ละครั้งจะแสดงเป็น a Run ในการทดลอง SageMaker การวิ่งที่เกี่ยวข้องกับการทดสอบของเราทั้งหมดถูกจัดกลุ่มไว้ภายใต้กลุ่มเดียว Experiment วัตถุ. สามารถแนบการเรียกใช้กับการทดสอบทั่วไปได้เมื่อสร้าง Estimator ด้วย SDK ดูรหัสต่อไปนี้:

from sagemaker.utils import unique_name_from_base
from sagemaker.experiments.run import Run, load_run experiment_name = unique_name_from_base("data-centric-experiment")
with Run(
experiment_name=experiment_name,
sagemaker_session=sess
) as run:
estimator = PyTorch('train.py',
source_dir="source",
role=role,
instance_type=instance_type,
instance_count=1,
framework_version=framework_version,
py_version='py3',
env={ 'SAGEMAKER_REQUIREMENTS': 'requirements.txt',
})
estimator.fit(inputs)

ในฐานะส่วนหนึ่งของสคริปต์การฝึกแบบกำหนดเองของคุณ คุณสามารถรวบรวมเมตริกการวิ่งได้โดยใช้ load_run:

from sagemaker.experiments.run import load_run
from sagemaker.session import Session if __name__ == "__main__":
args = parse_args()
session = Session(boto3.session.Session(region_name=args.region))
with load_run(sagemaker_session=session) as run:
train(args, run)

จากนั้น ใช้วัตถุรันที่ส่งคืนโดยการดำเนินการก่อนหน้านี้ คุณสามารถรวบรวมจุดข้อมูลต่อยุคโดยการโทร run.log_metric(name, value, step) และระบุชื่อเมตริก ค่า และหมายเลขยุคปัจจุบัน

ในการวัดความถูกต้องของแนวทางของเรา เรารวบรวมเมตริกที่สอดคล้องกับการสูญเสียการฝึก ความแม่นยำในการฝึก การสูญเสียการตรวจสอบความถูกต้อง ความแม่นยำในการตรวจสอบ และเวลาที่จะเสร็จสิ้นยุค จากนั้นหลังจากรันงานการฝึกอบรมแล้ว เราสามารถ ตรวจสอบผลการทดลองของเรา in สตูดิโอ Amazon SageMaker หรือผ่าน SageMaker Experiments SDK

หากต้องการดูความถูกต้องของการตรวจสอบภายใน Studio ให้เลือก วิเคราะห์ ในการทดลอง วิ่ง หน้า.

รายการการทดสอบ

เพิ่มแผนภูมิ ตั้งค่าคุณสมบัติของแผนภูมิ แล้วเลือก สร้างบัญชีตัวแทน. ดังที่แสดงในภาพหน้าจอต่อไปนี้ คุณจะเห็นพล็อตของความถูกต้องในการตรวจสอบความถูกต้องในแต่ละยุคสำหรับการเรียกใช้ทั้งหมด

แผนภูมิการทดลอง

SDK ยังช่วยให้คุณดึงข้อมูลที่เกี่ยวข้องกับการทดสอบเป็น Pandas dataframe:

from sagemaker.analytics import ExperimentAnalytics trial_component_analytics = ExperimentAnalytics(
sagemaker_session=sess.sagemaker_client,
experiment_name=experiment_name
)
analytic_table = trial_component_analytics.dataframe()

สามารถเลือกเรียงลำดับงานการฝึกอบรมได้ ตัวอย่างเช่น เราสามารถเพิ่ม "metrics.validation:accuracy.max" เป็นค่าของ sort_by พารามิเตอร์ที่ส่งไปยัง ExperimentAnalytics เพื่อส่งคืนผลลัพธ์ที่เรียงลำดับตามความถูกต้องของการตรวจสอบ

ตามที่คาดไว้ การทดลองของเราแสดงให้เห็นว่าการใช้ GLISTER และการเลือกชุดข้อมูลย่อยกับอัลกอริทึมการฝึกช่วยลดเวลาการฝึก เมื่อเรียกใช้อัลกอริทึมการฝึกอบรมพื้นฐาน เวลาเฉลี่ยในการสิ้นสุดยุคเดียวจะอยู่ที่ประมาณ 27 วินาที ในทางตรงกันข้าม การใช้ GLISTER เพื่อเลือกเซ็ตย่อยที่เทียบเท่ากับ 50%, 30% และ 10% ของชุดข้อมูลทั้งหมดจะส่งผลให้ใช้เวลาในการสิ้นสุดยุคประมาณ 13, 8.5 และ 2.75 วินาทีตามลำดับ บนอินสแตนซ์ ml.p3.2xlarge .

นอกจากนี้ เรายังสังเกตเห็นผลกระทบที่น้อยมากโดยเปรียบเทียบต่อความถูกต้องของการตรวจสอบ โดยเฉพาะอย่างยิ่งเมื่อใช้ชุดย่อยของข้อมูล 50% หลังจากฝึกฝนเป็นเวลา 100 ยุค พื้นฐานสร้างความแม่นยำในการตรวจสอบที่ 92.72% ในทางตรงกันข้าม การใช้ GLISTER เพื่อเลือกชุดย่อยที่เทียบเท่ากับ 50%, 30% และ 10% ของชุดข้อมูลทั้งหมดส่งผลให้มีความถูกต้องในการตรวจสอบความถูกต้อง 91.42%, 89.76% และ 82.82% ตามลำดับ

สรุป

SageMaker Ground Truth และ SageMaker Experiments เปิดใช้งานแนวทางที่เน้นข้อมูลเป็นศูนย์กลางในการเรียนรู้ของเครื่องโดยอนุญาตให้นักวิทยาศาสตร์ข้อมูลและวิศวกร ML สร้างชุดข้อมูลที่สอดคล้องกันมากขึ้นและติดตามผลกระทบของเทคนิคขั้นสูงมากขึ้นในขณะที่นำไปใช้ในขั้นตอนการสร้างแบบจำลอง การใช้แนวทางที่เน้นข้อมูลเป็นศูนย์กลางกับ ML ช่วยให้คุณลดจำนวนข้อมูลที่โมเดลของคุณต้องการและปรับปรุงความทนทาน

ลองดูและแจ้งให้เราทราบว่าคุณคิดอย่างไรในความคิดเห็น

เกี่ยวกับผู้แต่ง

นิโคลัส แบร์เนียร์ เป็นสถาปนิกโซลูชัน ซึ่งเป็นส่วนหนึ่งของทีมภาครัฐของแคนาดาที่ AWS ปัจจุบันเขากำลังศึกษาระดับปริญญาโทด้านการวิจัยใน Deep Learning และถือใบรับรอง AWS ห้าใบ รวมถึงใบรับรอง ML Specialty Nicolas มีความกระตือรือร้นในการช่วยลูกค้าเพิ่มพูนความรู้เกี่ยวกับ AWS โดยทำงานร่วมกับพวกเขาเพื่อแปลงความท้าทายทางธุรกิจให้เป็นโซลูชันทางเทคนิค

จิวานิลโด้ อัลเวส เป็นสถาปนิกสร้างต้นแบบกับทีมสร้างต้นแบบและวิศวกรรมระบบคลาวด์ที่ Amazon Web Services ช่วยลูกค้าสร้างนวัตกรรมและเร่งความเร็วด้วยการแสดงศิลปะแห่งความเป็นไปได้บน AWS โดยได้ใช้งานต้นแบบหลายตัวเกี่ยวกับปัญญาประดิษฐ์ เขาทำงานด้านวิศวกรรมซอฟต์แวร์มาอย่างยาวนาน และเคยทำงานเป็นวิศวกรพัฒนาซอฟต์แวร์ที่ Amazon.com.br

เนื้อหาที่ขับเคลื่อนด้วย SEO และการเผยแพร่ประชาสัมพันธ์ รับการขยายวันนี้
เพลโตบล็อคเชน Web3 Metaverse ข่าวกรอง ขยายความรู้. เข้าถึงได้ที่นี่.
ที่มา: https://aws.amazon.com/blogs/machine-learning/use-a-data-centric-approach-to-minimize-the-amount-of-data-required-to-train-amazon-sagemaker-models/

ประทับเวลา: March 9, 2023

ประทับเวลา: กันยายน 7, 2023

เผยแพร่ซ้ำโดยเพลโต

บรรลุวุฒิภาวะ DevOps ด้วย BMC AMI zAdviser Enterprise และ Amazon Bedrock | อเมซอนเว็บเซอร์วิส

เรียกใช้เหตุการณ์การเปิดใช้งานการเรียนรู้ของเครื่องตามขนาดโดยใช้โหมดบัญชีผู้ใช้หลายรายของ AWS DeepRacer

นำเข้าข้อมูลจากแหล่งข้อมูลกว่า 40 แห่งสำหรับแมชชีนเลิร์นนิงแบบไม่ใช้โค้ดด้วย Amazon SageMaker Canvas

เปิดใช้งานผู้พิการทางสายตาเพื่อฟังเอกสารโดยใช้ Amazon Texttract และ Amazon Polly

บรรลุการโฮสต์ที่มีเวลาแฝงต่ำสำหรับโมเดล ML แบบอิงแผนผังการตัดสินใจบนเซิร์ฟเวอร์ NVIDIA Triton Inference บน Amazon SageMaker

สร้างประสบการณ์การบริการตนเองที่มีประสิทธิภาพด้วย Amazon Lex บนศูนย์ติดต่อ Talkdesk CX Cloud

ประกาศการรองรับโมเดล Llama 2 และ Mistral และการตอบกลับแบบสตรีมใน Amazon SageMaker Canvas | อเมซอนเว็บเซอร์วิส

ใช้ Machine Learning โดยไม่ต้องเขียนโค้ดแม้แต่บรรทัดเดียวด้วย Amazon SageMaker Canvas | อเมซอนเว็บเซอร์วิส

ปรับประสิทธิภาพของอุปกรณ์ให้เหมาะสมด้วยข้อมูลประวัติ, Ray และ Amazon SageMaker | อเมซอนเว็บเซอร์วิส

เกี่ยวกับเรา

การค้นหาแนวตั้ง & Ai

ระบบปฏิบัติการ

การติดต่อ

ลงชื่อเข้าใช้