RStudio บน Amazon SageMaker เป็นสภาพแวดล้อมการพัฒนาแบบบูรณาการ (IDE) ของ RStudio Workbench ที่มีการจัดการเต็มรูปแบบแห่งแรกของอุตสาหกรรมในระบบคลาวด์ คุณสามารถเรียกใช้ RStudio IDE ที่คุ้นเคยได้อย่างรวดเร็ว และเรียกเลขหมายขึ้นและลงทรัพยากรการประมวลผลพื้นฐานโดยไม่รบกวนการทำงานของคุณ ทำให้ง่ายต่อการสร้างการเรียนรู้ของเครื่อง (ML) และโซลูชันการวิเคราะห์ใน R ตามขนาด
เมื่อใช้ร่วมกับเครื่องมือต่างๆ เช่น RStudio บน SageMaker ผู้ใช้จะวิเคราะห์ แปลง และเตรียมข้อมูลจำนวนมากซึ่งเป็นส่วนหนึ่งของวิทยาการข้อมูลและเวิร์กโฟลว์ ML นักวิทยาศาสตร์ข้อมูลและวิศวกรข้อมูลใช้ Apache Spark, Hive และ Presto ที่ทำงานอยู่ อเมซอน EMR สำหรับการประมวลผลข้อมูลขนาดใหญ่ การใช้ RStudio บน SageMaker และ Amazon EMR ร่วมกัน คุณสามารถใช้ RStudio IDE เพื่อการวิเคราะห์และพัฒนาต่อไปได้ ในขณะที่ใช้คลัสเตอร์ที่มีการจัดการของ Amazon EMR สำหรับการประมวลผลข้อมูลขนาดใหญ่ขึ้น
ในโพสต์นี้ เราจะสาธิตวิธีการเชื่อมต่อ RStudio บนโดเมน SageMaker กับคลัสเตอร์ EMR
ภาพรวมโซลูชัน
เราใช้ไฟล์ อาปาเช่ ลิวี่ การเชื่อมต่อเพื่อส่ง ประกายไฟ งานจาก RStudio บน SageMaker ไปยังคลัสเตอร์ EMR สิ่งนี้แสดงให้เห็นในแผนภาพต่อไปนี้
รหัสทั้งหมดที่แสดงในโพสต์มีอยู่ในของเรา พื้นที่เก็บข้อมูล GitHub. เราใช้สถาปัตยกรรมโซลูชันต่อไปนี้
เบื้องต้น
ก่อนปรับใช้ทรัพยากรใดๆ ตรวจสอบให้แน่ใจว่าคุณมีข้อกำหนดทั้งหมดสำหรับการตั้งค่าและใช้งาน RStudio บน SageMaker และ Amazon EMR:
นอกจากนี้ เราจะสร้าง RStudio แบบกำหนดเองบนอิมเมจ SageMaker ดังนั้น ตรวจสอบให้แน่ใจว่าคุณได้ใช้งาน Docker และสิทธิ์ที่จำเป็นทั้งหมด สำหรับข้อมูลเพิ่มเติม โปรดดูที่ ใช้อิมเมจที่กำหนดเองเพื่อนำสภาพแวดล้อมการพัฒนาของคุณเองมาสู่ RStudio บน Amazon SageMaker.
สร้างทรัพยากรด้วย AWS CloudFormation
เราใช้ไฟล์ การก่อตัวของ AWS Cloud ซ้อนเพื่อสร้างโครงสร้างพื้นฐานที่จำเป็น
หากคุณมีโดเมน RStudio และคลัสเตอร์ EMR อยู่แล้ว คุณสามารถข้ามขั้นตอนนี้และเริ่มสร้าง RStudio แบบกำหนดเองบนอิมเมจ SageMaker แทนที่ข้อมูลของคลัสเตอร์ EMR และโดเมน RStudio แทนคลัสเตอร์ EMR และโดเมน RStudio ที่สร้างขึ้นในส่วนนี้
การเรียกใช้สแต็กนี้จะสร้างทรัพยากรต่อไปนี้:
- เครือข่ายย่อยส่วนตัวสองเครือข่าย
- EMR Spark คลัสเตอร์
- AWS กาว ฐานข้อมูลและตาราง
- โดเมน SageMaker กับ RStudio
- โปรไฟล์ผู้ใช้ SageMaker RStudio
- บทบาทบริการ IAM สำหรับโดเมน SageMaker RStudio
- บทบาทบริการ IAM สำหรับโปรไฟล์ผู้ใช้ SageMaker RStudio
ทำตามขั้นตอนต่อไปนี้เพื่อสร้างทรัพยากรของคุณ:
Choose เรียกใช้ Stack เพื่อสร้างกอง
- เกี่ยวกับ สร้าง stack หน้าให้เลือก ถัดไป.
- เกี่ยวกับ ระบุรายละเอียดกอง ระบุชื่อสแต็กของคุณและปล่อยให้ตัวเลือกที่เหลือเป็นค่าเริ่มต้น จากนั้นเลือก ถัดไป.
- เกี่ยวกับ กำหนดค่าตัวเลือกสแต็ก หน้า ปล่อยให้ตัวเลือกเป็นค่าเริ่มต้นแล้วเลือก ถัดไป.
- เกี่ยวกับ หน้ารีวิวให้เลือก
- ฉันรับทราบว่า AWS CloudFormation อาจสร้างทรัพยากร IAM ด้วยชื่อที่กำหนดเอง และ
- ฉันรับทราบว่า AWS CloudFormation อาจต้องการความสามารถดังต่อไปนี้: CAPABILITY_AUTO_EXPAND.
- Choose สร้าง stack.
เทมเพลตสร้างห้ากอง
หากต้องการดูคลัสเตอร์ EMR Spark ที่สร้างขึ้น ให้ไปที่คอนโซล Amazon EMR คุณจะเห็นกลุ่มที่สร้างขึ้นสำหรับคุณที่เรียกว่า sagemaker
. นี่คือคลัสเตอร์ที่เราเชื่อมต่อผ่าน RStudio บน SageMaker
สร้าง RStudio แบบกำหนดเองบนอิมเมจ SageMaker
เราได้สร้างอิมเมจแบบกำหนดเองที่จะติดตั้งการอ้างอิงทั้งหมดของ sparklyr และจะสร้างการเชื่อมต่อกับคลัสเตอร์ EMR ที่เราสร้างขึ้น
หากคุณใช้คลัสเตอร์ EMR และโดเมน RStudio ของคุณเอง ให้แก้ไขสคริปต์ตามนั้น
ตรวจสอบให้แน่ใจว่า Docker กำลังทำงานอยู่ เริ่มต้นด้วยการเข้าสู่ที่เก็บโครงการของเรา:
ตอนนี้เราจะสร้างอิมเมจ Docker และลงทะเบียนกับ RStudio บนโดเมน SageMaker
- บนคอนโซล SageMaker ให้เลือก โดเมน ในบานหน้าต่างนำทาง
- เลือกโดเมน
select rstudio-domain
. - เกี่ยวกับ สิ่งแวดล้อม เลือกแท็บ แนบรูปภาพ
ตอนนี้เราแนบภาพ sparklyr ที่เราสร้างขึ้นก่อนหน้านี้กับโดเมน - สำหรับ เลือกแหล่งที่มาของภาพให้เลือก ภาพที่มีอยู่.
- เลือกภาพ sparklyr ที่เราสร้างขึ้น
- สำหรับ คุณสมบัติของภาพปล่อยให้ตัวเลือกเป็นค่าเริ่มต้น
- สำหรับ ประเภทภาพให้เลือก ภาพ RStudio.
- Choose ส่ง.
ตรวจสอบว่าเพิ่มรูปภาพในโดเมนแล้ว อาจใช้เวลาสองสามนาทีในการแนบรูปภาพจนสุด - เมื่อพร้อมใช้งาน ให้เข้าสู่ระบบ RStudio บนคอนโซล SageMaker โดยใช้
rstudio-user
โปรไฟล์ที่สร้างขึ้น - จากที่นี่ สร้างเซสชันด้วยภาพ sparklyr ที่เราสร้างไว้ก่อนหน้านี้
ก่อนอื่น เราต้องเชื่อมต่อกับคลัสเตอร์ EMR ของเรา - ในบานหน้าต่างการเชื่อมต่อ เลือก การเชื่อมต่อใหม่.
- เลือกข้อมูลโค้ดการเชื่อมต่อคลัสเตอร์ EMR และเลือก เชื่อมต่อกับ Amazon EMR Cluster.
หลังจากเรียกใช้รหัสการเชื่อมต่อแล้ว คุณจะเห็นการเชื่อมต่อแบบ Spark ผ่าน Livy แต่ไม่มีตาราง - เปลี่ยนฐานข้อมูลเป็น
credit_card
:tbl_change_db(sc, “credit_card”)
- Choose รีเฟรชข้อมูลการเชื่อมต่อ.
ตอนนี้คุณสามารถดูตารางได้แล้ว - ตอนนี้นำทางไปยัง
rstudio-sparklyr-code-walkthrough.md
ไฟล์
สิ่งนี้มีชุดการแปลง Spark ที่เราสามารถใช้ในชุดข้อมูลบัตรเครดิตของเราเพื่อเตรียมพร้อมสำหรับการสร้างแบบจำลอง รหัสต่อไปนี้เป็นข้อความที่ตัดตอนมา:
เถอะ count()
จำนวนธุรกรรมที่อยู่ในตารางธุรกรรม แต่ก่อนอื่นเราต้องแคช ใช้การ tbl()
ฟังก์ชัน
ลองนับจำนวนแถวสำหรับแต่ละตาราง
ตอนนี้มาลงทะเบียนตารางของเราเป็น Spark Data Frames และดึงข้อมูลเหล่านั้นเข้าสู่คลัสเตอร์ในหน่วยความจำแคชเพื่อประสิทธิภาพที่ดีขึ้น เราจะกรองส่วนหัวที่อยู่ในแถวแรกสำหรับแต่ละตารางด้วย
หากต้องการดูรายการคำสั่งทั้งหมด โปรดดูที่ rstudio-sparklyr-code-walkthrough.md
ไฟล์
ทำความสะอาด
หากต้องการล้างทรัพยากรใดๆ เพื่อหลีกเลี่ยงค่าใช้จ่ายที่เกิดซ้ำ ให้ลบเทมเพลตรูท CloudFormation ลบทั้งหมดด้วย บริการไฟล์ Amazon Elastic (Amazon EFS) เมานต์ที่สร้างขึ้นและใดๆ บริการจัดเก็บข้อมูลอย่างง่ายของ Amazon สร้างที่เก็บข้อมูลและวัตถุ (Amazon S3) แล้ว
สรุป
การผสานรวม RStudio บน SageMaker กับ Amazon EMR มอบโซลูชันอันทรงพลังสำหรับการวิเคราะห์ข้อมูลและงานสร้างโมเดลในระบบคลาวด์ ด้วยการเชื่อมต่อ RStudio บน SageMaker และสร้างการเชื่อมต่อ Livy กับ Spark บน EMR คุณสามารถใช้ประโยชน์จากทรัพยากรการประมวลผลของทั้งสองแพลตฟอร์มเพื่อการประมวลผลชุดข้อมูลขนาดใหญ่ได้อย่างมีประสิทธิภาพ RStudio ซึ่งเป็นหนึ่งใน IDE ที่ใช้กันอย่างแพร่หลายสำหรับการวิเคราะห์ข้อมูล ช่วยให้คุณใช้ประโยชน์จากโครงสร้างพื้นฐานที่มีการจัดการเต็มรูปแบบ การควบคุมการเข้าถึง เครือข่าย และความสามารถด้านความปลอดภัยของ SageMaker ในขณะเดียวกัน การเชื่อมต่อ Livy กับ Spark บน Amazon EMR ให้วิธีดำเนินการประมวลผลแบบกระจายและปรับขนาดงานประมวลผลข้อมูล
หากคุณสนใจที่จะเรียนรู้เพิ่มเติมเกี่ยวกับการใช้เครื่องมือเหล่านี้ร่วมกัน โพสต์นี้จะทำหน้าที่เป็นจุดเริ่มต้น สำหรับข้อมูลเพิ่มเติม โปรดดูที่ RStudio บน Amazon SageMaker. หากคุณมีข้อเสนอแนะหรือการปรับปรุงคุณสมบัติ โปรดสร้างคำขอดึงบน GitHub repo ของเราหรือแสดงความคิดเห็นในโพสต์นี้!
เกี่ยวกับผู้เขียน
ไรอันการ์เนอร์ เป็นนักวิทยาศาสตร์ข้อมูลที่มีบริการระดับมืออาชีพของ AWS เขามีความกระตือรือร้นในการช่วยให้ลูกค้า AWS ใช้ R เพื่อแก้ปัญหาด้าน Data Science และ Machine Learning
ราชปฏัก เป็นสถาปนิกอาวุโสด้านโซลูชันและเทคโนโลยีที่เชี่ยวชาญด้านบริการทางการเงิน (ประกันภัย การธนาคาร ตลาดทุน) และการเรียนรู้ของเครื่อง เขาเชี่ยวชาญด้าน Natural Language Processing (NLP), Large Language Models (LLM) และ Machine Learning โครงสร้างพื้นฐานและการดำเนินงานโครงการ (MLOps)
สายิชา ผุดี เป็น Solutions Architect ที่ AWS ซึ่งตั้งอยู่ในเมืองดัลลัส รัฐเท็กซัส เขาอยู่กับ AWS มานานกว่า 3 ปีแล้ว ช่วยให้ลูกค้าได้รับศักยภาพที่แท้จริงของ AWS ด้วยการเป็นที่ปรึกษาที่เชื่อถือได้ เขามาจากพื้นฐานด้านการพัฒนาแอปพลิเคชัน มีความสนใจในวิทยาศาสตร์ข้อมูลและการเรียนรู้ของเครื่อง
- เนื้อหาที่ขับเคลื่อนด้วย SEO และการเผยแพร่ประชาสัมพันธ์ รับการขยายวันนี้
- เพลโตบล็อคเชน Web3 Metaverse ข่าวกรอง ขยายความรู้. เข้าถึงได้ที่นี่.
- การสร้างอนาคตโดย Adryenn Ashley เข้าถึงได้ที่นี่.
- ที่มา: https://aws.amazon.com/blogs/machine-learning/connect-amazon-emr-and-rstudio-on-amazon-sagemaker/
- :มี
- :เป็น
- $ ขึ้น
- 100
- 11
- 20
- 22
- 7
- a
- เกี่ยวกับเรา
- เข้า
- ตาม
- รับทราบ
- ที่เพิ่ม
- ความได้เปรียบ
- กุนซือ
- ทั้งหมด
- ช่วยให้
- แล้ว
- ด้วย
- อเมซอน
- อเมซอน EMR
- อเมซอน SageMaker
- จำนวน
- จำนวน
- amp
- an
- การวิเคราะห์
- การวิเคราะห์
- วิเคราะห์
- และ
- ใด
- อาปาเช่
- สถาปัตยกรรม
- เป็น
- AS
- At
- แนบ
- ใช้ได้
- AWS
- การก่อตัวของ AWS Cloud
- บริการระดับมืออาชีพของ AWS
- พื้นหลัง
- การธนาคาร
- ตาม
- รับ
- กำลัง
- ดีกว่า
- ทั้งสอง
- นำมาซึ่ง
- สร้าง
- การก่อสร้าง
- สร้าง
- แต่
- by
- แคช
- ที่เรียกว่า
- CAN
- ความสามารถในการ
- เมืองหลวง
- ตลาดทุน
- บัตร
- การ์ด
- Choose
- เมฆ
- Cluster
- รหัส
- ความเห็น
- คำนวณ
- การคำนวณ
- เชื่อมต่อ
- การเชื่อมต่อ
- การเชื่อมต่อ
- การเชื่อมต่อ
- ปลอบใจ
- ต่อ
- ควบคุม
- ค่าใช้จ่าย
- สร้าง
- ที่สร้างขึ้น
- สร้าง
- เครดิต
- บัตรเครดิต
- ประเพณี
- ลูกค้า
- ดัลลัส
- ข้อมูล
- การวิเคราะห์ข้อมูล
- การประมวลผล
- วิทยาศาสตร์ข้อมูล
- นักวิทยาศาสตร์ข้อมูล
- ฐานข้อมูล
- ชุดข้อมูล
- ค่าเริ่มต้น
- สาธิต
- แสดงให้เห็นถึง
- ปรับใช้
- พัฒนาการ
- กระจาย
- นักเทียบท่า
- โดเมน
- ลง
- แต่ละ
- ก่อน
- ที่มีประสิทธิภาพ
- วิศวกร
- ทำให้มั่นใจ
- สิ่งแวดล้อม
- สร้าง
- การสร้าง
- ที่มีอยู่
- คุ้นเคย
- ลักษณะ
- สองสาม
- เนื้อไม่มีมัน
- กรอง
- ทางการเงิน
- บริการทางการเงิน
- ชื่อจริง
- ดังต่อไปนี้
- สำหรับ
- ราคาเริ่มต้นที่
- เต็ม
- อย่างเต็มที่
- ฟังก์ชัน
- เพศ
- สร้าง
- สร้าง
- ได้รับ
- GitHub
- มี
- he
- การช่วยเหลือ
- โปรดคลิกที่นี่เพื่ออ่านรายละเอียดเพิ่มเติม
- รัง
- สรุป ความน่าเชื่อถือของ Olymp Trade?
- HTML
- ที่ http
- HTTPS
- ภาพ
- การดำเนินการ
- การปรับปรุง
- in
- ของอุตสาหกรรม
- ข้อมูล
- โครงสร้างพื้นฐาน
- ติดตั้ง
- ประกัน
- แบบบูรณาการ
- บูรณาการ
- สนใจ
- เข้าไป
- IT
- การสัมภาษณ์
- jpg
- ภาษา
- ใหญ่
- ขนาดใหญ่
- ที่มีขนาดใหญ่
- เปิดตัว
- การเรียนรู้
- ทิ้ง
- กดไลก์
- รายการ
- LLM
- เครื่อง
- เรียนรู้เครื่อง
- ทำ
- การทำ
- การจัดการ
- หลาย
- ตลาด
- อาจ..
- ในขณะเดียวกัน
- หน่วยความจำ
- อาจ
- นาที
- ML
- ม.ป.ป
- โมเดล
- แก้ไข
- ข้อมูลเพิ่มเติม
- มากที่สุด
- ชื่อ
- ชื่อ
- โดยธรรมชาติ
- ประมวลผลภาษาธรรมชาติ
- นำทาง
- การเดินเรือ
- จำเป็นต้อง
- เครือข่าย
- NLP
- ตอนนี้
- จำนวน
- วัตถุ
- of
- on
- ONE
- การดำเนินการ
- Options
- or
- ของเรา
- ของตนเอง
- หน้า
- บานหน้าต่าง
- ส่วนหนึ่ง
- หลงใหล
- ดำเนินการ
- การปฏิบัติ
- สิทธิ์
- สถานที่
- แพลตฟอร์ม
- เพลโต
- เพลโตดาต้าอินเทลลิเจนซ์
- เพลโตดาต้า
- กรุณา
- จุด
- โพสต์
- ที่มีศักยภาพ
- ที่มีประสิทธิภาพ
- เตรียมการ
- การเตรียมความพร้อม
- ส่วนตัว
- ปัญหาที่เกิดขึ้น
- การประมวลผล
- มืออาชีพ
- โปรไฟล์
- โครงการ
- โครงการ
- ให้
- ให้
- อย่างรวดเร็ว
- ที่เกิดขึ้น
- ทะเบียน
- ที่เหลืออยู่
- กรุ
- ขอ
- ต้องการ
- จำเป็นต้องใช้
- ความต้องการ
- แหล่งข้อมูล
- บทบาท
- ราก
- แถว
- วิ่ง
- วิ่ง
- sagemaker
- SC
- ขนาด
- ปรับ
- วิทยาศาสตร์
- นักวิทยาศาสตร์
- นักวิทยาศาสตร์
- ขอบเขต
- สคริปต์
- Section
- ความปลอดภัย
- ระดับอาวุโส
- ให้บริการอาหาร
- บริการ
- บริการ
- เซสชั่น
- ชุด
- การตั้งค่า
- ง่าย
- So
- ทางออก
- โซลูชัน
- แก้
- จุดประกาย
- ความเชี่ยวชาญ
- ความเชี่ยวชาญ
- กอง
- สแต็ค
- เริ่มต้น
- ที่เริ่มต้น
- ขั้นตอน
- ขั้นตอน
- การเก็บรักษา
- ส่ง
- ตาราง
- เอา
- งาน
- นักเทคโนโลยี
- เทมเพลต
- กว่า
- ที่
- พื้นที่
- ข้อมูล
- ของพวกเขา
- พวกเขา
- ล้อยางขัดเหล่านี้ติดตั้งบนแกน XNUMX (มม.) ผลิตภัณฑ์นี้ถูกผลิตในหลายรูปทรง และหลากหลายเบอร์ความแน่นหนาของปริมาณอนุภาคขัดของมัน จะทำให้ท่านได้รับประสิทธิภาพสูงในการขัดและการใช้งานที่ยาวนาน
- นี้
- ตลอด
- ไปยัง
- ร่วมกัน
- เครื่องมือ
- การทำธุรกรรม
- การแปลง
- การเปลี่ยนแปลง
- จริง
- ที่เชื่อถือ
- TX
- พื้นฐาน
- ใช้
- มือสอง
- ผู้ใช้งาน
- ผู้ใช้
- การใช้
- คือ
- ทาง..
- we
- ในขณะที่
- อย่างกว้างขวาง
- จะ
- กับ
- ไม่มี
- งาน
- มันแกว
- ปี
- คุณ
- ของคุณ
- ลมทะเล