R เป็นภาษาโปรแกรมวิเคราะห์ยอดนิยมที่ใช้โดยนักวิทยาศาสตร์ข้อมูลและนักวิเคราะห์ในการประมวลผลข้อมูล ทำการวิเคราะห์ทางสถิติ สร้างการแสดงข้อมูลเป็นภาพ และสร้างแบบจำลองการเรียนรู้ของเครื่อง (ML) RStudio ซึ่งเป็นสภาพแวดล้อมการพัฒนาแบบบูรณาการสำหรับ R มีเครื่องมือโอเพนซอร์ซและซอฟต์แวร์ระดับมืออาชีพที่พร้อมใช้งานสำหรับองค์กรสำหรับทีมในการพัฒนาและแบ่งปันงานของพวกเขาทั่วทั้งองค์กร อย่างไรก็ตาม การสร้าง การรักษาความปลอดภัย การปรับขนาด และการบำรุงรักษา RStudio ด้วยตัวคุณเองนั้นเป็นเรื่องที่น่าเบื่อและยุ่งยาก
การนำสภาพแวดล้อม RStudio ไปใช้ใน AWS จะมอบความยืดหยุ่นและความสามารถในการปรับขนาดที่คุณไม่มีเมื่อปรับใช้ในองค์กร ทำให้ไม่จำเป็นต้องจัดการโครงสร้างพื้นฐานนั้น คุณสามารถเลือกการประมวลผลและหน่วยความจำที่ต้องการได้ตามความต้องการในการประมวลผล และยังสามารถปรับขนาดขึ้นหรือลงเพื่อทำงานกับปริมาณงานเชิงวิเคราะห์และ ML ที่มีขนาดต่างกันโดยไม่ต้องลงทุนล่วงหน้า วิธีนี้ช่วยให้คุณทดสอบแหล่งข้อมูลและโค้ดใหม่ได้อย่างรวดเร็ว และเปิดตัวกระบวนการวิเคราะห์และโมเดล ML ใหม่ให้กับส่วนที่เหลือขององค์กร คุณยังสามารถผสานรวมทรัพยากร Data Lake ของคุณอย่างราบรื่นเพื่อให้พร้อมใช้งานสำหรับนักพัฒนาและนักวิทยาศาสตร์ข้อมูล และรักษาความปลอดภัยข้อมูลโดยใช้การควบคุมการเข้าถึงระดับแถวและระดับคอลัมน์จาก การก่อตัวของทะเลสาบ AWS.
โพสต์นี้นำเสนอสองวิธีในการปรับใช้และเรียกใช้ RStudio บน AWS อย่างง่ายดายเพื่อเข้าถึงข้อมูลที่จัดเก็บไว้ใน Data Lake:
- จัดการอย่างเต็มที่บน อเมซอน SageMaker
- ตนเองเป็นเจ้าภาพใน อเมซอน อีลาสติก คอมพิวท์ คลาวด์ (อเมซอน อีซี2)
- คุณสามารถเลือกที่จะปรับใช้ RStudio เวอร์ชันโอเพ่นซอร์สโดยใช้วิธีการโฮสต์ EC2 ซึ่งเราจะอธิบายในโพสต์นี้ด้วย ตัวเลือกโฮสต์เองกำหนดให้ผู้ดูแลระบบสร้างอินสแตนซ์ EC2 และติดตั้ง RStudio ด้วยตนเองหรือใช้a การก่อตัวของ AWS Cloud นอกจากนี้ยังมีความยืดหยุ่นน้อยกว่าในการใช้การควบคุมการเข้าถึงของผู้ใช้ในตัวเลือกนี้ เนื่องจากผู้ใช้ทั้งหมดมีระดับการเข้าถึงเท่ากันในการใช้งานประเภทนี้
RStudio บน Amazon SageMaker
คุณสามารถเปิด RStudio Workbench ได้ด้วยการคลิกง่ายๆ จาก SageMaker ด้วยลูกค้า SageMaker ไม่จำเป็นต้องแบกรับค่าใช้จ่ายในการดำเนินการในการสร้าง ติดตั้ง การรักษาความปลอดภัย การปรับขนาด และการบำรุงรักษา RStudio พวกเขาไม่ต้องจ่ายเงินสำหรับเซิร์ฟเวอร์ RStudio ที่ทำงานอย่างต่อเนื่อง (หากพวกเขาใช้ t3.medium) และจ่ายเพียง สำหรับการประมวลผล RSession เมื่อใช้งาน ผู้ใช้ RStudio จะมีความยืดหยุ่นในการปรับขนาดการคำนวณแบบไดนามิกโดยสลับอินสแตนซ์ได้ทันที การเรียกใช้ RStudio บน SageMaker กำหนดให้ผู้ดูแลระบบต้องสร้างโดเมน SageMaker และโปรไฟล์ผู้ใช้ที่เกี่ยวข้อง คุณต้องมีใบอนุญาต RStudio ที่เหมาะสมด้วย
ภายใน SageMaker คุณสามารถให้สิทธิ์การเข้าถึงที่ผู้ดูแลระบบ RStudio และระดับผู้ใช้ RStudio โดยมีสิทธิ์ที่แตกต่างกัน เฉพาะโปรไฟล์ผู้ใช้ที่ได้รับหนึ่งในสองบทบาทนี้เท่านั้นที่สามารถเข้าถึง RStudio ใน SageMaker สำหรับข้อมูลเพิ่มเติมเกี่ยวกับงานของผู้ดูแลระบบสำหรับการตั้งค่า RStudio บน SageMaker โปรดดูที่ เริ่มต้นใช้งาน RStudio บน Amazon SageMaker. โพสต์ดังกล่าวยังแสดงขั้นตอนการเลือกอินสแตนซ์ EC2 สำหรับแต่ละเซสชัน และวิธีที่ผู้ดูแลระบบสามารถจำกัดตัวเลือกอินสแตนซ์ EC2 สำหรับผู้ใช้ RStudio
ใช้การเข้าถึงการรักษาความปลอดภัยระดับแถวและระดับคอลัมน์ของ Lake Formation
นอกจากจะช่วยให้ทีมของคุณเปิดเซสชัน RStudio บน SageMaker แล้ว คุณยังสามารถรักษาความปลอดภัย Data Lake โดยใช้การควบคุมการเข้าถึงระดับแถวและระดับคอลัมน์จาก Lake Formation สำหรับข้อมูลเพิ่มเติม โปรดดูที่ Data Lake ที่มีประสิทธิภาพโดยใช้ AWS Lake Formation ส่วนที่ 4: การใช้ความปลอดภัยระดับเซลล์และระดับแถว.
ด้วยการควบคุมความปลอดภัยของ Lake Formation คุณสามารถมั่นใจได้ว่าแต่ละคนมีสิทธิ์เข้าถึงข้อมูลใน Data Lake อย่างถูกต้อง พิจารณาโปรไฟล์ผู้ใช้สองโปรไฟล์ต่อไปนี้ในโดเมน SageMaker โดยแต่ละโปรไฟล์มีบทบาทการดำเนินการที่แตกต่างกัน:
โปรไฟล์ของผู้ใช้ | บทบาทการดำเนินการ |
rstudiouser-fullaccess |
AmazonSageMaker-ExecutionRole-FullAccess |
rstudiouser-limitedaccess |
AmazonSageMaker-ExecutionRole-LimitedAccess |
ภาพหน้าจอต่อไปนี้แสดงให้เห็น rstudiouser-limitedaccess
รายละเอียดโปรไฟล์
ภาพหน้าจอต่อไปนี้แสดงให้เห็น rstudiouser-fullaccess
รายละเอียดโปรไฟล์
ชุดข้อมูลที่ใช้สำหรับโพสต์นี้คือ a ชุดข้อมูลสาธารณะเกี่ยวกับโควิด-19. ภาพหน้าจอต่อไปนี้แสดงตัวอย่างข้อมูล:
หลังจากที่คุณสร้างโปรไฟล์ผู้ใช้และกำหนดให้กับบทบาทที่เหมาะสมแล้ว คุณสามารถเข้าถึง Lake Formation เพื่อรวบรวมข้อมูลด้วย AWS กาวสร้างข้อมูลเมตาและตาราง และให้สิทธิ์การเข้าถึงข้อมูลตาราง สำหรับ AmazonSageMaker-ExecutionRole-FullAccess
บทบาท คุณให้สิทธิ์เข้าถึงทุกคอลัมน์ในตาราง และสำหรับ AmazonSageMaker-ExecutionRole-LimitedAccess
คุณให้สิทธิ์การเข้าถึงโดยใช้ตัวกรองข้อมูล USA_Filter
. เราใช้ตัวกรองนี้เพื่อให้สิทธิ์คอลัมน์ระดับแถวและระดับเซลล์ (ดู ทรัพยากร ในภาพหน้าจอต่อไปนี้)
ดังที่แสดงในภาพหน้าจอต่อไปนี้ บทบาทที่สองมีการเข้าถึงที่จำกัด ผู้ใช้ที่เกี่ยวข้องกับบทบาทนี้สามารถเข้าถึง .ได้เท่านั้น continent
, date
, total_cases
, total_deaths
, new_cases
, new_deaths
และ iso_codecolumns
.
ด้วยการให้สิทธิ์ตามบทบาทที่แนบมากับโปรไฟล์ผู้ใช้แต่ละโปรไฟล์ เราจะเห็นว่า Lake Formation บังคับใช้การอนุญาตระดับแถวและระดับคอลัมน์ที่เหมาะสมได้อย่างไร คุณสามารถเปิด RStudio Workbench ได้จากไฟล์ เปิดแอพ เมนูแบบเลื่อนลงในรายชื่อผู้ใช้ที่สร้างขึ้น และเลือก RStudio.
ในภาพหน้าจอต่อไปนี้ เราเปิดแอปเป็น rstudiouser-limitedaccess user
.
คุณสามารถดูโฮมเพจ RStudio Workbench และรายการของเซสชัน โครงการ และเนื้อหาที่เผยแพร่
เลือกชื่อเซสชันเพื่อเริ่มเซสชันใน SageMaker ติดตั้ง Paws (ดูคำแนะนำก่อนหน้าในโพสต์นี้) เพื่อให้คุณสามารถเข้าถึงบริการของ AWS ที่เหมาะสมได้ ตอนนี้คุณสามารถเรียกใช้คิวรีเพื่อดึงฟิลด์ทั้งหมดจากชุดข้อมูลผ่าน อเมซอน อาเธน่า, โดยใช้คำสั่ง “SELECT * FROM "databasename.tablename"
และเก็บผลลัพธ์การสืบค้นไว้ใน an บริการจัดเก็บข้อมูลอย่างง่ายของ Amazon (Amazon S3) ถัง
ภาพหน้าจอต่อไปนี้แสดงไฟล์เอาต์พุตในบัคเก็ต S3
ภาพหน้าจอต่อไปนี้แสดงข้อมูลในไฟล์เอาต์พุตเหล่านี้โดยใช้ เลือก Amazon S3.
เฉพาะข้อมูลและคอลัมน์ของทวีปสหรัฐอเมริกา, วันที่, total_cases
, total_deaths
, new_cases
, new_deaths
และ iso_code
แสดงในผลลัพธ์สำหรับ rstudiouser-limitedaccess
ผู้ใช้
มาทำซ้ำขั้นตอนเดียวกันสำหรับ rstudiouser-fullaccess
ผู้ใช้
คุณสามารถดูโฮมเพจ RStudio Workbench และรายการของเซสชัน โครงการ และเนื้อหาที่เผยแพร่
ลองเรียกใช้แบบสอบถามเดียวกัน “SELECT * FROM "databasename.tablename"
โดยใช้อาธีน่า
ภาพหน้าจอต่อไปนี้แสดงไฟล์เอาต์พุตในบัคเก็ต S3
ภาพหน้าจอต่อไปนี้แสดงข้อมูลในไฟล์เอาต์พุตเหล่านี้โดยใช้ เลือก Amazon S3.
ดังที่แสดงในตัวอย่างนี้ rstudiouser-fullaccess
ผู้ใช้มีสิทธิ์เข้าถึงทุกคอลัมน์และแถวในชุดข้อมูล
โฮสต์เองใน Amazon EC2
หากคุณต้องการเริ่มทดลองกับเวอร์ชันโอเพ่นซอร์สของ RStudio บน AWS คุณสามารถติดตั้ง Rstudio บนอินสแตนซ์ EC2 ได้ เทมเพลต CloudFormation ที่ให้ไว้ในโพสต์นี้จัดเตรียมอินสแตนซ์ EC2 และติดตั้ง RStudio โดยใช้สคริปต์ข้อมูลผู้ใช้ คุณสามารถเรียกใช้เทมเพลตได้หลายครั้งเพื่อจัดเตรียมอินสแตนซ์ RStudio หลายรายการตามความจำเป็น และคุณสามารถใช้ในภูมิภาค AWS ใดก็ได้ หลังจากที่คุณปรับใช้เทมเพลต CloudFormation จะมี URL เพื่อเข้าถึง RStudio จากเว็บเบราว์เซอร์ Amazon EC2 ช่วยให้คุณสามารถปรับขนาดขึ้นหรือลงเพื่อจัดการกับการเปลี่ยนแปลงขนาดข้อมูลและความสามารถในการประมวลผลที่จำเป็นในการเรียกใช้การวิเคราะห์ของคุณ
สร้างคู่คีย์-ค่าสำหรับการเข้าถึงที่ปลอดภัย
AWS ใช้การเข้ารหัสคีย์สาธารณะเพื่อรักษาความปลอดภัยข้อมูลการเข้าสู่ระบบสำหรับอินสแตนซ์ EC2 ของคุณ คุณระบุชื่อของคู่คีย์ใน KeyPair
พารามิเตอร์เมื่อคุณเปิดใช้เทมเพลต CloudFormation จากนั้น คุณสามารถใช้คีย์เดียวกันเพื่อเข้าสู่ระบบอินสแตนซ์ EC2 ที่จัดเตรียมไว้ในภายหลังได้ หากจำเป็น
ก่อนที่คุณจะเรียกใช้เทมเพลต CloudFormation ตรวจสอบให้แน่ใจว่าคุณมีคู่คีย์ Amazon EC2 ในบัญชี AWS ที่คุณวางแผนจะใช้ ถ้าไม่เช่นนั้นอ้างถึง สร้างคู่คีย์โดยใช้ Amazon EC2 สำหรับคำแนะนำในการสร้าง
เรียกใช้เทมเพลต CloudFormationลงชื่อเข้าใช้คอนโซล CloudFormation ใน us-east-1
ภูมิภาค และเลือก Launch Stack
คุณต้องป้อนพารามิเตอร์หลายตัวในเทมเพลต CloudFormation:
- InitialUser และ InitialPassword – ชื่อผู้ใช้และรหัสผ่านที่คุณใช้เพื่อเข้าสู่เซสชัน RStudio ค่าเริ่มต้นคือ
rstudio
และRstudio@123
ตามลำดับ - ประเภทอินสแตนซ์ – ประเภทอินสแตนซ์ EC2 ที่จะปรับใช้เซิร์ฟเวอร์ RStudio ปัจจุบันเทมเพลตยอมรับอินสแตนซ์ทั้งหมดในกลุ่มอินสแตนซ์ t2, m4, c4, r4, g2, p2 และ g3 และสามารถรวมกลุ่มอินสแตนซ์อื่นๆ ได้อย่างง่ายดาย ค่าเริ่มต้นคือ t2.micro
- คีย์แพร์ – คู่คีย์ที่คุณใช้เพื่อเข้าสู่ระบบอินสแตนซ์ EC2
- VpcId และ SubnetId - Amazon Virtual Private Cloud (อเมซอน VPC) และซับเน็ตที่จะเปิดอินสแตนซ์
หลังจากที่คุณป้อนพารามิเตอร์เหล่านี้ ให้ปรับใช้เทมเพลต CloudFormation เมื่อเสร็จแล้ว ทรัพยากรต่อไปนี้จะพร้อมใช้งาน:
- อินสแตนซ์ EC2 ที่ติดตั้ง RStudio
- บทบาท IAM พร้อมสิทธิ์ที่จำเป็นในการเชื่อมต่อกับบริการอื่นๆ ของ AWS
- กลุ่มความปลอดภัยที่มีกฎในการเปิดพอร์ต 8787 สำหรับเซิร์ฟเวอร์ RStudio
เข้าสู่ระบบ RStudio
ตอนนี้คุณพร้อมที่จะใช้ RStudio แล้ว! ไปที่ Outputs แท็บสำหรับ CloudFormation stack และคัดลอกค่า RStudio URL (อยู่ในรูปแบบ http://ec2-XX-XX-XXX-XX.compute-1.amazonaws.com:8787/
). ป้อน URL นั้นในเว็บเบราว์เซอร์ ซึ่งจะเป็นการเปิดเซสชัน RStudio ของคุณ ซึ่งคุณสามารถเข้าสู่ระบบโดยใช้ชื่อผู้ใช้และรหัสผ่านเดียวกันกับที่คุณระบุขณะเรียกใช้เทมเพลต CloudFormation
เข้าถึงบริการของ AWS จาก RStudio
หลังจากที่คุณเข้าถึงเซสชัน RStudio คุณควรติดตั้ง R Package for AWS (Paws) ซึ่งช่วยให้คุณเชื่อมต่อกับบริการต่างๆ ของ AWS รวมถึงบริการและทรัพยากรใน Data Lake ของคุณ ในการติดตั้ง Paws ให้ป้อนและเรียกใช้รหัส R ต่อไปนี้:
หากต้องการใช้บริการของ AWS ให้สร้างไคลเอ็นต์และเข้าถึงการดำเนินการของบริการจากไคลเอ็นต์นั้น เมื่อเข้าถึง AWS API คุณต้องระบุข้อมูลประจำตัวและภูมิภาคของคุณ Paws ค้นหาข้อมูลประจำตัวและภูมิภาคโดยใช้ห่วงโซ่การรับรองความถูกต้องของ AWS:
- ระบุคีย์การเข้าถึง คีย์ลับ โทเค็นเซสชัน โปรไฟล์ หรือภูมิภาคที่ระบุอย่างชัดเจน
- R ตัวแปรสภาพแวดล้อม
- ตัวแปรสภาพแวดล้อมระบบปฏิบัติการ
- AWS แชร์ข้อมูลประจำตัวและไฟล์การกำหนดค่าใน
.aws/credentials
และ.aws/config
- บทบาท IAM ของคอนเทนเนอร์
- บทบาทของอินสแตนซ์ IAM
เนื่องจากคุณกำลังใช้งานอินสแตนซ์ EC2 โดยมีบทบาท IAM แนบอยู่ Paws จะใช้ข้อมูลประจำตัวของบทบาท IAM ของคุณโดยอัตโนมัติเพื่อตรวจสอบสิทธิ์คำขอ AWS API
สำหรับสภาพแวดล้อมการผลิต เราขอแนะนำให้ใช้โซลูชัน Rstudio ที่ปรับขนาดได้ซึ่งระบุไว้ใน บล็อกนี้.
สรุป
คุณได้เรียนรู้วิธีปรับใช้สภาพแวดล้อม RStudio ของคุณใน AWS เราแสดงให้เห็นข้อดีของการใช้ RStudio บน Amazon SageMaker และวิธีเริ่มต้นใช้งาน คุณยังได้เรียนรู้วิธีเริ่มทดลองใช้ RStudio เวอร์ชันโอเพนซอร์สอย่างรวดเร็วโดยใช้การติดตั้งแบบโฮสต์เองโดยใช้ Amazon EC2 เรายังสาธิตวิธีผสานรวม RStudio เข้ากับสถาปัตยกรรม Data Lake ของคุณ และใช้การควบคุมการเข้าถึงแบบละเอียดบนตาราง Data Lake โดยใช้คุณสมบัติความปลอดภัยระดับแถวและระดับเซลล์ของ Lake Formation
ในโพสต์ถัดไป เราจะสาธิตวิธีบรรจุสคริปต์ R และเรียกใช้โดยใช้ AWS แลมบ์ดา.
เกี่ยวกับผู้แต่ง
เวนกัต กัมปานา เป็นสถาปนิกโซลูชันอาวุโสในทีม AWS Health and Human Services และตั้งอยู่ในเมืองแซคราเมนโต รัฐแคลิฟอร์เนีย ในบทบาทนั้น เขาช่วยให้ลูกค้าภาครัฐบรรลุวัตถุประสงค์ภารกิจด้วยโซลูชันที่มีสถาปัตยกรรมที่ดีบน AWS
ดร. ดอว์น ไฮซีย์-โกรฟ เป็นผู้นำการวิเคราะห์ด้านสาธารณสุขของ Amazon Web Services และทีมรัฐบาลท้องถิ่น ในบทบาทนี้ เธอมีหน้าที่รับผิดชอบในการช่วยเหลือหน่วยงานด้านสาธารณสุขของรัฐและในท้องถิ่นให้คิดอย่างสร้างสรรค์เกี่ยวกับวิธีการบรรลุความท้าทายด้านการวิเคราะห์และเป้าหมายระยะยาว เธอใช้เวลาในอาชีพการงานเพื่อค้นหาวิธีใหม่ๆ ในการใช้ข้อมูลที่มีอยู่หรือข้อมูลใหม่เพื่อสนับสนุนการเฝ้าระวังและการวิจัยด้านสาธารณสุข
- AI
- ไอ อาร์ต
- เครื่องกำเนิดไออาร์ท
- หุ่นยนต์ไอ
- อเมซอน SageMaker
- ปัญญาประดิษฐ์
- ใบรับรองปัญญาประดิษฐ์
- ปัญญาประดิษฐ์ในการธนาคาร
- หุ่นยนต์ปัญญาประดิษฐ์
- หุ่นยนต์ปัญญาประดิษฐ์
- ซอฟต์แวร์ปัญญาประดิษฐ์
- AWS Machine Learning AWS
- blockchain
- การประชุม blockchain ai
- เหรียญอัจฉริยะ
- ปัญญาประดิษฐ์สนทนา
- การประชุม crypto ai
- ดัล-อี
- การเรียนรู้ลึก ๆ
- google ai
- เรียนรู้เครื่อง
- เพลโต
- เพลโตไอ
- เพลโตดาต้าอินเทลลิเจนซ์
- เกมเพลโต
- เพลโตดาต้า
- เพลโตเกม
- ขนาดไอ
- วากยสัมพันธ์
- ลมทะเล