Refinitiv Data Library, AWS 서비스 및 Amazon SageMaker로 실시간 뉴스 스트림 강화

Refinitiv Data Library, AWS 서비스 및 Amazon SageMaker로 실시간 뉴스 스트림 강화

이 게시물은 LSEG 비즈니스인 Refinitiv의 Marios Skevofylakas, Jason Ramchandani 및 Haykaz Aramyan이 공동 작성했습니다.

금융 서비스 제공업체는 관련 뉴스를 식별하고, 분석하고, 인사이트를 추출하고, 뉴스 항목의 추가 정보 또는 컨텍스트를 기반으로 특정 상품(예: 상품, 주식, 펀드) 거래와 같은 실시간 조치를 취해야 하는 경우가 많습니다. 이러한 추가 정보 중 하나(이 게시물에서 예로 사용)는 뉴스의 정서입니다.

Refinitiv 데이터(RD) 라이브러리는 Refinitiv 데이터 카탈로그에 대한 균일한 액세스를 위한 포괄적인 인터페이스 세트를 제공합니다. 이 라이브러리는 지연 시간이 짧은 실시간 액세스에서 Refinitiv 데이터의 일괄 수집에 이르기까지 모든 개발자에게 적합한 다양한 스타일과 프로그래밍 기술을 제공하는 여러 계층의 추상화를 제공합니다.

이 게시물에서는 RD 라이브러리를 사용하여 뉴스 피드를 수집하고 다음을 사용하여 기계 학습(ML) 모델 예측으로 개선하는 프로토타입 AWS 아키텍처를 제시합니다. 아마존 세이지 메이커, AWS의 완전 관리형 ML 서비스.

개선에 사용되는 ML 모델과 상관없이 감정 분석, 개체명 인식 등과 같은 다양한 사용 사례에서 사용할 수 있는 모듈식 아키텍처를 설계하기 위해 실시간 공간에 집중하기로 결정했습니다. 이러한 결정을 내린 이유는 실시간 사용 사례가 일반적으로 더 복잡하고 배치 추론을 위해 최소한의 조정으로 동일한 아키텍처를 사용할 수도 있기 때문입니다. 사용 사례에서는 실시간 뉴스 피드를 수집하고, ML을 사용하여 각 뉴스 헤드라인의 감정을 계산하고, 게시자/구독자 아키텍처를 통해 AI 향상된 피드를 예약하는 아키텍처를 구현합니다.

또한 MLOps 사례를 채택하여 ML 모델을 생산하는 포괄적이고 재사용 가능한 방법을 제시하기 위해 프로토타입의 전체 MLOps 수명 주기 동안 코드형 인프라(IaC) 개념을 도입합니다. Terraform과 단일 진입점 구성 가능 스크립트를 사용하여 단 몇 분 만에 AWS에서 프로덕션 모드로 전체 인프라를 인스턴스화할 수 있습니다.

이 솔루션에서는 개별 모델의 개발, 교육 및 배포의 MLOps 측면을 다루지 않습니다. 이에 대해 자세히 알아보려면 다음을 참조하세요. Amazon SageMaker를 사용하는 기업을 위한 MLOps 기반 로드맵, 모범 사례에 따라 모델 구축, 교육 및 배포를 위한 프레임워크를 자세히 설명합니다.

솔루션 개요

이 프로토타입에서는 IaC에 따라 완전히 자동화된 프로비저닝 방법론을 따릅니다. 모범 사례. IaC는 대화형 구성 도구를 사용하지 않고 자동화된 스크립트를 사용하여 프로그래밍 방식으로 리소스를 프로비저닝하는 프로세스입니다. 리소스는 하드웨어일 수도 있고 필요한 소프트웨어일 수도 있습니다. 우리의 경우에는 Terraform을 사용하여 보안 및 액세스 정책과 자동화된 모니터링을 포함하여 필요한 전체 인프라를 자동으로 가동할 수 있는 구성 가능한 단일 진입점을 구현합니다. 서비스 또는 리소스 엔터티당 하나씩 Terraform 스크립트 모음을 트리거하는 이 단일 진입점을 통해 아키텍처 구성 요소 전체 또는 일부의 수명 주기를 완전히 자동화할 수 있으므로 DevOps와 MLOps 측. Terraform이 올바르게 설치되고 AWS와 통합되면 AWS 서비스 대시보드에서 수행할 수 있는 대부분의 작업을 복제할 수 있습니다.

다음 다이어그램은 솔루션 아키텍처를 보여줍니다.

Refinitiv 데이터 라이브러리, AWS 서비스 및 Amazon SageMaker PlatoBlockchain 데이터 인텔리전스를 통해 실시간 뉴스 스트림을 강화합니다. 수직 검색. 일체 포함.

아키텍처는 수집, 보강 및 게시의 세 단계로 구성됩니다. 첫 번째 단계에서 실시간 피드는 아마존 엘라스틱 컴퓨트 클라우드 (Amazon EC2) Refinitiv Data Library-ready AMI를 통해 생성된 인스턴스. 인스턴스는 또한 다음을 통해 데이터 스트림에 연결합니다. Amazon Kinesis 데이터 스트림, 트리거 AWS 람다 기능.

두 번째 단계에서는 Kinesis Data Streams에서 트리거되는 Lambda 함수가 SageMaker에 연결되어 뉴스 헤드라인을 전송합니다. 핀버트 뉴스 항목에 대해 계산된 감정을 반환하는 엔드포인트. 이 계산된 감정은 Lambda 함수가 뉴스 항목을 래핑하고 아마존 DynamoDB 테이블.

아키텍처의 세 번째 단계에서 DynamoDB 스트림은 새 항목 삽입 시 Lambda 함수를 트리거합니다. 아마존 MQ 서버 AI 향상된 스트림을 예약하는 RabbitMQ를 실행합니다.

첫 번째 Lambda 계층이 Amazon MQ 서버와 직접 통신하거나 EC2 인스턴스에서 더 많은 기능을 구현하는 대신 이 XNUMX단계 엔지니어링 설계에 대한 결정은 향후 더 복잡하고 덜 결합된 AI 설계 아키텍처를 탐색할 수 있도록 하기 위해 이루어졌습니다.

프로토타입 빌드 및 배포

우리는 이 프로토타입을 세 가지 상세한 청사진 시리즈로 제시합니다. 각 청사진과 사용된 모든 서비스에 대해 기술 구현에 대한 개요와 관련 정보는 물론 서비스를 나머지 구조와 자동으로 시작, 구성 및 통합할 수 있는 Terraform 스크립트를 찾을 수 있습니다. 각 청사진의 끝에서 각 단계까지 모든 것이 예상대로 작동하는지 확인하는 방법에 대한 지침을 찾을 수 있습니다. 청사진은 다음과 같습니다.

이 프로토타입의 구현을 시작하려면 새로운 Python 전용 환경을 만들고 다른 환경과 별도로 필요한 패키지와 도구를 설치하는 것이 좋습니다. 이렇게 하려면 다음 명령을 사용하여 Anaconda에서 새 환경을 만들고 활성화합니다.

conda create —name rd_news_aws_terraform python=3.7
conda activate rd_news_aws_terraform

이제 설치할 준비가 되었습니다. AWS 명령 줄 인터페이스 (AWS CLI) AWS 서비스 내에서 그리고 AWS 서비스 간에 필요한 모든 프로그래밍 방식 상호 작용을 구축할 수 있게 해주는 도구 세트:

pip install awscli

이제 AWS CLI가 설치되었으므로 Terraform을 설치해야 합니다. HashiCorp는 Terraform에 바이너리 설치 프로그램을 제공합니다. 다운로드 설치하십시오.

두 도구를 모두 설치한 후 다음 명령을 사용하여 제대로 작동하는지 확인하십시오.

terraform -help
AWS – version

이제 구현의 세 단계 각각에 대한 자세한 청사진을 따를 준비가 되었습니다.

이 청사진은 실시간 뉴스 피드를 수집할 수 있는 아키텍처의 초기 단계를 나타냅니다. 다음 구성 요소로 구성됩니다.

  • RD 뉴스 수집을 위해 인스턴스를 준비하는 Amazon EC2 – 이 섹션에서는 RD Libraries API 및 실시간 스트림에 대한 연결을 활성화하는 방식으로 EC2 인스턴스를 설정합니다. 또한 재사용성과 확장성을 보장하기 위해 생성된 인스턴스의 이미지를 저장하는 방법도 보여줍니다.
  • Amazon EC2에서 실시간 뉴스 수집 – Amazon EC2가 RD 라이브러리와 수집을 시작하는 스크립트를 연결하는 데 필요한 구성의 세부 구현.
  • AMI에서 Amazon EC2 생성 및 시작 – 모두 자동으로 Terraform을 사용하여 수집 파일을 새로 생성된 인스턴스로 동시에 전송하여 새 인스턴스를 시작합니다.
  • Kinesis 데이터 스트림 생성 – 이 섹션에서는 Kinesis Data Streams의 개요와 AWS에서 스트림을 설정하는 방법을 제공합니다.
  • Kinesis에 데이터 연결 및 푸시 – 수집 코드가 작동하면 이를 연결하고 데이터를 Kinesis 스트림으로 보내야 합니다.
  • 지금까지 프로토타입 테스트 - 우리는 사용 아마존 클라우드 워치 프로토타입이 이 시점까지 작동하는지 확인하고 다음 청사진을 계속 진행할 수 있는지 확인하는 명령줄 도구입니다. 수집된 데이터의 로그는 다음 스크린샷과 같아야 합니다.

Refinitiv 데이터 라이브러리, AWS 서비스 및 Amazon SageMaker PlatoBlockchain 데이터 인텔리전스를 통해 실시간 뉴스 스트림을 강화합니다. 수직 검색. 일체 포함.

이 두 번째 청사진에서는 아키텍처의 주요 부분인 뉴스 항목 스트림을 수집 및 분석하고 AI 추론을 첨부하고 추가 사용을 위해 저장하는 Lambda 함수에 중점을 둡니다. 여기에는 다음 구성 요소가 포함됩니다.

  • 람다 – SageMaker 엔드포인트에 연결할 수 있도록 하는 Terraform Lambda 구성을 정의합니다.
  • 아마존 S3 – Lambda를 구현하려면 적절한 코드를 다음에 업로드해야 합니다. 아마존 단순 스토리지 서비스 (Amazon S3) Lambda 함수가 환경에서 이를 수집하도록 허용합니다. 이 섹션에서는 Terraform을 사용하여 이를 수행하는 방법을 설명합니다.
  • Lambda 함수 구현: 1단계, Kinesis 이벤트 처리 – 이 섹션에서는 Lambda 함수 구축을 시작합니다. 여기서는 Kinesis 데이터 스트림 응답 핸들러 부분만 빌드합니다.
  • 세이지 메이커 – 이 프로토타입에서는 SageMaker 엔드포인트에 저장하는 사전 훈련된 Hugging Face 모델을 사용합니다. 여기에서는 Terraform 스크립트를 사용하여 이를 달성할 수 있는 방법과 SageMaker 엔드포인트와 Lambda 함수가 함께 작동하도록 적절한 통합이 수행되는 방법을 제시합니다.
    • 이 시점에서 SageMaker 끝점 뒤에 개발 및 배포한 다른 모델을 대신 사용할 수 있습니다. 이러한 모델은 필요에 따라 원본 뉴스 데이터에 대해 다른 개선 사항을 제공할 수 있습니다. 선택적으로 여러 가지 개선 사항이 있는 경우 이를 여러 모델로 추정할 수 있습니다. 나머지 아키텍처 덕분에 이러한 모델은 실시간으로 데이터 소스를 풍부하게 합니다.
  • Lambda 함수 구축: 2단계, SageMaker 엔드포인트 호출 – 이 섹션에서는 SageMaker 엔드포인트를 호출하여 감정이 강화된 뉴스 헤드라인을 얻기 위해 SageMaker 블록을 추가하여 원래 Lambda 함수를 구축합니다.
  • DynamoDB – 마지막으로 AI 추론이 Lambda 함수의 메모리에 있으면 항목을 다시 묶고 저장을 위해 DynamoDB 테이블로 보냅니다. 여기서는 이를 수행하는 데 필요한 적절한 Python 코드와 이러한 상호 작용을 가능하게 하는 필요한 Terraform 스크립트에 대해 설명합니다.
  • Lambda 함수 구축: 3단계, 향상된 데이터를 DynamoDB로 푸시 – 여기에서는 Dynamo 테이블에 항목을 생성하는 마지막 부분을 추가하여 Lambda 함수를 계속 구축합니다.
  • 지금까지 프로토타입 테스트 – DynamoDB 콘솔에서 DynamoDB 테이블로 이동하여 개선 사항이 테이블에 나타나는지 확인할 수 있습니다.

Refinitiv 데이터 라이브러리, AWS 서비스 및 Amazon SageMaker PlatoBlockchain 데이터 인텔리전스를 통해 실시간 뉴스 스트림을 강화합니다. 수직 검색. 일체 포함.

이 세 번째 Blueprint는 이 프로토타입을 완성합니다. 새로 생성된 AI 향상된 데이터 항목을 Amazon MQ의 RabbitMQ 서버에 재배포하여 소비자가 향상된 뉴스 항목을 실시간으로 연결하고 검색할 수 있도록 하는 데 중점을 둡니다. 여기에는 다음 구성 요소가 포함됩니다.

  • DynamoDB 스트림 – 향상된 뉴스 항목이 DynamoDB에 있을 때 적절한 Lambda 함수에서 캡처할 수 있는 트리거되는 이벤트를 설정합니다.
  • Lambda 생산자 작성 – 이 Lambda 함수는 이벤트를 캡처하고 RabbitMQ 스트림의 생성자 역할을 합니다. 이 새로운 기능은 Python 라이브러리를 사용하여 생산자 기능을 구현하므로 Lambda 계층의 개념을 도입합니다.
  • Amazon MQ 및 RabbitMQ 소비자 – 프로토타입의 마지막 단계는 RabbitMQ 서비스를 설정하고 메시지 스트림에 연결하고 AI 강화 뉴스 항목을 수신할 예제 소비자를 구현하는 것입니다.
  • 프로토타입 최종 테스트 – 수집에서 새로운 AI 강화 스트림 예약 및 소비에 이르기까지 프로토타입이 완전히 작동하는지 확인하기 위해 종단 간 프로세스를 사용합니다.

이 단계에서 다음 스크린샷과 같이 RabbitMQ 대시보드로 이동하여 모든 것이 작동하는지 확인할 수 있습니다.

Refinitiv 데이터 라이브러리, AWS 서비스 및 Amazon SageMaker PlatoBlockchain 데이터 인텔리전스를 통해 실시간 뉴스 스트림을 강화합니다. 수직 검색. 일체 포함.

최종 청사진에는 전체 아키텍처가 계획대로 작동하는지 확인하는 자세한 테스트 벡터도 있습니다.

결론

이 게시물에서는 클라우드에서 ML을 사용하는 솔루션을 SageMaker(ML), Lambda(서버리스) 및 Kinesis Data Streams(스트리밍)와 같은 AWS 서비스와 공유하여 Refinitiv Data Libraries에서 제공하는 스트리밍 뉴스 데이터를 보강했습니다. 이 솔루션은 실시간으로 뉴스 항목에 감정 점수를 추가하고 코드를 사용하여 인프라를 확장합니다.

이 모듈식 아키텍처의 이점은 자체 모델과 함께 재사용하여 Refinitiv 데이터 라이브러리 위에 적용할 수 있는 서버리스, 확장 가능 및 비용 효율적인 방식으로 다른 유형의 데이터 확대를 수행할 수 있다는 것입니다. 이는 거래/투자/위험 관리 워크플로에 가치를 더할 수 있습니다.

의견이나 질문이 있으면 의견란에 남겨주세요.

관련 정보


 저자에 관하여

Refinitiv 데이터 라이브러리, AWS 서비스 및 Amazon SageMaker PlatoBlockchain 데이터 인텔리전스를 통해 실시간 뉴스 스트림을 강화합니다. 수직 검색. 일체 포함.마리오스 스케보필라카스 금융 서비스, 투자 은행 및 컨설팅 기술 배경에서 비롯됩니다. 그는 공학 박사 학위를 보유하고 있습니다. 인공 지능 및 M.Sc. 머신 비전에서. 경력 전반에 걸쳐 그는 여러 분야의 AI 및 DLT 프로젝트에 참여했습니다. 그는 현재 LSEG 비즈니스인 Refinitiv에서 금융 서비스의 AI 및 Quantum 애플리케이션에 중점을 둔 Developer Advocate입니다.

Refinitiv 데이터 라이브러리, AWS 서비스 및 Amazon SageMaker PlatoBlockchain 데이터 인텔리전스를 통해 실시간 뉴스 스트림을 강화합니다. 수직 검색. 일체 포함.제이슨 람찬다니 LSEG 비즈니스인 Refinitiv에서 8년 동안 개발자 커뮤니티 구축을 돕는 Lead Developer Advocate로 근무했습니다. 이전에 그는 Okasan Securities, Sakura Finance 및 Jefferies LLC의 주식/주식 연계 공간에서 퀀트 배경을 가지고 15년 이상 금융 시장에서 일했습니다. 그의 모교는 UCL이다.

Refinitiv 데이터 라이브러리, AWS 서비스 및 Amazon SageMaker PlatoBlockchain 데이터 인텔리전스를 통해 실시간 뉴스 스트림을 강화합니다. 수직 검색. 일체 포함.하이카즈 아라미안 금융 및 기술 배경에서 온다. 그는 박사 학위를 가지고 있습니다. 재무 및 M.Sc. 금융, 기술 및 정책. 10년의 전문적인 경험을 통해 Haykaz는 연금, VC 펀드 및 기술 스타트업과 관련된 여러 분야의 프로젝트에 참여했습니다. 그는 현재 LSEG 비즈니스인 Refinitiv에서 금융 서비스의 AI 애플리케이션에 중점을 둔 Developer Advocate입니다.

Refinitiv 데이터 라이브러리, AWS 서비스 및 Amazon SageMaker PlatoBlockchain 데이터 인텔리전스를 통해 실시간 뉴스 스트림을 강화합니다. 수직 검색. 일체 포함.게오르기오스 쉬나스 EMEA 지역의 AI/ML을 위한 선임 전문 솔루션 설계자입니다. 그는 런던에 기반을 두고 있으며 영국과 아일랜드의 고객들과 긴밀히 협력하고 있습니다. Georgios는 고객이 MLOps 방식에 특별한 관심을 가지고 AWS에서 생산 중인 기계 학습 애플리케이션을 설계 및 배포하고 고객이 대규모로 기계 학습을 수행할 수 있도록 지원합니다. 여가 시간에는 여행, 요리, 친구 및 가족과 시간을 보내는 것을 즐깁니다.

Refinitiv 데이터 라이브러리, AWS 서비스 및 Amazon SageMaker PlatoBlockchain 데이터 인텔리전스를 통해 실시간 뉴스 스트림을 강화합니다. 수직 검색. 일체 포함.무투벨란 스와미나탄 뉴욕에 기반을 둔 엔터프라이즈 솔루션 아키텍트입니다. 그는 비즈니스 요구 사항을 해결하고 AWS 제품 및 서비스를 사용하여 대규모로 실행하는 데 도움이 되는 탄력적이고 비용 효율적이며 혁신적인 솔루션을 구축하는 아키텍처 지침을 제공하는 엔터프라이즈 고객과 협력합니다.

Refinitiv 데이터 라이브러리, AWS 서비스 및 Amazon SageMaker PlatoBlockchain 데이터 인텔리전스를 통해 실시간 뉴스 스트림을 강화합니다. 수직 검색. 일체 포함.마유르 우데르나니 영국 및 아일랜드의 상업 기업과 함께 AWS AI 및 ML 비즈니스를 이끌고 있습니다. Mayur는 자신의 역할에서 대부분의 시간을 고객 및 파트너와 함께 사용하여 AWS 클라우드, AI 및 ML 서비스를 활용하는 광범위한 산업 또는 고객의 가장 시급한 요구 사항을 해결하는 영향력 있는 솔루션을 만드는 데 도움을 줍니다. Mayur는 런던 지역에 살고 있습니다. 그는 인도 경영 대학에서 MBA를, 뭄바이 대학에서 컴퓨터 공학 학사 학위를 받았습니다.

타임 스탬프 :

더보기 AWS 기계 학습