Datumbox Machine Learning Framework 0.6.0은 PlatoBlockchain Data Intelligence를 출시했습니다. 수직 검색. 일체 포함.

Datumbox Machine Learning Framework 0.6.0 출시

Datumbox Machine Learning Framework의 새로운 버전이 출시되었습니다! 지금부터 다운로드하십시오 깃허브 or 메이븐 센트럴 리포지토리.

의 새로운 기능?

주요 초점 버전 0.6.0 프레임 워크를 확장하여 큰 데이터를 처리하고, 코드 아키텍처 및 공개 API를 개선하고, 데이터 구문 분석을 단순화하고, 문서를 향상시키고, 허가 라이센스로 이동합니다.

이 버전의 변경 사항을 자세히 살펴 보겠습니다.

  1. 대용량 데이터 처리: 향상된 메모리 관리 및 새로운 지속성 스토리지 엔진을 통해 프레임 워크는 수 GB 크기의 빅 데이터 세트를 처리 할 수있었습니다. 지원 추가 맵DB 데이터베이스 엔진은 프레임 워크가 모든 데이터를 메모리에 저장하지 않도록하여 대용량 데이터를 처리 할 수 ​​있도록합니다. 기본 InMemory 엔진은 성능 문제로 인해 MongoDB 엔진이 제거되는 동안보다 효율적으로 재 설계되었습니다.
  2. 개선되고 단순화 된 프레임 워크 아키텍처 : 추상화 수준이 크게 줄어들고 여러 핵심 구성 요소가 재 설계되었습니다. 특히 지속성 저장 메커니즘이 다시 작성되고 여러 가지 불필요한 기능과 데이터 구조가 제거되었습니다.
  3. 새로운 "Scikit-Learn-like"공개 API : 알고리즘의 모든 공개 메소드는 Python의 Scikit-Learn API (적합 / 예측 / 변환 패러다임)와 유사하게 변경되었습니다. 새로운 공개 방법은보다 유연하고 사용하기 쉽고 친숙합니다.
  4. 데이터 파싱 간소화: 새로운 프레임 워크에는 CSV 또는 텍스트 파일을 빠르게 구문 분석하고 데이터 세트 개체로 변환 할 수있는 편리한 방법이 제공됩니다.
  5. 개선 된 문서 : 프레임 워크의 모든 공개 / 보호 클래스 및 메소드는 Javadoc 주석을 사용하여 문서화됩니다. 또한 새 버전은 프레임 워크의 모든 알고리즘을 사용하는 방법에 대한 훌륭한 예인 향상된 JUnit 테스트를 제공합니다.
  6. 새로운 Apache 라이센스 : 프레임 워크의 소프트웨어 라이센스가 "GNU 일반 공중 사용 허가서 v3.0"받는 사람"아파치 라이센스, 버전 2.0“. 새 라이센스는 허용되며 상용 소프트웨어 내에서 재배포 할 수 있습니다.

보다 효율적이고 사용하기 쉽도록 프레임 워크의 많은 부분이 재 작성되었으므로 버전 0.6.0은 역 호환되지 않음 이전 버전의 프레임 워크 마지막으로 프레임 워크는 알파에서 베타 개발 단계로 이동했으며보다 안정적인 것으로 간주되어야합니다.

그것을 사용하는 방법

이전 블로그 게시물에서 우리는 자세한 설치 안내서 Framework 설치 방법에 대해 이 안내서는 여전히 새 버전에 유효합니다. 또한이 새로운 버전에서는 여러 가지를 찾을 수 있습니다 코드 예 프레임 워크의 모델과 알고리즘을 사용하는 방법에 대해

다음 단계 및 로드맵

프레임 워크 개발은 계속 진행되며 버전 1.0 릴리스 전에 다음과 같이 개선되어야합니다.

  1. UsING 콘솔의 프레임 워크 : 프레임 워크의 주요 목표는 머신 러닝 응용 프로그램 개발을 지원하는 것이지만 Java 이외의 개발자가 사용하기가 더 쉬워 져야합니다. Mahout과 유사한 접근 방식에 따라 프레임 워크는 콘솔 명령을 사용하여 알고리즘에 대한 액세스를 제공해야합니다. 인터페이스는 간단하고 사용하기 쉬워야하며 다양한 알고리즘을 쉽게 결합해야합니다.
  2. 멀티 스레딩 지원 : 프레임 워크는 현재 정리 프로세스 및 디스크에 비동기 쓰기에만 스레드를 사용합니다. 그럼에도 불구하고 일부 알고리즘은 병렬화 될 수 있으며 이로 인해 실행 시간이 크게 줄어 듭니다. 이러한 경우 솔루션은 우아해야하며 기계 학습 알고리즘의 내부 논리 / 수학을 가능한 적게 수정해야합니다.
  3. 2D 배열 및 행렬의 사용을 줄입니다. 소수의 알고리즘은 여전히 ​​2D 배열과 행렬을 사용합니다. 이로 인해 모든 데이터가 메모리에로드되어 사용할 수있는 데이터 세트의 크기가 제한됩니다. 행렬 사용을 피하기 위해 일부 알고리즘 (예 : PCA)을 다시 구현해야하지만 다른 알고리즘 (예 : GaussianDPMM, MultinomialDPMM 등)에는 희소 행렬을 사용해야합니다.

다음 버전에서 수행해야 할 다른 중요한 작업 :

  1. 새로운 머신 러닝 알고리즘 포함 : 이 프레임 워크는 가우시안 혼합, 가우시안 프로세스, k-NN, 의사 결정 트리, 요인 분석, SVD, PLSI, 인공 신경망 등과 같은 몇 가지 훌륭한 알고리즘을 지원하도록 확장 될 수 있습니다.
  2. 문서 개선, 테스트 커버리지 & 코드 예 : 더 나은 문서를 만들고, JUnit 테스트를 개선하고, 코드 주석을 향상시키고, 알고리즘 사용 방법에 대한 더 나은 예를 제공하십시오.
  3. 아키텍처 개선 코드 최적화: 프레임 워크의 아키텍처에 대한 추가 단순화 및 개선, 추상화 합리화, 디자인 개선, 속도 및 메모리 소비 최적화 등

보시다시피 길은 길고 도움이 필요합니다. 도전에 나서면 나 회선 드롭 또는 github에 풀 요청을 보내십시오.

감사의 글

감사합니다 엘레 프테 리오스 밤 팔레 타 키스 프레임 워크의 아키텍처 개선에 대한 귀중한 의견을 수렴했습니다. 또한 감사합니다 ej-technologies GmbH Java Profiler에 대한 라이센스를 제공합니다. 또한 내 명성 얀 코텍 MapDB 스토리지 엔진에서 놀라운 작업을 수행했습니다. 마지막으로, 내 여자 친구 Kyriaki에 대한 나의 사랑은 저를 참아주었습니다.

Datumbox v0.6.0 코드를 다운로드하는 것을 잊지 마십시오 깃허브. 도서관은 메이븐 센트럴 리포지토리. Java 프로젝트에서 라이브러리를 사용하는 방법에 대한 자세한 정보는 다음을 확인하십시오. 안내 또는 Github 저장소의 메인 페이지에있는 지침을 읽으십시오.

귀하의 의견과 추천을 기다리고 있습니다. 풀 요청은 항상 환영합니다! 🙂

타임 스탬프 :

더보기 데이텀 박스