Học sâu được giải thích trực quan

Hiểu deep learning bằng các ví dụ trực quan

Photo by Julien Tromeur on Unsplash

Deep learning là một trong những kỹ thuật AI mạnh mẽ nhất, tuy nhiên, nó có thể khó hiểu. Trong blog này, tôi sẽ cố gắng giải thích deep learning bằng hình ảnh và ví dụ.

Kiến trúc học sâu được lấy cảm hứng từ cách bộ não của chúng ta hoạt động. Đó là sự kết nối của các tế bào thần kinh. Các mô hình deep learning có thể có nhiều tham số. Số lượng tham số dựa trên số lượng lớp và nơ-ron, có thể tăng theo cấp số nhân đối với kiến ​​trúc phức tạp.

Trong blog này, tôi sẽ lấy một trường hợp sử dụng kinh doanh về phát hiện gian lận tài chính. Một trong những thách thức lớn nhất trong việc phát hiện gian lận là vấn đề mất cân bằng lớp, nghĩa là dữ liệu dùng để huấn luyện các mô hình machine learning có rất ít trường hợp gian lận.

Kiến trúc deep learning (ảnh của tác giả)

Nó giống như đào tạo một mô hình học máy để mò kim đáy bể. Phát hiện gian lận là một vấn đề đặc biệt cần có một cách tiếp cận phức tạp như kiến ​​trúc học sâu.

Trong ví dụ tôi sẽ lấy dữ liệu từ hệ thống giao dịch ngân hàng. Dữ liệu trông như được hiển thị ở đây. Dữ liệu có loại giao dịch tài chính, số tiền, cũng như số dư cũ và số dư cũ và số dư mới. Ngoài ra còn có một lá cờ cho biết giao dịch có gian lận hay không.

Trích dẫn cho tập dữ liệu có sẵn ở cuối blog.

Dữ liệu phát hiện gian lận (ảnh của tác giả)

Dữ liệu được chia thành dữ liệu huấn luyện và kiểm tra. Mô hình deep learning được phát triển trên tập huấn luyện và sau đó được xác thực trên dữ liệu thử nghiệm. Sau đó, mô hình này có thể được sử dụng để dự đoán gian lận trên dữ liệu chưa được nhìn thấy.

Phân chia đào tạo/kiểm tra (hình ảnh của tác giả)

Mô hình học sâu để dự đoán gian lận được trình bày ở đây. Các nơ-ron đầu vào tương ứng với dữ liệu giao dịch. Mỗi nơ-ron tương ứng với một cột trong dữ liệu đầu vào như loại giao dịch, số tiền và thông tin số dư ở điểm gốc và điểm đến.

Có một lớp trung gian và sau đó là lớp cuối cùng có hai nơ-ron, một dự đoán không gian lận và một dự đoán không gian lận.

Các đường này là tín hiệu được truyền giữa các lớp khác nhau. Đường màu xanh biểu thị tín hiệu dương và đường màu đỏ biểu thị tín hiệu âm

Mô hình deep learning phát hiện gian lận (ảnh của tác giả)

Chúng ta thấy rằng nơ-ron 1_0 đang truyền tín hiệu tích cực đến nơ-ron Gian lận.

Điều này có nghĩa là nó đã tìm hiểu sâu về giao dịch gian lận trông như thế nào! Thật là thú vị !

Neuron 1_0 đang truyền tín hiệu tích cực đến nơ-ron 2_1 (lừa đảo) (ảnh của tác giả)

Chúng ta hãy nhìn vào bên trong tế bào thần kinh 1_0!

Bên trong tế bào thần kinh 1_0 (ảnh của tác giả)

Biểu đồ radar là sự thể hiện những gì tế bào thần kinh đã học được về dữ liệu. Đường màu xanh biểu thị giá trị cao và đường màu đỏ biểu thị giá trị thấp. Biểu đồ radar cho thấy mức cân bằng cũ và mới ở mức cao nhưng gần như tương tự ở điểm gốc. Tuy nhiên, có sự khác biệt rất lớn giữa số dư cũ và số dư mới tại điểm đến.

Tình huống như vậy là dấu hiệu của sự gian lận. Tình huống này có thể được hiển thị trực quan dưới đây.

Hiển thị trực quan giao dịch gian lận trông như thế nào (ảnh của tác giả)

Dưới đây là độ chính xác của mô hình học sâu sử dụng ma trận nhầm lẫn.

Ma trận nhầm lẫn (hình ảnh của tác giả)

Tổng cộng có khoảng 95000 giao dịch, trong đó có 62 giao dịch gian lận, cực kỳ ít so với tổng giao dịch. Tuy nhiên, mô hình deep learning đang hoạt động tốt vì nó có thể xác định chính xác 52 trường hợp là gian lận, còn được gọi là tích cực thực sự (tp)

Có 1 kết quả dương tính giả (fp), nghĩa là đó không phải là gian lận nhưng mô hình đã gắn cờ sai là gian lận. Vì vậy độ chính xác là tp / (tp +fp), bằng 98%.

Ngoài ra, có 10 kết quả âm tính giả (fn), nghĩa là đó là các giao dịch lừa đảo nhưng mô hình của chúng tôi không thể dự đoán được. Vì vậy, tỷ lệ thu hồi số đo là tp / (tp +fn) là 83%

Kiến trúc deep learning rất mạnh mẽ vì nó giúp giải quyết các vấn đề phức tạp như phát hiện gian lận. Một cách trực quan để phân tích kiến ​​trúc deep learning rất hữu ích trong việc hiểu kiến ​​trúc cũng như cách nó giải quyết vấn đề

Trích dẫn nguồn dữ liệu cho các bộ dữ liệu tài chính tổng hợp để phát hiện gian lận

Các bộ dữ liệu tài chính tổng hợp để phát hiện gian lận có sẵn tại đây: https://www.kaggle.com/competitions/spaceship-titanic/overview

Theo quy định tại phần Giấy phép, nó có giấy phép CC BY-SA 4.0.

  • Chia sẻ - sao chép và phân phối lại tài liệu ở bất kỳ phương tiện hoặc định dạng nào
  • Phỏng theo — phối lại, biến đổi và xây dựng dựa trên tài liệu cho bất kỳ mục đích nào, kể cả về mặt thương mại.

Vui lòng tham gia Trung bình với liên kết giới thiệu của tôi.

Vui lòng đăng ký để được thông báo bất cứ khi nào tôi phát hành một câu chuyện mới.

Bạn có thể truy cập trang web của tôi để thực hiện phân tích mà không cần mã hóa. https://experiencedatascience.com

Trên trang web, bạn cũng có thể tham gia các hội thảo AI sắp tới để có trải nghiệm AI và khoa học dữ liệu thú vị và sáng tạo.

Đây là đường dẫn tới kênh YouTube của tôi
https://www.youtube.com/c/DataScienceDemonstrated

Học sâu được giải thích bằng hình ảnh Được xuất bản lại từ nguồn https://towardsdatascience.com/deep-learning-visually-explained-a9fff874d280?source=rss—-7f60cf5620c9—4 qua https://towardsdatascience.com/feed

<!–

->

Dấu thời gian:

Thêm từ Tư vấn chuỗi khối