Bài học cùng chủ đề
Báo cáo học liệu
Mua học liệu
Mua học liệu:
-
Số dư ví của bạn: 0 coin - 0 Xu
-
Nếu mua học liệu này bạn sẽ bị trừ: 2 coin\Xu
Để nhận Coin\Xu, bạn có thể:
Bài 2. Giới thiệu về Khoa học dữ liệu SVIP
1. Khoa học dữ liệu
a. Khái niệm Khoa học dữ liệu
- Khoa học máy tính: cung cấp các công cụ và kĩ thuật xử lí, phân tích và khai phá dữ liệu.
- Toán học và thống kê: cung cấp cơ sở cho các phương pháp phân tích và khai phá dữ liệu.
- Tri thức chuyên ngành: là nguồn tri thức của từng lĩnh vực có vai trò quan trọng để hiểu ngữ cảnh và ý nghĩa của dữ liệu nhằm đưa ra quyết định đúng đắn.
Một số mục tiêu cụ thể được nêu ngắn gọn như sau:
- Phân tích dữ liệu và trực quan nhằm hiểu rõ về nội dung, cấu trúc dữ liệu, xác định các đặc điểm quan trọng, biểu diễn dữ liệu một cách trực quan, giúp người dùng có được cái nhìn tổng quan về dữ liệu.
- Xây dựng mô hình dự đoán, dự báo là tạo ra các hệ thống phục vụ giải quyết bài toán dự báo của một lĩnh vực.
- Tối ưu hoá quyết định nhằm cải thiện quyết định dựa trên dữ liệu, bao gồm việc sử dụng các thuật toán tối ưu hoá để đưa ra quyết định tốt nhất dựa trên các ràng buộc và mục tiêu.
- Khám phá tri thức (mục tiêu cao nhất) để tìm ra các mối quan hệ ẩn chứa trong dữ liệu, xác định nguyên nhân và kết quả, tạo ra tri thức mới từ dữ liệu.
b. Các giai đoạn của một dự án Khoa học dữ liệu
Một dự án Khoa học dữ liệu liên quan đến những vấn đề cụ thể mà tổ chức, doanh nghiệp cần giải quyết sẽ thực hiện theo các bước trong hình sau.
2. Một số thành tựu của Khoa học dữ liệu
a) Dự án Hệ gene người (Human Genome Project - HGP)
Mục đích là khám phá bí mật về cấu trúc di truyền của con người bằng cách xác định tất cả các nucleotide trong hệ gene.
Đem lại cho hiểu biết sâu rộng về di truyền học, mở đường cho sự phát triển của y học.
Tính ưu việt của máy tính và thuật toán hiệu quả cho HPG được thể hiện:
- Tốc độ và hiệu quả: Đẩy nhanh đáng kể quá trình phân tích dữ liệu.
- Độ chính xác: Giảm nguy cơ sai sót do con người.
- Xử lí dữ liêu: Đảm bảo tính nhất quán trong khám phá tri thức, tăng hiệu quả khao học.
- Giải thích dữ liệu: Các thuật toán phức tạp giải thích dẽ dàng các gene.
- Phân tích thời gian thực: Đưa ra quyết đinh nhanh chóng.
- Xử lí song song: Xử lí nhiều luồng dữ liệu trong cùng thời điểm.
- Khả năng mở rộng: Cơ sở hạ tầng được thiết kế để xử lí quy mô và độ phức tạp của dữ liệu bộ gene.
b) Dự án nghiên cứu và khám phá không gian vũ trụ
Kính thiên văn Kepler trong 9 năm hoạt động đã tạo ra khoảng 678 GB dữ liệu. Các vệ tinh thu thập các thông tin về hành tinh tạo ra khoảng 100 GB dữ liệu mỗi ngày.
→ Cần phát triển các thuật toán này giúp phân loại các đặc trưng của hành tinh, phát hiện thay đổi bất thường trong ánh sáng ngôi sao và suy luận về các hành tinh khác trong hệ các ngôi sao dựa trên thay đổi quỹ đạo.
c) Hệ thống giám sát đánh bắt cá toàn cầu
Ghi chép thông tin của hàng triệu con tàu trên đường thủy, từ đó xác định được hoạt động đánh bắt hợp pháp theo thời gian thực.
d) Các mô hình ngôn ngữ
Để có thể hiểu và xử lí được ngôn ngữ tự nhiên một cách tinh vi, các mô hình ngôn ngữ cần được đào tạo bởi lượng dữ liệu văn bản rất lớn.
e) Mô hình phát hiện gian lận của American Express
Thông qua xác thực nâng cao sử dụng sinh trắc học giúp giảm được 60% gian lận giao dịch.
Bạn có thể đánh giá bài học này ở đây