33 0 107KB
Môn học: Xác suất thống kê Bài tập lớn (1 TC) Bộ môn Toán Ứng Dụng Khoa Khoa Học Ứng Dụng, trường Đại Học Bách Khoa TPHCM Ngày 25 tháng 9 năm 2021
Yêu cầu: • Tất cả sinh viên không thuộc 2 khoa sau: Khoa Điện – Điện tử, Khoa Kỹ Thuật Địa Chất và Dầu Khí, đều bắt buộc làm bài tập lớn này. • Mõi nhóm sẽ phụ trách một đề tài bao gồm 2 hoạt động. • Mõi nhóm phải nộp một báo cáo đề tài dài không quá 30 trang. Trên trang bìa của bài báo cáo phải ghi rõ các thông tin sau: Họ tên sinh viên, MSSV, lớp, khoa, mã số nhóm và mã số đề tài. • Sinh viên dùng R/Rstudio để thực hiện việc phân tích số liệu trong bài tập lớn này. • Bài báo cáo phải bao gồm tất cả các thông tin sau: mục lục, đề bài, bảng số liệu, hình vẽ, R code, tài liệu tham khảo, và nguồn dữ liệu. Khuyến khích: • Sinh viên có thể sử dụng các mô hình xác suất thống kê mở rộng không được cung cấp trong khoá học để phân tích dữ liệu trong đề tài của mình. • Sinh viên có thể sử dụng các dữ liệu mới, có ý nghĩa cho chuyên môn mà sinh viên đang học: dữ liệu từ thí nghiệm thực tế, dữ liệu do sinh viên tự thu thập được, ...
1
Đề tài 1 Hoạt động 1: Tập tin "gia_nha.csv" chứa thông tin về giá bán ra thị trường (đơn vị đô la) của 21613 ngôi nhà ở quận King nước Mỹ trong khoảng thời gian từ tháng 5/2014 đến 5/2015. Bên cạnh giá nhà, dữ liệu còn bao gồm các thuộc tính mô tả chất lượng ngôi nhà. Dữ liệu gốc được cung cấp tại: https://www.kaggle.com/harlfoxem/housesalesprediction.
Các biến chính trong bộ dữ liệu: • price: Giá nhà được bán ra. • floors: Số tầng của ngôi nhà được phân loại từ 1-3.5. • condition: Điều kiện kiến trúc của ngôi nhà từ 1 − 5, 1: rất tệ và 5: rất tốt. • view: Đánh giá cảnh quan xung quanh nhà theo mức độ từ thấp đến cao: 0-4. • sqft_above: Diện tích ngôi nhà. • sqft_living: Diện tích khuôn viên nhà. • sqft_basement: Diện tích tầng hầm. Các bước thực hiện: 1. Đọc dữ liệu (Import data): house_price.csv 2. Làm sạch dữ liệu (Data cleaning): NA (dữ liệu khuyết) 3. Làm rõ dữ liệu: (Data visualization) (a) Chuyển đổi biến (nếu cần thiết). (b) Thống kê mô tả: dùng thống kê mẫu và dùng đồ thị. 4. Xây dựng mô hình hồi quy tuyến tính để đánh giá các nhân tố có thể ảnh hưởng đến giá nhà ở quận King. 5. Thực hiện dự báo cho giá nhà quận King.
Hoạt động 2: • Sinh viên tự tìm một bộ dữ liệu thuộc về chuyên ngành của mình. Khuyến khích sinh viên sử dụng dữ liệu thực tế sẵn có từ các thí nghiệm, khảo sát, dự án, . . . trong chuyên ngành của mình. Ngoài ra sinh viên có thể tự tìm kiếm dữ liệu từ những nguồn khác hoặc tham khảo trong kho dữ liệu cung cấp trong tập tin "kho_du_lieu_BTL_xstk.xlsx". • Sinh viên được tự do chọn phương pháp lý thuyết phù hợp để áp dụng phân tích dữ liệu của mình, nhưng phải đảm bảo 2 phần: Làm rõ dữ liệu (data visualization) và mô hình dữ liệu (model fitting).
2
Đề tài 2 Hoạt động 1: Tập tin "diem_so.csv" chứa thông tin về điểm toán của các em học sinh trung học thuộc hai trường học ở Bồ Đào Nha. Các thuộc tính dữ liệu bao gồm điểm học sinh, nơi cư trú, và một số hoạt động xã hội khác. Dữ liệu được thu thập bằng cách sử dụng báo cáo của các trường và các kết quả khảo sát sinh viên. Dữ liệu gốc được cung cấp tại: https://archive.ics.uci.edu/ml/datasets/student+performance. Các biến chính trong bộ dữ liệu: • G1: Điểm thi học kì 1. • G2: Điểm thi học kì 2. • G3: Điểm cuối khoá. • studytime: Thời gian tự học trên tuần ( 1 - ít hơn 2 giờ, 2 - từ 2 đê 5 giờ, 3 - từ 510 giờ, or 4 - lớn hơn 10 giờ). • failures: số lần không qua môn ( 1,2,3, hoặc 4 chỉ nhiều hơn hoặc bằng 4 lần). • absences: số lần nghỉ học. • paid - Có tham gia các lớp học thêm môn Toán ngoài trường (có/không). • sex: Giới tính của học sinh. (Nam/nữ). Các bước thực hiện: 1. Đọc dữ liệu (Import data): grade.csv 2. Làm sạch dữ liệu (Data cleaning): NA (dữ liệu khuyết) 3. Làm rõ dữ liệu: (Data visualization) (a) Chuyển đổi biến (nếu cần thiết). (b) Thống kê mô tả: dùng thống kê mẫu và dùng đồ thị. 4. Xây dựng mô hình hồi quy tuyến tính để đánh giá các nhân tố có thể ảnh hưởng đến điểm thi cuối kỳ của sinh viên. 5. Thực hiện dự báo cho điểm Toán của học sinh.
Hoạt động 2: • Sinh viên tự tìm một bộ dữ liệu thuộc về chuyên ngành của mình. Khuyến khích sinh viên sử dụng dữ liệu thực tế sẵn có từ các thí nghiệm, khảo sát, dự án, . . . trong chuyên ngành của mình. Ngoài ra sinh viên có thể tự tìm kiếm dữ liệu từ những nguồn khác hoặc tham khảo trong kho dữ liệu cung cấp trong tập tin "kho_du_lieu_BTL_xstk.xlsx". • Sinh viên được tự do chọn phương pháp lý thuyết phù hợp để áp dụng phân tích dữ liệu của mình, nhưng phải đảm bảo 2 phần: Làm rõ dữ liệu (data visualization) và mô hình dữ liệu (model fitting). 3
Đề tài 3 Hoạt động 1: Tập tin Diet.csv (cung cấp bởi Đại học Sheffield, Anh) chứa thông tin về một thử nghiệm về hiệu quả của các chế độ ăn kiêng trong việc giảm cân nặng đối với những người trưởng thành. Một người tham gia sẽ được áp dụng một trong ba chế độ ăn kiêng khác nhau trong vòng 6 tuần lễ. Cân nặng của người tham gia sẽ được ghi nhận trước và sau khi kết thúc thử nghiệm để đánh giá hiệu quả của từng chế độ ăn kiêng. Các biến chính trong bộ dữ liệu: • P erson = số thứ tự của người tham gia thử nghiệm • gender = giới tính của người tham gia (1 = nam, 0 = nữ) • Age = tuổi (năm) • Height = chiều cao (cm) • pre.weight = cân nặng trước khi áp dụng chế độ ăn kiêng (kg) • Diet = chế độ ăn kiêng (3 chế độ khác nhau) • weight6weeks = cân nặng sau 6 tuần ăn kiêng Các bước thực hiện: 1. Đọc dữ liệu (Import data): house_price.csv 2. Làm sạch dữ liệu (Data cleaning): NA (dữ liệu khuyết) 3. Làm rõ dữ liệu: (Data visualization) (a) Chuyển đổi biến (nếu cần thiết). (b) Thống kê mô tả: dùng thống kê mẫu và dùng đồ thị. 4. t.test: Dùng một kiểm định phù hợp cho hai biến pre.weight và weight6weeks 5. ANOVA một nhân tố: Chế độ ăn kiêng Diet nào hiệu quả nhất trong việc giảm cân. 6. ANOVA hai nhân tố: Chế dộ ăn kiêng Diet và giới tính gender ảnh hưởng thế nào đến việc giảm cân weightLOST ?
Hoạt động 2: • Sinh viên tự tìm một bộ dữ liệu thuộc về chuyên ngành của mình. Khuyến khích sinh viên sử dụng dữ liệu thực tế sẵn có từ các thí nghiệm, khảo sát, dự án, . . . trong chuyên ngành của mình. Ngoài ra sinh viên có thể tự tìm kiếm dữ liệu từ những nguồn khác hoặc tham khảo trong kho dữ liệu cung cấp trong tập tin "kho_du_lieu_BTL_xstk.xlsx". • Sinh viên được tự do chọn phương pháp lý thuyết phù hợp để áp dụng phân tích dữ liệu của mình, nhưng phải đảm bảo 2 phần: Làm rõ dữ liệu (data visualization) và mô hình dữ liệu (model fitting). 4
Đề tài 4 Hoạt động 1: Tập tin flights.rda cung cấp thông tin về 162049 chuyến bay đã khởi hành từ hai sân bay lớn của vùng Tây bắc Thái Bình Dương của Mỹ, SEA ở Seattle và PDX ở Portland trong năm 2014. Dữ liệu cung cấp bởi Văn phòng Thống kê Vận tải, Mỹ (https://www.transtats.bts.gov/). Dữ liệu này được dùng để phân tích các nguyên nhân gây ra sự khởi hành trễ hoặc hoãn các chuyến bay. Chi tiết về bộ dữ liệu như sau: Các biến chính trong bộ dữ liệu: 1. year, month, day: ngày khởi hành của mỗi chuyến bay 2. carrier: tên của hãng hàng không, được mã hóa bằng 2 chữ cái in hoa. Ví dụ: UA = United Air Lines, AA = American Airlines, DL = Delta Airlines, v.v. 3. origin và dest: tên sân bay đi và đến. Đối với sân bay đi, ta chỉ có hai giá trị SEA (Seattle) và PDX (Portland) 4. dep_time và arr_time: thời gian cất cánh và hạ cánh (theo lịch dự kiến) 5. dep_delay và arr_time: chênh lệch (phút) giữa thời gian cất cánh/hạ cánh thực tế với thời gian cất cánh/hạ cánh in trong vé 6. distance: khoảng cách giữa hai sân bay (dặm) Các bước thực hiện: 1. Đọc dữ liệu (Import data): house_price.csv 2. Làm sạch dữ liệu (Data cleaning): NA (dữ liệu khuyết) 3. Làm rõ dữ liệu: (Data visualization) (a) Chuyển đổi biến (nếu cần thiết). (b) Thống kê mô tả: dùng thống kê mẫu và dùng đồ thị. 4. ANOVA một nhân tố: đánh giá sự khác biệt trong việc lệch giờ bay (dep_delay) giữa các hãng bay. 5. Mô hình hồi quy tuyến tính: Sử dụng một mô hình hồi quy phù hợp để phân tích các yếu tố ảnh hưởng đến việc lệch giờ đế (arr_time) của các chuyến bay.
Hoạt động 2: • Sinh viên tự tìm một bộ dữ liệu thuộc về chuyên ngành của mình. Khuyến khích sinh viên sử dụng dữ liệu thực tế sẵn có từ các thí nghiệm, khảo sát, dự án,. . . trong chuyên ngành của mình. Ngoài ra sinh viên có thể tự tìm kiếm dữ liệu từ những nguồn khác hoặc tham khảo trong kho dữ liệu cung cấp trong tập tin "kho_du_lieu_BTL_xstk.xlsx". • Sinh viên được tự do chọn phương pháp lý thuyết phù hợp để áp dụng phân tích dữ liệu của mình, nhưng phải đảm bảo 2 phần: Làm rõ dữ liệu (data visualization) và mô hình dữ liệu (model fitting). 5
Đề tài 5 Hoạt động 1: Tập tin heat_data được thu thập với mục tiêu đánh giá các nhân tố ảnh hưởng đến mức độ thu nhiệt và toả nhiệt của các ngôi nhà. Các biến chính trong bộ dữ liệu: • X1 - Độ nhỏ gọn • X2 - Diện tích bề mặt • X3 - Diện tích tường • X4 - Khu vực mái nhà • X5 - Chiều cao tổng thể • X6 - Định hướng • X7 - Khu vực dán kính • X8 - Phân bố khu vực dán kính • y1 - Mức độ thu nhiệt. • y2 - Mức độ toả nhiệt. Các bước thực hiện: 1. Đọc dữ liệu (Import data): heat_data.csv 2. Làm sạch dữ liệu (Data cleaning): NA (dữ liệu khuyết) 3. Làm rõ dữ liệu: (Data visualization) (a) Chuyển đổi biến (nếu cần thiết). (b) Thống kê mô tả: dùng thống kê mẫu và dùng đồ thị. 4. Mô hình hồi quy tuyến tính : Sử dụng một mô hình hổi quy tuyến tính phù hợp để đánh giá các nhân tố tác động đến mức độ thu nhiệt của các ngôi nhà. 5. t.test: Đề xuất một kiểm định phù hợp để so sánh trung bình mức thu nhiệt và toả nhiệt của các ngôi nhà.
Hoạt động 2: • Sinh viên tự tìm một bộ dữ liệu thuộc về chuyên ngành của mình. Khuyến khích sinh viên sử dụng dữ liệu thực tế sẵn có từ các thí nghiệm, khảo sát, dự án, . . . trong chuyên ngành của mình. Ngoài ra sinh viên có thể tự tìm kiếm dữ liệu từ những nguồn khác hoặc tham khảo trong kho dữ liệu cung cấp trong tập tin "kho_du_lieu_BTL_xstk.xlsx". • Sinh viên được tự do chọn phương pháp lý thuyết phù hợp để áp dụng phân tích dữ liệu của mình, nhưng phải đảm bảo 2 phần: Làm rõ dữ liệu (data visualization) và mô hình dữ liệu (model fitting). 6
Đề tài 6 Hoạt động 1: Dữ liệu được cho trong file "auto-mpg.csv" là bộ dữ liệu tiêu thụ nhiên liệu của xe trong thành phố. Dữ liệu được lấy từ UCI Machine Learning Repository (https://archive.ics.uci.edu/ml/datasets/Auto+MPG). Bộ dữ liệu gồm 398 quan trắc trên 9 biến sau: • "mpg": (continuous) mức tiêu thụ nhiên liệu tính theo dặm trên galon (miles/gallon), • "cylinders": (multi-valued discrete) số xy lanh, • "displacement" : (continuous) kích thước động cơ, • "horsepower" : (continuous) công suất động cơ, • "weight" : (continuous) khối lượng, • "acceleration" : (continuous) gia tốc xe, • "model year": (multi-valued discrete) năm sản xuất model (2 số cuối) • "origin": (multi-valued discrete) nơi sản xuất: 1 - North American, 2 - Europe, 3 - Asia • "car name": (multi-valued discrete) tên xe Yêu cầu: 1. Nhập và "làm sạch" dữ liệu (lưu ý, biến "horsepower" có 6 quan trắc thiếu dữ liệu; xét xem có dữ liệu ngoại lai không?), thực hiện các thống kê mô tả. (Chú ý các cột của file "auto-mpg.csv" được phân tách bởi dấu ";", khi đọc file dữ liệu dùng lệnh "read.csv" cần thêm sep = ";") 2. Chia bộ dữ liệu làm 2 phần: mẫu huấn luyện (training dataset) gồm 200 quan trắc đặt tên "auto_mpg1" và mẫu kiểm tra (validation dataset) gồm các quan trắc còn lại trong bộ dữ liệu ban đầu đã "làm sạch", đặt tên "auto_mpg2". 3. Chọn mô hình tốt nhất giải thích cho biến phụ thuộc "mpg" thông qua việc chọn lựa các biến độc lập phụ hợp trong 8 biến độc lập còn lại từ mẫu huấn luyện " "auto_mpg1". Cần trình bày từng bước phương pháp chọn, tiêu chuẩn chọn mô hình, lý do chọn phương pháp đó. 4. Kiểm tra các giả định (giả thiết) của mô hình. 5. Nêu ý nghĩa của mô hình đã chọn. 6. Dự báo (Prediction): Sử dụng mẫu kiểm tra (validation dataset) "auto_mpg2" và dựa vào mô hình tốt nhất được chọn trên đưa số liệu dự báo cho biến phụ thuộc "mpg". Gọi kết quả dự báo này là biến "predict_mpg". 7. So sánh kết quả dự báo "predict_mpg" với giá trị thực tế của "mpg". Rút ra nhận xét?
7
Hoạt động 2: • Sinh viên tự tìm một bộ dữ liệu thuộc về chuyên ngành của mình. Khuyến khích sinh viên sử dụng dữ liệu thực tế sẵn có từ các thí nghiệm, khảo sát, dự án, . . . trong chuyên ngành của mình. Ngoài ra sinh viên có thể tự tìm kiếm dữ liệu từ những nguồn khác hoặc tham khảo trong kho dữ liệu cung cấp trong tập tin "kho_du_lieu_BTL_xstk.xlsx". • Sinh viên được tự do chọn phương pháp lý thuyết phù hợp để áp dụng phân tích dữ liệu của mình, nhưng phải đảm bảo 2 phần: Làm rõ dữ liệu (data visualization) và mô hình dữ liệu (model fitting).
Tài liệu [1] Douglas C. Montgomery, George C. Runger. Hoboken. Applied Statistics and Probability for Engineers. NJ: Wiley, (2007). [2] Peter Dalgaard Introductory Statistics with R. Springer, (2008). [3] Gareth, J., Daniela, W., Trevor, H. and Robert, T. learning: with applications in R. Springer, (2013).
8
An introduction to statistical