Phân tích mô tả xử lý r
Hướng dẫn chungCài đặt các thư việninstall.packages(“readr”) Show
install.packages(“haven”) install.packages(“readxl”) install.packages(“psych”) install.packages(“Hmisc”) install.packages(“gmodels”) Khai báo các thư việnlibrary(“readr”) ibrary(“haven”) ibrary(“readxl”) librarys(“psych”) library(“Hmisc”) library(“gmodels”) # Các phép toán ## Các phép toán cớ bản
Tạo Dataset
Các phép toán thống kêKiểm tra giá trị trung bình của hai mẫu có khác nhau không?
Dữ liệu mảng trong R
Lập trình cơ bản với RVòng lặp for
Vòng lặp While
Hàm cơ bản trong R
Gom nhóm dư liệu
Thao tác với dữ liệu và các phép toán xử lý trên dữ liệuRead from local file 1. Dùng lệnh “save as” trong Excel lưu số liệu dưới dạng file “.csv” 2. dùng lệnh dt = read.csv (đường dẫn file, header = TRUE) Để lưu dữ liệu vào đối tượng 3. Báo cho R biết: lấy Data ra phân tích : attach(dt)
head(dt)
Biểu đồ cơ bản: hist, plot,boxplot Hist:hist(var, xlab, ylab, main, xlim, ylim, col, border, prob)
## Boxplot (var ~ group, xlab, ylab, main, xlim, ylim, col, border, horizontal)
##Hàm barplot Hàm barplot
# Biểu đồ cơ bản: ## hist, plot,boxplot ##pie sa = c(sum(salbeg),sum(salnow)) pie(sa)
PHÂN TÍCH THỐNG KÊ MÔ TẢ#Khái niệm tổng thể (population) và mẫu (sample) Trong chương này, chúng ta sẽ sử dụng R cho mục đích phân tích thống kê mô tả. Nói đến thống kê mô tả là nói đến việc mô tả dữ liệu bằng các phép tính và chỉ số thống kê thông thường mà chúng ta đã làm quen qua từ thuở trung học như số trung bình (mean), số trung vị (median), phương sai (variance) độ lệch chuẩn (standard deviation)… cho các biến số liên tục, và tỉ số (proportion) cho các biến số không liên tục. Nhưng trước khi hướng dẫn phân tích thống kê mô tả, bạn đọc nên phân biệt hai khái niệm tổng thể (population) và mẫu (sample).
#Gía trị trung bình: \[mean = \frac{\sum_{i=1}^n*x_i}{n}\]
Measures of Central TendencyThe mean is a descriptive statistic that looks at the average value of a data set.Phương sai mẫu Tổng thể chung: Phương sai mẫu: \[\sigma = \sqrt{\frac{\sum_{i=1}^N(x_i - \mu)^2}{N-1}}\] Tổng thể mẫu: \[ s = \sqrt{\frac{\sum_{i=1}^{n}(x_i - \overline{x})^2}{n-1}}\] Độ lệch chuẩn (Standard-Deviation) Tổng thể chung: \[Standard_\_Deviation = sd = \sqrt\sigma = \sqrt{\frac{\sum_{i=1}^N(x_i - \mu)^2}{N-1}}\] Tổng thể mẫu: \[Standard_\_Deviation = sd = \sqrt\sigma = \sqrt{\frac{\sum_{i=1}^n(x_i - \mu)^2}{n-1}}\] Kiểm định với RKiểm tra giá trị trung bình của hai mẫu
Đã biết phương saiChưa biết phương saiXây dựng mô hình Hổi qui với R
Linear Regression (Y~X)fit = lm(salnow~salbeg)
Quan hệ tương quan giữa lương khởi điểm và lương hiện tại:
vễ biểu đồ mô hình hình (Plot the chart)
references:
|