Mẫu ngẫu nhiên | Tóm tắt lý thuyết Thống kê Xã hội học | HNUE (2025)

Tóm tắt kiến thức Mẫu ngẫu nhiên về: Giới thiệu về thống kê; Thu thập dữ liệu; Trình bày dữ liệu bằng bảng và biểu đồ,... Tài liệu học tập môn THỐNG KÊ XÃ HỘI HỌC tại trường ĐẠI HỌC SƯ PHẠM HÀ NÔI giúp bạn học tập, ôn luyện và đạt điểm cao!

TÓM TẮT LÝ THUYẾT: MẪU NGẪU NHIÊN

2.1. Giới thiệu về Thống kê

Thống kê là khoa học về việc thu thập, xử lý, biểu diễn, phân tích mẫu số liệu thu thập được từ một quần thể để rút ra được các kết luận có độ tin cậy cho toàn bộ quần thể đó.

2.1.1 Mẫu và quần thể

- Quần thể (population) là tập hợp tất cả các đối tượng mà ta cần nghiên cứu.

- Mẫu (sample) là tập hợp một số phần tử đại diện lấy từ quần thể mà ta chọn để tiến hành nghiên cứu.

Số phần tử của một mẫu được gọi là cỡ mẫu, kí hiệu là n.

- Để nghiên cứu các tính chất của một quần thể ta có thể:
+ Khảo sát toàn bộ các phần tử của quần thể, hoặc
+ Khảo sát một bộ phận của quần thể đó,
sau đó tìm cách rút ra kết luận dựa trên dữ liệu quan sát được

2.1.2 Quy trình nghiên cứu thống kê

- Giai đoạn 1: Thiết kế và tiến hành điều tra để thu thập dữ liệu.

- Giai đoạn 2: Tổng hợp và trình bày kết quả điều tra thu thập được.

- Giai đoạn 3: Phân tích đưa ra kết luận và dự báo.

2.1.3. Các bài toán thống kê sẽ học:

1. Bài toán ước lượng tham số: ước lượng điểm, ước lượng khoảng.
Một nhà điều tra thử tính cân nặng trung bình của 100 trẻ sơ sinh ở một địa phương thì được kết quả là 3,1kg. Có thể nói gì về cân nặng của trẻ sơ sinh toàn địa phương đó?

2.  Bài toán kiểm định giả thuyết.
Một nhà quản lý cho rằng cân nặng trung bình của tất cả các trẻ sơ sinh ở địa phương đó là 3,3kg. Tuyên bố của nhà quản lý có đúng không?

3. Bài toán hồi quy.
Chiều cao của bố/mẹ và con liên quan như thế nào đến nhau?
Biết chiều cao của bố/mẹ thì có thể dự đoán được chiều cao của con không

2.2 Thu thập dữ liệu

2.2.1

- Định nghĩa: Lấy mẫu là quá trình chọn một số lượng nhỏ những đơn vị nghiên cứu từ một
quần thể nghiên cứu xác định.

- Câu hỏi:

+ Mẫu nghiên cứu được rút ra trên nhóm cá thể nào?
+ Cần bao nhiêu cá thể trong mẫu nghiên cứu?
+ Những cá thể này được chọn như thế nào?

2.2.1 Xác định dữ liệu cần thu thập

- Xác định rõ dữ liệu nào cần thu thập, thứ tự ưu tiên của các dữ liệu này. Nếu không sẽ mất rất nhiều thời gian và chi phí cho những dữ liệu ít quan trọng hay không liên quan đến vấn đề cần nghiên cứu.

- Xác định số các đơn vị điều tra (cỡ mẫu).

2.2.2.  Dữ liệu sơ cấp và thứ cấp

- Dữ liệu thứ cấp là dữ liệu đã qua tổng hợp, xử lý.
+ Ưu điểm: thu thập nhanh, ít tốn kém chi phí.
+ Nhược điểm: đôi khi ít chi tiết và không đáp ứng đúng nhu cầu nghiên cứu.
+ Nguồn cung cấp: số liệu nội bộ, số liệu từ cơ quan thống kê nhà nước, cơ quan chính phủ, báo, tạp chí, các tổ chức, hiệp hội, viện nghiên cứu,...

- Dữ liệu sơ cấp là dữ liệu thu thập trực tiếp, ban đầu từ đối tượng nghiên cứu.
+ Ưu điểm: đáp ứng tốt nhu cầu nghiên cứu.
+ Nhược điểm: tốn kém nhiều về thời gian và chi phí.
+ Phương pháp thu thập: thực nghiệm, khảo sát qua điện thoại, thư hỏi, quan sát trực tiếp và
phỏng vấn cá nhân

2.2.3 Lấy mẫu hoàn lại và không hoàn lại

- Lấy mẫu ngẫu nhiên có hoàn lại: lần lượt lấy ngẫu nhiên từ quần thể ra một phần tử, thu thập các thông tin cần thiết từ phần tử đó rồi trả nó trở lại quần thể trước khi lấy tiếp lần sau.

- Lấy mẫu ngẫu nhiên không hoàn lại: tương tự như trên nhưng khác ở chỗ các phần tử đã lấy ra sẽ không được chọn lại ở lần sau.

2.2.4 Quy tắc lấy mẫu

- Căn cứ vào dữ liệu của mẫu mà ta thu thập được, để có thể đưa ra những kết luận đủ chính xác về dấu hiệu nghiên cứu trong quần thể thì trước hết mẫu được chọn phải mang tính đại diện cho quần thể.

+ Mỗi phần tử được lấy vào mẫu một cách hoàn toàn ngẫu nhiên, tức là mọi phần tử của quần thể đều có thể được lấy vào mẫu với khả năng như nhau.

+ Các phần tử của mẫu được chọn lần lượt, độc lập với nhau và có hoàn lại từ quần thể.

- Chú ý: Khi kích thước của tổng thể khá lớn còn kích thước của mẫu lại nhỏ thì phương thức lấy mẫu hoàn lại và lấy mẫu không hoàn lại cho ta kết quả sai lệch không đáng kể.

2.2.5 Phương pháp lấy mẫu giản đơn

- Mẫu giản đơn là mẫu được chọn trực tiếp từ danh sách đã được đánh số của tổng thể. Từ quần thể kích thước N người ta rút ra mẫu n phần tử bằng cách bốc thăm, chọn số ngẫu nhiên từ bảng hoặc sinh số ngẫu nhiên từ máy tính.

- Phương pháp này có ưu điểm là cho phép thu được một mẫu có tính đại diện cao, song để vận dụng phải có được toàn bộ danh sách của tổng thể nghiên cứu, và chi phí chọn mẫu sẽ khá lớn.

2.2.6 Các phương pháp lấy mẫu khác

- Mẫu phân tầng (Stratified sampling): quần thể được chia thành nhóm và mỗi nhóm được lấy mẫu giản đơn

- Lấy mẫu cụm (Cluster sampling): quần thể được chia thành nhiều cụm. Đầu tiên chọn ngẫu nhiên một số cụm, sau đó lại chọn ngẫu nhiên các phần tử từ các cụm được chọn bằng phương pháp lấy mẫu giản đơn.

- Mẫu hệ thống (Systematic random sampling): Đánh số các phần tử của quần thể từ 1 đến N. Chọn ngẫu nhiên ra 1 phần tử trong k phần tử đầu tiên (k < N), từ phần tử được chọn cứ cách k phần tử của quần thể lại lấy ra một phần tử cho vào mẫu.

- Lấy mẫu nhiều tầng (Multistage sampling): Kết hợp nhiều phương pháp.

Chú ý: Để đơn giản ta chỉ xét phương pháp lấy mẫu giản đơn.

2.3 Trình bày dữ liệu bằng bảng và biểu đồ

Các phương pháp trình bày dữ liệu:

1. Đối với dữ liệu định tính
- Bảng tần số, tần suất, tần số tích lũy, tần suất tích lũy.
- Biểu đồ hình cột, hình tròn.

2. Đối với dữ liệu định lượng
- Biểu đồ thân-lá.
- Bảng tần số, tần suất, tần số tích lũy, tần suất tích lũy.
- Biểu đồ hình cột, hình tròn.

2.3.1 Biểu đồ thân-lá (stem-and-leaf diagram)

Biểu đồ thân - lá là một phương pháp mô tả thông tin trực quan về mẫu x1,  trong đó mỗi số xi bao gồm ít nhất hai chữ số. Để xây dựng một biểu đồ thân - lá, ta thực hiện các bước như sau.
- Bước 1: Chia mỗi số xi thành hai phần: thân cây, bao gồm một hoặc nhiều chữ số đầu và lá, bao gồm các chữ số còn lại.

- Bước 2: liệt kê các giá trị thân thành một cột.

- Bước 3: ghi lại lá cho mỗi quan sát bên cạnh thân cây.

- Bước 4: đếm số lượng thân và lá.

Ví dụ 2.3.1. Điều tra cân nặng của 20 sinh viên tại một trường ĐH, ta thu được bảng dữ liệu sau:

59.0 59.5 52.7 47.9 55.7 48.3 52.1 53.1 55.2 45.3
46.5 54.8 48.4 53.1 56.9 47.4 50.2 52.1 49.6 46.4

 

Xây dựng biểu đồ thân-lá cho cân nặng của 20 sinh viên như sau:

Thân Tần số
45 3 1
46

4  5

2
47 4  9 2
48 3  4 2
49 6 1
50 2 1
52 1  1  7 3
53 1  1 2
54 8 1
55 2  7 2
56 9 1
59 0  5 2

 

2.3.2 Tần số

- Tần số (frequence) là số lần biến số nhận một giá trị nào đó.

- Tỉ lệ (proportion) là tần số được diễn tả một cách tương đối, được tính bằng cách lấy tần số chia cho tổng số quan sát.

- Tỉ lệ phần trăm (percentage) là tỉ lệ được nhân lên cho 100.
Tỉ lệ và tỉ lệ phần trăm được gọi là tần số tương đối (relative frequencies) hay tần suất.

- Bảng tần số/tần suất (frequency table) là bảng liệt kê các giá trị (hoặc khoảng giá trị) của một biến và tần số/tần suất của chúng.

Ví dụ 2.3.2. Năm 2016, báo Tuổi trẻ Online có làm cuộc khảo sát về bình chọn Quốc hoa Việt Nam, kết quả thu được như sau:

Tài liệu VietJack

Ví dụ 2.3.3. Dữ liệu về ngành học của sinh viên một trường đại học như sau:
Ngành học Tần số (số sinh viên) Tần suất (%)
Quản trị kinh doanh 450  
Điện tử viễn thông    
Công nghệ thông tin   20
Tổng 1000  
Hãy điền giá trị vào các ô trống trong bảng.

2.3.3 Bảng tần số

a) Trường hợp dữ liệu có ít giá trị:

Ví dụ: khảo sát điểm thi môn Toán của học sinh khối 12 một trường THPT như sau: 

Tài liệu VietJack

b) Trường hợp dữ liệu có nhiều giá trị:

- Nếu dữ liệu có nhiều giá trị khác nhau, khoảng cách giữa các giá trị không đồng đều hoặc các giá trị khác nhau rất ít thì ta sẽ biểu diễn chúng dưới dạng khoảng.

- Ví dụ: Khảo sát 1200 người trong độ tuổi lao động (từ 18 đến 60 tuổi), nếu lập bảng như ở ví dụ trên thì sẽ rất dài, làm mất đi tác dụng tóm lược thông tin. Do đó, ta thường phân thành các nhóm, chẳng hạn: từ 18 đến 21 tuổi, từ 21 đến 30 tuổi, từ 31 đến 40 tuổi, từ 41 đến 50 tuổi, từ 51 đến 60 tuổi.

- Chú ý: 

+ Số khoảng tối ưu là n

+ Độ dài mỗi khoảng xấp xỉ h=xmax- xminn 

Ví dụ 2.3.4. Năng suất (tạ/ha) của một loại cây thu hoạch được tại 40 khu vực canh tác như sau

Tài liệu VietJack

2.4 Biểu đồ tần số

- Biểu đồ tần số là cách biểu diễn trực quan bảng tần số của số liệu.

- Để xây dựng một biểu đồ tần số, ta thực hiện các bước như sau:

+ Bước 1: Gắn nhãn các mốc của từng khoảng trên một thang nằm ngang.
+ Bước 2: Đánh dấu và dán nhãn thang thẳng đứng theo tần số.
+ Bước 3: Trên mỗi khoảng, vẽ một hình chữ nhật có chiều cao bằng với tần số tương ứng với khoảng đó

Tài liệu VietJack

2.4.1 Biểu đồ tần suất

- Biểu đồ tần suất là cách biểu diễn trực quan bảng tần suất của số liệu. Biều đồ tần suất thường có hình tròn, mỗi hình quạt tương ứng với một biến số hay khoảng biến số.

- Chú ý: Độ lớn góc ở tâm của hình quạt = tỉ lệ × 360°

Tài liệu VietJack2.5 Số liệu và các số đặc trưng

2.5.1 Biến số

- Biến số (variable) là khái niệm dùng để chỉ bất kỳ đặc tính nào của quần thể mà ta nghiên
cứu.
- Ví dụ: Để nghiên cứu sinh viên của một trường Đại học, ta có thể nghiên cứu các biến như:
+ Giới tính
+ Tuổi
+ Chiều cao
+ Ngành học
+ Số tiền chi tiêu trong một tháng,...

2.5.2 Phân loại biến số

- Biến định tính (qualitative) là biến dùng để phản ánh tính chất, loại hình, không thể hiện trực tiếp bằng các con số.
Giá trị của mỗi biến định tính có thể xếp thứ tự được (Thái độ: không hài lòng-hài lòng-rất hài lòng), hoặc không xếp thứ tự được (Giới tính: Nam-Nữ).

- Biến định lượng (quantitative) là biến dùng để diễn tả các mức độ cao, thấp của dữ liệu, thể hiện trực tiếp bằng các con số.
Giá trị của biến định lượng có thể là đại lượng liên tục (chiều cao, cân nặng) hoặc đại lượng rời rạc (điểm số, số ca khỏi bệnh trong một tháng).

? Hãy xác định các loại biến trong ví dụ về thống kê sinh viên.
Ví dụ 2.5.1. Xem điểm Toán của 10 học sinh lớp A, ta thu được kết quả như sau:
10 9 5 6 1 5 7 9 5 6

Có thể rút ra các thông tin gì từ mẫu số liệu trên?

2.5.3 Các số đo giá trị trung tâm

a) Trung bình mẫu (Sample mean)
Giả sử {x1, x2,..., xn} là một mẫu dữ liệu ta thu thập được. Khi đó

x¯ = x1+x2+...+xnn

- Nếu mẫu dữ liệu được biểu diễn dưới dạng một bảng tần số:

Giá trị x1 x2 ... xk
Tần số n1 n2 ... nk

 

Khi đó, x = n1x1+n2x2+...+nkxkn=1ni=1knixi

Trung bình mẫu ghép nhóm: Nếu mẫu dữ liệu được biểu diễn dưới dạng một bảng tần số theo nhóm:

Khoảng giá trị (a1; a2) a2; a3 ... (ak; ak+1)
Tần số n1 n2 ... nk

 

Gọi xi= ai +ai+12 là giá tị đại diện cho khoảng (ai; ai+1). Khi đó,

x  n1x1 + n2x2+...+ nkxkn=1ni=1knixi

Ý nghĩa của trung bình mẫu:

- Số trung bình mẫu được dùng làm đại diện cho các số liệu của mẫu. Nó là một số đặc trưng quan trọng của mẫu số liệu.

- Ví dụ: Nếu biết điểm trung bình môn Toán của lớp A là 6,5, của lớp C là 7,5 thì ta có thể cho rằng sinh viên lớp C đạt điểm cao hơn sinh viên lớp A.

- Tuy nhiên, khi các số liệu trong mẫu có sự chênh lệch rất lớn đối với nhau thì số trung bình mẫu chưa đại diện tốt cho các số liệu trong mẫu. Khi đó, ta dùng một số đặc trưng khác thích hợp hơn là trung vị.

b) Trung vị mẫu (Median): giả sử mẫu dữ liệu {x1, . . . , xn} được sắp xếp theo thứ tự không giảm
x1*  x2* ... xn*

- Nếu n = 2k thì trung vị mẫu là 12(xk* + xk+1*)

- Nếu n = 2k + 1 thì trung vị mẫu là xk+1*

- Chú ý: Khi các số liệu trong mẫu không có sự chênh lệch quá lớn thì trung bình mẫu và trung vị xấp xỉ nhau.

c) Mode là giá trị của mẫu xuất hiện nhiều nhất.
Chú ý: Một mẫu số liệu có thể có một hay nhiều Mode.

2.5.4 Các số đo độ phân tán

a) Phương sai mẫu (Sample variance)

s2=1n-1i=1n(xi-x)2

b) Độ lệch tiêu chuẩn mẫu (Standard deviation) hay độ lệch mẫu là s.
- Ý nghĩa: phương sai và độ lệch mẫu đo mức độ phân tán của các số liệu trong mẫu quanh số trung bình mẫu. Phương sai và độ lệch mẫu càng lớn thì độ phân tán càng lớn.

c) Phạm vi mẫu (Range) là xn*-x1*


Ví dụ 2.5.2. Theo dõi điểm Toán của 10 học sinh lớp A, ta thu được kết quả như sau:
10 9 5 6 1 5 7 9 5 6


Khi đó, các số đặc trưng của mẫu dữ liệu mà ta thu được là:

+ Cỡ mẫu: n = 10

+Trung bình mẫu:

x = 110 (10 + 9 + 5 + 6 + 1 + 5 + 7 + 9 + 5 + 6) = 6, 3

+ Phương sai mẫu:

s2= 19(10  6, 3)2 + (9  6, 3)2 + (5  6, 3)2 + (6  6, 3)2 + (1  6, 3)2 + (5  6, 3)2 + (7  6, 3)2 + (9  6, 3)2 +(5  6, 3)2 + (6  6, 3)2 =6, 9

+ Độ lệch mẫu: s = 2, 6268

+ Mode = 5; Median = 6; Range = 9

2.5.5 Thống kê

- Giả sử (X1 . . . , Xn) là một mẫu ngẫu nhiên.
- Mỗi đại lượng được tính dựa trên các giá trị X1,...,Xn được gọi là một thống kê.

- Ví dụ: Các số đặc trưng: trung bình mẫu, phương sai mẫu, trung vị, mode,... đều là các thống

Việc làm dành cho sinh viên:

Việc làm gia sư môn Toán

Việc làm gia sư các môn cập nhật theo ngày mới nhất

Việc làm thêm nhân viên phục vụ nhà hàng/ quán cafe dành cho sinh viên

Việc làm cộng tác viên kế toán

Mức lương của Thực tập sinh kế toán là bao nhiêu? 

Bình luận (0)

Đăng nhập để có thể bình luận

Chưa có bình luận nào. Bạn hãy là người đầu tiên cho tôi biết ý kiến!
Nhắn tin Zalo