Published on

[VN] Probability and Statistics: Two Sides of the Same Coin

Authors
Article Cover
Table of Contents

Xác suất và thống kê là khái niệm quen thuộc và thường đi cùng với nhau, chính vì vậy đôi khi chúng ta dễ nhầm lẫm rằng hai khái niệm này là một. Bài viết này làm rõ sự khác biệt giữa xác suất và thống kê, đồng thời đưa ra những định nghĩa về các khái niệm cơ bản trong lĩnh vực này.

1. Xác suất (Probability)

Khái niệm đầu tiên được đề cập đến là randomness - tính ngẫu nhiên là những sự kiện (events) mà chúng ta không thể dự đoán kết quả một cách chắc chắn. Một ví dụ điển hình nhất là việc tung đồng xu, khi đó sự ngẫu nhiên ngụ ý rằng chúng ta không biết đồng xu sẽ là mặt sấp hay ngửa. Khi đó xác suất đồng xu suất hiện mặt ngửa là 50%.

Chính vì vậy, xác suất là một môn khoa học nghiên cứu về sự ngẫu nhiên. Khi nói về xác suất tức là nói về khả năng sự việc đó xảy ra. Có 2 cách hiểu phổ biến về xác suất.

  • Tần số tương đối: Xác suất của một biến cố có thể được ước lượng bằng cách thực hiện một phép thử ngẫu nhiên nhiều lần và tính tỷ lệ số lần biến cố đó xảy ra. Cách hiểu này dựa trên Luật số lớn (Law of Large Numbers), luật này phát biểu rằng khi số lần thử nghiệm tăng lên, tần số tương đối của một biến cố sẽ tiến gần đến xác suất thực của biến cố đó.

  • Mức độ niềm tin: Xác suất cũng có thể được hiểu là mức độ tin tưởng của chúng ta rằng một sự kiện sẽ xảy ra. Cách hiểu này mang tính chủ quan hơn, nhưng nó rất hữu ích trong các tình huống mà chúng ta không thể thực hiện nhiều lần thử nghiệm. Ví dụ như việc dự báo thời tiết. Khi nghĩ về khả năng trời mưa, chúng ta sẽ xem xét những điều kiện như mây, độ ẩm hay xác suất trời sẽ mưa trong những điều kiện tương tự như hiện tại. Khi đó những cá nhân khác nhau có thể đưa ra các ước tính xác suất khác nhau dựa trên cách hiểu của họ về các yếu tố này.

Một ví dụ áp dụng xác suất là hệ thống thông tin liên lạc [1]. Mỗi hệ thống sẽ truyền thông tin từ nơi này đến nơi khác. Khi chúng ta nói chuyện điện thoại, những gì chúng ta nói sẽ được chuyển đổi thành những chuỗi 0,1 được gọi là information bits - sau đó những bit này được chuyển từ ăng-ten điện thoại đến một tháp di động gần đó. Khi đó bài toán cần giải quyết là trong quá trình truyền sẽ luôn bị ảnh hưởng bởi nhiễu (noise). Ví dụ như điện thoại truyền chuỗi 0-1-0-0-1-0 nhưng chuỗi nhận được là 0-1-0-1-1-0. Khi đó bit thứ tư được gọi là lỗi (error) và ảnh hưởng đến chất lượng âm thanh của cuộc trò chuyện. Những tiếng ồn (noise) trong đường truyền là một hiện tượng ngẫu nhiên (random phenomenon). Trước khi gửi tín hiệu đó, chúng ta sẽ không biết bits đó có bị ảnh hưởng hay không. Nó được mô tả như việc tung một đồng xu cho mỗi bits để biết bits đó có bị lỗi hay không. Lý thuyết xác suất được sử dụng rộng rãi trong thiết kế các hệ thống thông tin liên lạc hiện đại nhằm hiểu được hành vi của tiếng ồn trong các hệ thống này và thực hiện các biện pháp sửa lỗi.

Vì vậy, tính ngẫu nhiên (randomness) phổ biến ở khắp mọi nơi và lý thuyết xác suất nói một cách dễ hiểu là nghiên cứu về tính ngẫu nhiên.

Dưới đây là một vài ví dụ cơ bản của xác suất [2]

  • Ví dụ 1: Tung xúc xắc 1 lần

    • Alice sẽ nhận được $1 nếu kết quả gieo xúc xắc là ≤ 3
    • Bob sẽ nhận được $2 nếu kết quả gieo xúc xắc là ≤ 2

    Câu hỏi đặt ra là, chúng ta muốn trở thành Alice hay Bob?

    Ta ký hiệu kỳ vọng (expectation) của Alice và Bob lần lượt là E[A],E[B]E[A], E[B]. Ta thấy E[A]E[B]E[A] \ge E[B]

    E[A]=1×36=12E[B]=2×26=23>12E[A] = 1 \times \frac{3}{6} = \frac{1}{2} E[B] = 2 \times \frac{2}{6} = \frac{2}{3} > \frac{1}{2}
  • Ví dụ 2: Tung xúc xắc 2 lần

    • Chọn một số từ 2 đến 12
    • Bạn sẽ thắng 100$ nếu chọn đúng tổng của hai lần gieo xúc xắc

    Ta gọi tổng của 2 lần lắc đó chúng ta gọi là X+YX+YZZ là con số chúng ta chọn. Khi đó, số tiền chúng ta thắng được là 100×P[X+Y=Z]100 \times P[X+Y = Z], vì vậy chúng ta cần tính P[X+Y=Z]P[X+Y = Z] với Z:212Z: 2 \rightarrow 12

2. Thống kê (Statistic)

Tiếp tục ví dụ trên, dưới góc nhìn thống kê thì ta thấy được rằng mỗi mặt xúc xắc sẽ có xác suất là 16\frac{1}{6} Chúng ta có thể xây dựng dựa trên kiến thức này bằng cách gieo xúc xắc nhiều lần, đếm số lần xuất hiện của mỗi mặt và ước tính (estimate) xác suất của chúng.

Tuy nhiên với những quá trình phức tạp (complicated process), chúng ta sẽ xem chúng như công thức sau

Complicated process=Simple process+Random noise\text{Complicated process} = \text{Simple process} + \text{Random noise} Quaˊ trıˋnh phức tạp=Quaˊ trıˋnh đơn giản+Nhieˆ˜u\text{Quá trình phức tạp} = \text{Quá trình đơn giản} + \text{Nhiễu}

Do đó, thống kê là quá trình ước lượng tham số dựa trên dữ liệu (estimate parameters from data), và dữ liệu bắt nguồn từ các quá trình ngẫu nhiên (data comes from random process). Điều này tạo thành một vòng lặp (circle of truth)

circle-of-truth

Khi chúng ta thử nghiệm các xác suất, chúng ta được đưa cho mô hình để dự báo dữ liệu (given model, predict data) và sau đó dùng dữ liệu để ước lượng tham số và đưa ra mô hình (given data, predict model). Điều này được gọi là “Central Dogma of Inference”:

  • Thu thập một tập hợp các quan sát về quần thể hoặc hiện tượng hay còn được gọi là dữ liệu được ghi lại, vẽ đồ thị, phân tích và giải thích để thu thập thông tin hữu ích.
  • Tuy nhiên, dữ liệu có thể thay đổi và tồn tại khả năng không chắc chắn (uncertainty) trong việc đưa ra suy luận (inference) về những dữ liệu đó.

Thống kê sử dụng dữ liệu từ mẫu để suy luận về quần thể. Ví dụ, chúng ta có thể sử dụng dữ liệu về chiều cao của 100 học sinh được chọn ngẫu nhiên để ước lượng chiều cao trung bình của tất cả học sinh trong trường.

central-dogma-of-inference

Từ đó, ta nhận thấy được rằng một mô hình xác suất (probabilistic model) hoặc suy rộng thống kê (statistical inference) sẽ có các mục tiêu sau:

  • Đặc trưng cho tính ngẫu nhiên hoặc “nhiễu” trong dữ liệu
  • Định lượng sự không chắc chắn (uncertainty) trong các mô hình hoặc các quyết định đưa ra từ dữ liệu
  • Dự đoán các quan sát hoặc quyết định trong tương lai khi đối mặt với sự không chắc chắn

3. Kết luận

Xác suất và thống kê là hai lĩnh vực có liên quan chặt chẽ với nhau.

  • Xác suất (Probability) nghiên cứu về sự ngẫu nhiên (randomness) bằng cách mô tả về một quá trình ngẫu nhiên của một tập mẫu (sample) và đưa ra xác suất của một tình huống cụ thể

  • Thống kê (Statistic) ước lượng tham số từ dữ liệu , nhằm mục đích suy luận về quần thể (population) dựa trên mẫu quan sát được.

conclusion

Reference

  1. Pishro-Nik, H. (2016). Introduction to probability, statistics, and random processes.
  2. Lecture 1: Introduction - MIT 18.650 Statistics for Applications, Fall 2016