CROSS-SECTIONAL LÀ GÌ

Một giữa những điều thú vị nhất khi thao tác làm việc cùng với tài liệu là tính muôn hình vạn trạng của nó. Tuy vậy thống kê với học lắp thêm là 2 chuyên ngành chính nghiên cứu và phân tích về dữ liệu, bao gồm rất nhiều phương pháp phân tích tài liệu được ra đời từ những nhu yếu phân tích của các ngành khác – độc nhất là từ bỏ tính đặc thù trong dữ liệu của ngành đó. Ví dụ điển hình nổi bật là kinh tế lượng (econometrics), gần như một ngành học thành lập và hoạt động để phân tích những dữ liệu trong tởm tế, lúc dữ liệu đa phần được thu thập dưới dạng bảng (panel data). Nội dung bài viết sau đây của mình sẽ ra mắt với chúng ta những kiểu biến chuyển số, tính chất dữ liệu phổ biến, từ đơn giản đến tinh vi và những dạng quy mô tương ứng với đều kiểu dạng và đặc thù đó.

Trong bài bác này, tài liệu được đọc là processed data, có nghĩa là những gì các bạn có vào tay trước lúc xây dựng mô hình. Khi đó những biến (cả features cùng response) các ở bên dưới dạng những con số (numeric); ví dụ, tài liệu thô có thể là một bức hình ảnh 800*600, thì processed data bao hàm các numeric features của 480,000 điểm ảnh. Hay giả dụ một feature bên dưới dạng binary (như Yes/No), nó được gửi về dạng 0-1. Hay nếu khách hàng phân tích text data, “dữ liệu” trong bài này được hiểu là những term frequency. Trong bài bác này, các quy mô mình nói tới thường là những supervised model, với những features (X) và đổi mới response (y).

Bạn đang xem: Cross-sectional là gì

A. Phân một số loại theo cực hiếm mà biến hóa được nhận

Continuous/Interval Variable – trở thành liên tục

Đây là hình dạng dữ liệu thông dụng và đơn giản và dễ dàng nhất, khi biến đổi số hoàn toàn có thể nhận dữ liệu tại bất cứ điểm nào trên trục số, hoặc bất kể điểm nào trong một khoảng. Ví dụ, độ cao và cân nặng của một fan bất kì có thể nhận bất kể giá trị to hơn 0 nào, lệch giá của một công ty lớn trong một năm cũng giống như vậy. Tất yếu trên thực tế, bạn luôn luôn luôn tất cả một tinh thần về ngưỡng buổi tối đa hoặc buổi tối thiểu của giá trị, nhưng đặc điểm đặc trưng độc nhất của loại phát triển thành này là nó rất có thể nhận bất kể giá trị nào trong ngưỡng đó. Đồng thời, những giá trị của nó có tính thiết bị tự (ordered), ví dụ bạn có thể so sánh khối lượng 160 kg nhỏ tuổi hơn 170 kg. Dữ liệu liên tục kiểu này chất nhận được bạn quy mô bằng rất nhiều phân phối liên tục rất thân quen thuộc, như trưng bày chuẩn, triển lẵm đều, etc. Hay như khi bạn sử dụng các quy mô hồi quy đường tính, một điều kiện tiên quyết là biến chuyển response y là 1 trong biến liên tục. Tuy vậy, loại biến tiếp tục này có khá nhiều tình huống quánh biệt, dưới đấy là một số hình dáng như thế:

Các trở nên về tỉ lệ (Rate/ratio): những biến này luôn luôn ở trong tầm từ 0 mang đến 1, từ bỏ conversion rate vào marketing cho tới tỉ lệ tử vong trong một dịch bệnh. Không hề ít nghiên cứu vãn vẫn sử dụng các biến này như các biến thường xuyên với triển lẵm chuẩn, nhưng lại nếu muốn kiểm soát điều khiếu nại từ 0 mang đến 1 ở trên, một mô hình phổ đổi mới là hồi quy beta (beta regression).

Xem thêm: Đây Mới Là Cách Làm Khoai Sọ Lệ Phố Ngon Quên Lối Về, Cách Làm Khoai Lệ Phố Đơn Giản Thơm Ngon

Circular/Directional variable: những biến về quý hiếm góc trên một đường tròn. Trong số ngành như địa chất học, sinh học, thỉnh thoảng hướng (directional) là một trong mối quan tâm; ví dụ, tìm hiểu về điều hướng (navigation) của những loài chim, hay được sử dụng hướng gió để tham dự đoán độ đậm đặc ozone trong ko khí. Circular variable ghi dưới dạng những góc của một cung tròn, trường đoản cú 0 độ cho 360 độ, nên tương đối nhiều các phép tính thường thì như trong trở nên liên tục rất có thể không bao gồm ý nghĩa; ví dụ, quan sát thứ nhất là 10 độ, cùng quan tiếp giáp thứ nhì là 350 độ – 2 góc nằm tại góc phần tư thứ nhất và sản phẩm 4 của con đường tròn. Mặc dù vậy nếu bạn lấy mức độ vừa phải 2 góc là 180 độ, nó gần như là nằm tại 1 vị trí rất khác. Vị thế, điểm mấu chốt khi thao tác với circular variable là việc sử dụng các toạ độ cực (polar coordinates).

2. Binary variable – các biến nhị phân

Biến nhị phân là phát triển thành mà chỉ hoàn toàn có thể nhận 2 quý giá là 0 và 1 – tương xứng với những đo lường và tính toán trong một phân một số loại (category) chỉ tất cả 2 cực hiếm (levels) mang đến phép, như Có/Không, Đúng/Sai, etc. Khi các biến này xuất hiện thêm trong quy mô dưới dạng là biến chuyển response, câu hỏi trở thành vấn đề phân lớp (classification) với không hề ít thuật toán thịnh hành như logistic regression, SVM, etc. Không giống với biến chuyển liên tục, thay đổi nhị phân không có tính trang bị tự. Ở đây 0 cùng 1 chỉ thay mặt đại diện cho 2 nhóm, chứ KHÔNG có tính so sánh như là 030, thiếu nữ >30, phái nam

*

Các đổi thay multinomial variable là một sự không ngừng mở rộng của những biến nhị phân, lúc phân loại (category) có rất nhiều hơn 2 phân lớp (levels). Lấy ví dụ như một phân nhiều loại về xu thế chính trị nghỉ ngơi Mỹ rất có thể có Democrats/Republican/Neutral, etc. Lúc được code vào trong sản phẩm tính, những levels cũng tốt được viết số như 1, 2, 3. Mặc dù vậy, điều dìm mạnh quan trọng ở đó là các levels này không có tính sản phẩm tự (unordered), tức là bạn thiết yếu lấy tổng tốt hiệu của các con số này, và đừng lúc nào quên đọc diễn tả về ý nghĩa sâu sắc của những biến trước lúc phân tích.

Khi các biến multinomial variable lộ diện là các biến response, vấn đề thường trở thành việc phân lớp nhiều tầng (multilevel classification). Khi những biến này xuất hiện dưới dạng những features, bọn chúng thường được represented vị một vài thay đổi nhị phân; ví dụ, trong ví dụ về xu thế chính trị sống trên, với 3 lớp Democrats/Republican/Neutral, thay do được represented là 1,2,hay 3, nó hoàn toàn có thể được represented vị 2 đổi thay nhị phân X1 = Democrats/Not Democrats với X2 = Republican/Not Republican. Theo cách này, một tín đồ Democrats sẽ tiến hành code là (1,0), một bạn Republican được code là (0,1), cùng một fan Neutral được code là (0,0). Vì chưng thế, những phân tích như trong vươn lên là binary variable (ANOVA/ANCOVA) có thể được áp dụng.

Một trường hợp hay gặp mặt khi thao tác làm việc với các biến nhị phân cùng multinomial variable là bài toán extremely unbalanced data giữa những phân lớp, có nghĩa là số lượng dữ liệu ở các level vô cùng khác nhau. Ví dụ, khi ước ao xây dựng mô hình dự đoán liệu một người có ý định mua xe hơi trong 3 tháng sắp tới tới, con số biến response nhận giá trị No (không mua) chiếm phần đại nhiều phần (một dataset mình đã nhận thức thấy tỉ lệ này khoảng tầm 95%). Nếu một mô hình phân lớp được thi công với cục bộ dataset này, nếu như khách hàng không để ý hiện tượng này, các bạn sẽ thấy độ đúng mực (accuracy rate) siêu cao, nhưng thực chất lại không có nhiều ý nghĩa. Vị vì, của cả chẳng làm mô hình gì, chỉ từ việc quan gần cạnh dữ liệu, ví như một người dự đoán tất cả đều là No, độ chính xác đã lên đến mức 95%. Điều đặc biệt trong các quy mô này chưa phải là độ chủ yếu xác, nhưng là false negative rate – tỉ lệ số fan bạn dự kiến không thiết lập xe mà họ đã cài xe thực sự. Một kĩ thuật thịnh hành với những extremely unbalanced data là việc áp dụng undersampling và oversampling để gia công cho data phối trở cần balanced. Ví dụ bạn có 1000 quan cạnh bên với 950 No với 50 Yes, undersampling lựa chọn ra ngẫu nhiên 50 quan ngay cạnh No, và ghép lại cùng với 50 Yes để tạo nên một balance dataset cùng với 50 quan sát ở từng phân lớp. Ngược lại oversampling thì replicate mỗi 50 quan gần cạnh Yes 19 lần, tạo thành một balance với 950 quan cạnh bên ở mỗi phân lớp. Các quy mô phân lớp trên những oversampled/undersampled dataset mang đến ta một bức tranh tốt hơn về năng lực dự đoán của những mô hình.

Tuy vậy, những cách under/over sampling này cũng có khá nhiều điểm yếu, như làm biến đổi phân phối của tài liệu và giá thành cho việc làm này đặc biệt lớn vào big data; một số cách làm cho khác, như theo comment của chúng ta Nguyễn Tiến Đức, mang tính chất kĩ thuật hơn, chính là việc thay đổi các tham số của hàm mất non (loss function), hay được dùng area under the curve (AUC) của ROC để điều chỉnh precision/recall của classification. Hoặc một cách khác, kia là bài toán sử dụng những algorithm nhưng mà work well cùng với unbalanced data – như support vector machine (SVM). Tóm lại, các bạn sẽ luôn cần cẩn thận với bài toán chọn algorithm và criteria để đánh giá các algorithm khi bao gồm unbalanced data.

4. Count variable (Biến đếm)

Một tình huống phổ cập khác là bọn họ có tài liệu về số lần/số lượng một sự kiện xẩy ra trong một khoảng thời gian nhất định, ví dụ số lượng tai nạn giao thông vận tải trong một năm, số lượng ca mắc bệnh mới, etc. Đó là ví dụ về count data (biến đếm).

Khi đổi thay đếm mở ra dưới dạng các features, thông thường nó được sử dụng như một vươn lên là liên tục. Chính vì mặc dù các giá trị của nó luôn luôn là số nguyên, nó luôn luôn có tính sản phẩm tự và bao gồm tính so sánh (một sự khiếu nại xảy ra gấp đôi thì ít hơn 3 lần). Trong những mô hình đơn giản dễ dàng như quy mô hồi quy tuyến tính, ý nghĩa sâu sắc của hệ số với những biến count rất có thể được diễn giải như với các biến liên tục hoàn toàn hợp lí. Ví dụ, khi bạn muốn hồi quy về độ đậm đặc CO2 trong không khí và số lượng cây xanh vào vùng, bạn hoàn toàn nói theo cách khác cứ thêm một cây cối nồng độ CO2 tăng/giảm một lượng độc nhất định.

Tuy nhiên, khi đổi mới đếm xuất hiện thêm là một response variable, điều kiện biến đếm buộc phải là số nguyên ko âm là 1 trong những điều khiếu nại ràng buộc. Ví dụ, trong lĩnh vực bảo hiểm, bạn có nhu cầu mô hình con số tai nạn giao thông của một tín đồ dựa trên những yếu tố như thu nhập, nghề nghiệp, tuổi tác, giới tính, etc. Nếu khách hàng sử dụng những mô hình cho biến liên tiếp như quy mô hồi quy tuyến đường tính, dự kiến của bạn cũng có thể dự đoán con số tai nạn giao thông là số âm. Hơn thế nữa các đổi mới count data thường bị lệch rất nhiều – tức là số lượng các giá trị thấp như 0,1,2 chiếm phần phần lớn, nhưng cũng có 1 ít các giá trị cao (như 15,16,…) – trong khi quy mô hồi quy đường tính thường thì với phân phối chuẩn chỉnh giả định các response khá đối xứng.

Mô hình thịnh hành cho các biến count data làm việc response variable là Poisson regression (mô hình hồi quy Poisson), negative binomial regression, và các phiên phiên bản của 2 quy mô này để kiểm soát và điều chỉnh cho overdispersion. Một trường thích hợp cũng hay chạm chán là quy mô của các sự kiện thi thoảng hoặc rất hiếm (rare sự kiện – extremely rare event) – phần đông sự khiếu nại này thường xuyên được quan tâm lớn vì tuy nó ít khi xảy ra, tuy nhiên khi xảy ra, chi tiêu hoặc loss thường vô cùng cao, chính vì như thế đòi hỏi mô hình có độ chính xác lớn. Ví dụ như nếu bạn có nhu cầu mô hình số lượng tai nàn máy cất cánh nghiêm trọng xảy ra trong một năm, bạn sẽ cần sử dụng các rare sự kiện models.

5. Ordinal variable

Trường hợp thông dụng của biến hóa kiểu này là các likert scale, khi tài liệu thu được theo phong cách các câu hỏi “Đánh giá chỉ mức độ bằng lòng với sản phẩm trên thang điểm từ là một đến 10”. Nếu các biến này xuất hiên bên dưới dạng những features, thông thường hoàn toàn có thể sử dụng nó như một thay đổi liên tục.Tuy vậy, nếu các biến này là những response, các biến này rất có thể xem như 1 sự lai tạp giữa các biến multinomial và biến đổi liên tục. Chú ý qua, những biến này còn có vẻ gần giống với đổi thay multinomial sinh sống chỗ, các bạn cũng có thể xem như mỗi mức thang (từ 1 mang lại 10) như 1 level; tuy vậy, không giống như các trở nên multinomial, các levels này còn có tính thứ tự. Ngược lại, nó không trọn vẹn như biến đổi liên tục, vì các giá trị của nó luôn luôn là số nguyên, và các scale của nó có thể hơi tuỳ tiện thể (lúc thì thang điểm từ một đến 5, dịp thang điểm lại từ 5 cho 10, v.v). Kiểu dữ liệu này mang tới những quy mô trung gian thân hồi quy (regression) và phân lớp (classification).

Một mô hình phổ trở nên của trường thích hợp này là các mô hình với biến hóa ẩn (latent variable model). Quay trở lại với ví dụ ở trên về mức độ hài lòng. Mô hình biến ẩn này mang lại rằng, nút độ thích hợp thật là 1 trong những biến liên tục từ 0 cho 10, và các giá trị số nguyên vào likert scale sẽ khớp ứng với một khoảng chừng của biến liên tục này. Ví dụ, giả dụ biến thường xuyên có quý giá từ 0 cho 1.8, bên trên likert scale vẫn là 1, trường đoản cú 1.8 mang đến 2.9, trên likert scale sẽ là 2. Vấn đề trở thành tìm các điểm giới hạn cho mỗi likert score trên các biến thường xuyên (như những số 1.8 tuyệt 2.9 vào ví dụ nghỉ ngơi trên). Rõ ràng, biến thường xuyên này ko quan tiếp giáp được, nên người ta gọi là trở thành ẩn.

Phần làm việc trên mình nói về các kiểu tài liệu thường chạm chán phân nhiều loại theo các giá trị nó có thể nhận, tiếp sau đây sẽ là các đặc điểm dữ liệu thông qua đặc thù của quá trình thu thập.

B. Phân một số loại theo đặc thù của quá trình thu thập

Cross-sectional data (Dữ liệu giảm ngang)

Cross-sectional data là đẳng cấp dữ liệu dễ dàng nhất, khi các biến số chỉ được tích lũy tại một thời điểm tốt nhất định, hoặc giá trị của những biến số gần như là không đổi khác theo thời gian hay không gian vào phạm vi của nghiên cứu. Mục đích chính của việc sử dụng cross-sectional data là khi bạn quan tâm nhiều hơn thế tới những biến số và quan hệ giữa bọn chúng dựa trên thực chất của nó, chứ không thân thiết tới liệu những biến số và các mối quan liêu hệ chuyển đổi theo thời gian/không gian như vậy nào. Ví dụ, bạn sẽ sử dụng một cross-sectional data nếu muốn tìm hiểu mối quan hệ giới tính giữa các khoản thu nhập và trình độ chuyên môn học vấn nói chung, không kể tơi việc thu nhập với học vấn đổi khác theo thời gian như thế nào.

Đặc điểm đặc biệt quan trọng nhất của các quan gần kề trong cross-sectional data là rất có thể coi nó độc lập (independent), và chính vì như vậy các quan tiền sát rất có thể exchangable (trong ví dụ nhắc trên, bạn tích lũy thu nhập cùng học vấn của người 1 hay người thứ 1000 trước không quan trọng, với định danh của người 1 hay fan thứ 1000 is indistinguishable). Dìm dạng cross-sectional data tương đối dễ dàng và đơn giản bằng việc bạn không thấy yếu đuối tố thời hạn được hỗ trợ trong các biến số. Các quy mô cho cross-sectional data là các quy mô cơ phiên bản nhất.

2. Time series data và Panel data: (Dữ liệu theo chuỗi thời gian và tài liệu mảng)