Từ điển dữ liệu (Data Dictionary)
Tài liệu này định nghĩa mô hình metadata của EcoData: mỗi chỉ tiêu (indicator) được mô tả bằng một tập trường chuẩn để người dùng có thể tra cứu, trích dẫn và tái lập nghiên cứu. Từ điển áp dụng cho cả dữ liệu quốc tế và dữ liệu Việt Nam.
Mô hình metadata của một chỉ tiêu
Mỗi chỉ tiêu trong EcoData mang các trường sau:
| Trường | Ý nghĩa | Ví dụ |
|---|---|---|
short_code | Mã chuẩn hóa của EcoData (xem bên dưới) | wb_mac_gdp_usd |
code | Mã gốc do nguồn công bố | NY.GDP.MKTP.CD |
label_vi / label_en | Nhãn song ngữ | "GDP (USD hiện hành)" / "GDP (current US$)" |
unit | Đơn vị đo | USD, % GDP, index, người |
frequency | Tần suất quan sát | annual, quarterly, monthly, mixed |
source | Tổ chức nguồn | World Bank, IMF, GSO, Hải quan |
time_start / time_end | Năm/kỳ đầu và cuối | 1990 / 2023 |
spatial_coverage | Đơn vị phân tích | quốc gia, tỉnh, doanh nghiệp, hộ |
data_quality_notes | Ghi chú chất lượng/nguồn gốc | đơn vị, nhóm nguồn, lưu ý phương pháp |
Người dùng có thể tìm theo short_code (gọn, ổn định) hoặc code gốc của nguồn. Giao diện ưu tiên hiển thị short_code; mã gốc luôn được giữ trong metadata để đối chiếu.
Hệ thống mã chuẩn hóa: ss_dom_key_mod
EcoData ánh xạ các mã gốc dài, không đồng nhất giữa các nguồn về một mã ngắn có cấu trúc gồm bốn đoạn, phân tách bằng dấu gạch dưới:
ss _ dom _ key _ mod
│ │ │ └── modifier: đơn vị / biến thể (usd, pct, idx, sa, ...)
│ │ └──────── key: tên chỉ tiêu (gdp, cpi, exp, pop, ...)
│ └────────────── domain: lĩnh vực (mac, ext, fis, lab, dem, ...)
└─────────────────── source: nguồn (wb, im, ad, un, fr, ...)
| Đoạn | Vai trò | Ví dụ giá trị |
|---|---|---|
ss (source) | Nguồn dữ liệu | wb (World Bank), im (IMF), ad (ADB), un (UN), fr (FRED) |
dom (domain) | Lĩnh vực | mac (vĩ mô), ext (đối ngoại), fis (tài khóa), lab (lao động), dem (dân số) |
key | Tên chỉ tiêu | gdp, cpi, exp, imp, pop, une |
mod | Đơn vị / biến thể | usd, pct, idx, cap (bình quân đầu người) |
Ví dụ ánh xạ:
| Mã gốc | short_code | Diễn giải |
|---|---|---|
NY.GDP.MKTP.CD | wb_mac_gdp_usd | World Bank · vĩ mô · GDP · USD hiện hành |
FP.CPI.TOTL.ZG | wb_mac_cpi_pct | World Bank · vĩ mô · CPI · %/năm |
SL.UEM.TOTL.ZS | wb_lab_une_pct | World Bank · lao động · thất nghiệp · % |
Bộ mã được sinh và kiểm định bằng công cụ Codebook tích hợp (trang quản trị Codebook) và script kiểm định nội bộ. Hậu tố tự sinh được giới hạn [a-z0-9]{2,8} ký tự. Toàn bộ catalogue (~18.000+ chỉ tiêu) đều có short_code.