Chuyển tới nội dung chính

Từ điển dữ liệu (Data Dictionary)

Tài liệu này định nghĩa mô hình metadata của EcoData: mỗi chỉ tiêu (indicator) được mô tả bằng một tập trường chuẩn để người dùng có thể tra cứu, trích dẫn và tái lập nghiên cứu. Từ điển áp dụng cho cả dữ liệu quốc tế và dữ liệu Việt Nam.

Mô hình metadata của một chỉ tiêu

Mỗi chỉ tiêu trong EcoData mang các trường sau:

TrườngÝ nghĩaVí dụ
short_codeMã chuẩn hóa của EcoData (xem bên dưới)wb_mac_gdp_usd
codeMã gốc do nguồn công bốNY.GDP.MKTP.CD
label_vi / label_enNhãn song ngữ"GDP (USD hiện hành)" / "GDP (current US$)"
unitĐơn vị đoUSD, % GDP, index, người
frequencyTần suất quan sátannual, quarterly, monthly, mixed
sourceTổ chức nguồnWorld Bank, IMF, GSO, Hải quan
time_start / time_endNăm/kỳ đầu và cuối1990 / 2023
spatial_coverageĐơn vị phân tíchquốc gia, tỉnh, doanh nghiệp, hộ
data_quality_notesGhi chú chất lượng/nguồn gốcđơn vị, nhóm nguồn, lưu ý phương pháp
Tra cứu song hành

Người dùng có thể tìm theo short_code (gọn, ổn định) hoặc code gốc của nguồn. Giao diện ưu tiên hiển thị short_code; mã gốc luôn được giữ trong metadata để đối chiếu.

Hệ thống mã chuẩn hóa: ss_dom_key_mod

EcoData ánh xạ các mã gốc dài, không đồng nhất giữa các nguồn về một mã ngắn có cấu trúc gồm bốn đoạn, phân tách bằng dấu gạch dưới:

ss _ dom _ key _ mod
│ │ │ └── modifier: đơn vị / biến thể (usd, pct, idx, sa, ...)
│ │ └──────── key: tên chỉ tiêu (gdp, cpi, exp, pop, ...)
│ └────────────── domain: lĩnh vực (mac, ext, fis, lab, dem, ...)
└─────────────────── source: nguồn (wb, im, ad, un, fr, ...)
ĐoạnVai tròVí dụ giá trị
ss (source)Nguồn dữ liệuwb (World Bank), im (IMF), ad (ADB), un (UN), fr (FRED)
dom (domain)Lĩnh vựcmac (vĩ mô), ext (đối ngoại), fis (tài khóa), lab (lao động), dem (dân số)
keyTên chỉ tiêugdp, cpi, exp, imp, pop, une
modĐơn vị / biến thểusd, pct, idx, cap (bình quân đầu người)

Ví dụ ánh xạ:

Mã gốcshort_codeDiễn giải
NY.GDP.MKTP.CDwb_mac_gdp_usdWorld Bank · vĩ mô · GDP · USD hiện hành
FP.CPI.TOTL.ZGwb_mac_cpi_pctWorld Bank · vĩ mô · CPI · %/năm
SL.UEM.TOTL.ZSwb_lab_une_pctWorld Bank · lao động · thất nghiệp · %
Nguồn chuẩn của bộ mã

Bộ mã được sinh và kiểm định bằng công cụ Codebook tích hợp (trang quản trị Codebook) và script kiểm định nội bộ. Hậu tố tự sinh được giới hạn [a-z0-9]{2,8} ký tự. Toàn bộ catalogue (~18.000+ chỉ tiêu) đều có short_code.

Tần suất và đơn vị

  • Tần suất (frequency): annual (theo năm), quarterly (Q1–Q4), monthly (M01–M12), hoặc mixed khi một chỉ tiêu có nhiều tần suất theo nguồn.
  • Khóa kỳ (period_key): với dữ liệu dưới năm, mỗi quan sát mang khóa kỳ chuẩn — Q1Q4 cho quý, M01M12 cho tháng. Dữ liệu năm để khóa kỳ trống.
  • Đơn vị (unit): giữ nguyên ngữ nghĩa của nguồn (USD, % GDP, chỉ số, người, tấn…). Khi ghép panel nhiều nguồn, hãy đọc unit để tránh cộng gộp sai đơn vị.

Định nghĩa theo nhóm dữ liệu

Mỗi nhóm có bộ biến đặc trưng; xem trang chi tiết để biết danh sách đầy đủ và phạm vi:

NhómĐơn vị phân tíchBiến tiêu biểuChi tiết
Global DataQuốc gia × nămGDP, CPI, xuất/nhập khẩu, FDI, dân sốGlobal Data
GSO Việt NamQuốc gia/Tỉnh × nămGRDP, dân số, công nghiệp, CPI, đầu tưGSO Việt Nam
Hải quanMặt hàng × đối tác × kỳtrị giá XK/NK, lượng, cán cânCustoms
Macro SurveyTỉnh × nămPCI, PAPI, PAR, SIPAS, ICTMacro Survey & VHLSS
VHLSS MicroHộ/Cá nhân × wavethu nhập, chi tiêu, giáo dục, y tếMacro Survey & VHLSS
Stock HubMã CK × thời giangiá OHLCV, doanh thu, LNST, EPS, sự kiệnStock Hub

Cách dùng metadata để tái lập

  1. Lưu short_code + code gốc cùng dữ liệu để người khác đối chiếu nguồn.
  2. Ghi lại unit, frequency, time_start/time_end trong phần mô tả dữ liệu của nghiên cứu.
  3. Khi ghép nhiều nguồn, kiểm tra đơn vịđơn vị phân tích trước khi tạo panel.
  4. Xuất kèm metadata (CSV/Excel/JSON) — xem Xuất dữ liệu.

Xem thêm