Áp dụng phương pháp vectorization để tối ưu truy xuất dữ liệu và thuật toán Hash Join

www.cockroachlabs.com

Trong những RDBMS như MySQL, Postgres , record dữ liệu được lưu dưới dạng tuple (tập hợp giá trị từng field) được xếp liên tục với nhau trong một Page (gọi là Volcano model). Khi thực thi một câu query tính toán với điều kiện nào nó, chỉ có thể truy xuất từng row dữ liệu và kiểm tra row dữ liệu đó có thỏa mãn điều kiện đó hay không. Vì vậy, một phương pháp lưu trữ dữ liệu theo từng column (tổ chức như MS Excel hay Google sheet) gọi là Vectorization Model, sẽ cho phép xử lý đồng thời nhiều record hơn (batch dữ liệu) do chỉ xử lý trên một column có cùng kiểu dữ liệu với nhau và tối ưu hóa thuật toán Hash Join nhiều table với nhau theo primary key và foreign key.

Read more...
Linkedin

Want to receive more content like this in your inbox?