SAP Trong Kỉ Nguyên Big Data: SAP VORA

SAP Vora sử dụng một engine xử lý in-memory, có thể integrate với Hadoop ecosystem và Apache Spark (execution framework).
Big Data là gì: Big Data nôm na là dữ liệu lớn, rất lớn đến mức các kĩ thuật xử lý truyền thống không thể áp dụng được. Trong thời đại IoT, big data càng trở nên phức tạp khi mọi thứ đều được kết nối tới Internet và sản sinh ra dữ liệu
Chúng ta đang đói thông tin nhưng lại đang chìm ngập trong dữ liệu. Có ba thách thức lớn với big data
  • Xử lý data không hiệu quả: Xử lý thời gian thực là điều không thể khi data phân tán trên hàng ngàn node và được xỉ lý tuần tự.
  • Thiếu sự liên kết với business: Nhu cầu cần kết nối giữa quyết định business với các yếu tố thị trường bên ngoài bằng cách xử lý, làm giàu dữ liệu trong hệ thống doanh nghiệp thông thường với Hadoop data lake.
  • Quản lý Big Data tốn kém: Dữ liệu quá lớn làm chậm hệ thống business thông thường
SAP Vora là gì: SAP Vora là một giải pháp kết nối dữ liệu enterprise và dữ liệu Hadoop (data lake) và xử lý với công nghệ in-memory processing
Business case: Máy bay được kết nối IoT và bảo trì/bảo dưỡng được dự đoán trước (predictive maintenance):
Ví dụ một công ty có một chiếc máy bay trang bị 40.000 sensors, mỗi sensor gửi data của nó mỗi giây. Với sự trợ giúp của predictive maintenance, doanh nghiệp có thể dự đoán được linh kiện/phụ tùng của chiếc máy bay đó có thể hư hỏng trong tương lai gần, và ra quyết định thay thế hoặc sửa chữa. Từ đó, tối đa hóa thời gian hoạt động của máy bay đó  và tối thiểu hóa chi phí tổng thể. Vấn đề là data từ 40.000 sensors / giây rất lớn, vì vậy data đó được chứa trong data lake (trong trường hợp này là Hadoop). Data lake này được kết nối tới hệ thống ERP vì dữ liệu BOM (Bill of Material) được chứa ở đó. Từ đây, các bộ phận thay thế có thể được đặt mua từ hệ thống ERP, với đầy đủ các thông tin về giá, lịch trình… SAP Vora có vai trò kết hợp, xử lý (bao gồm các tính năng OLAP) sau đó trả về dữ liệu trong thời gian ngắn với sự trợ giúp của xử lý in-memory, giúp doanh nghiệp có cái nhìn tốt hơn về enterprise data và data trong data lake.
SAP Vora sử dụng một engine xử lý in-memory, có thể integrate với Hadoop ecosystem và Apache Spark (execution framework). Apache Spark đóng vai trò là một engine tương thích với data phân tán trong Hadoop, hỗ trợ in-memory processing. SAP Vora được thiết kế để sử dụng trong môi trường file system lớn và phân tán, cải thiện performance bằng cách xử lý data trong memory, và cung cấp các chức năng OLAP (online analytical processing) cho các analysis đa chiều, bao gồm hierarchical report (report dạng cây). Ngoài ra SAP Vora cũng có khả năng tích hợp với các giải pháp khác, ví dụ SAP HANA.
Dành cho những ai chưa biết về Hadoop, sau đây là một số thông tin cơ bản:
  • Hadoop is a combination of many open-source components that work together to support the distributed processing of large datasets.
  • Hadoop là một framework, trong có chứa nhiều component open-source, hoạt động cùng nhau thành một giải pháp tổng thể để xử lý dữ liệu lớn.
  • HDFS (Hadoop distributed file system): file system phân tán của Hadoop với các tính năng như replication, fault tolerance…
  • YARN: dùng để quản lý resource của cluster như memory, CPU…
Vì Hadoop là một platform mở của Apache, nên các phiên bản thương mại của nó có thể được sử dụng từ nhiều vendor như HDP, CHD, MapR

Kiến trúc của SAP VORA

Fig1
SAP Vora bao gồm 2 component chính:
  • SAP VORA engine (phần màu xanh)
  • SAP VORA Apache Spark extension library (phần màu vàng)
Fig2
Cách thức hoạt động của SAP Vora (xử lý in-memory phân tán) (trong xử lý phân tán với SAP Vora, mỗi node-worker đều có instance SAP Vora và Spark)
Lấy ví dụ tính toán giá trị trung bình của một sensor cụ thể trong một khoảng thời gian
Screen Shot 2017-06-16 at 9.47.18 AM
Đầu tiên, Spark gửi yêu cầu đến các engine trên các node
Trên từng node:
  • Một phần data được lưu local trên HDFS, ví dụ phần 3/10 (1)
  • Loading data lên Vora engine (2)
  • Xử lý dữ liệu (với in-memory processing) (3)
  • Trả lại kế quả cho Spark (4)
Fig3
Quay lại với ví dụ về chiếc máy bay khi nãy. Giả sử máy bay có một turbin, trong đó có các thành phần như: hệ thống làm mát, hệ thống phun xăng, mô tơ… được trang bị với nhiếu sensor khác nhau Các sensor stream data liên tục và được cấu trúc trong một cây hierarchy (figure 3) (cây hierarchy này được lưu trữ trong hệ thống ERP). Hệ thống Hadoop (data lake) lưu trữ dữ liệu từ sensors report là sensor của bơm (sensor 2) đang có nhiệt độ cao. Có hai khả năng xảy ra ở đây, hoặc sensor hoặc bơm bị hư (hoặc cả hai đều hư). Trong trường hợp này, nếu sensor 3 cũng có nhiệu độ cao thì chúng ta có thể chắc chắn rằng bơm bị hư. Tuy nhiên, cả hai sensor này phải nằm cùng trên một hierarchy level (BOM-master data).
Fig4
Tổng kết lại, với business case trong bài viết này, Hadoop cần tổ chức Big Data của nó với data của doanh nghiệp (enterprise data) trong SAP HANA. SAP Vora đóng vai trò thao tác dữ liệu Big Data từ Hadoop (sử dụng Apache Spark Execution Framework) và enterprise data từ SAP HANA, từ đó cung cấp một nền tảng thống nhất cho analysis của doanh nghiệp

No comments:

Post a Comment

The Ultimate XP Project

  (Bài chia sẻ của tác giả  Ryo Amano ) Trong  bài viết  số này, tôi muốn viết về dự án phát triển phần mềm có áp dụng nguyên tắc phát triển...