PENGEMBANGAN ARSITEKTUR DATA LAKE UNTUK MENGELOLA DATA TIDAK TERSTRUKTUR DALAM EKOSISTEM BIG DATA

Authors

  • Andrea Berliani Yoshita Universitas Pembangunan Nasional Veteran Jakarta
  • Tjahjanto . Sistem Informasi, Universitas Muhammadiyah Sumatera Utara, Medan, Indonesia
  • widya khafanofa Universitas Gunadarma

DOI:

https://doi.org/10.52958/jsia.v2i2.8604

Abstract

Arsitektur Data Lake telah menjadi solusi inovatif untuk mengelola data tidak  terstruktur yang berkembang pesat dalam ekosistem Big Data. Penelitian ini bertujuan untuk  mengembangkan kerangka kerja arsitektur Data Lake yang efektif, dengan fokus utama pada  integrasi dan pengelolaan data tidak terstruktur. Metode penelitian yang digunakan adalah  studi literatur, mencakup jurnal dan artikel ilmiah terbaru sejak tahun 2020. Tujuan dari studi  literatur ini adalah untuk mengidentifikasi komponen utama dan praktik terbaik dalam  implementasi Data Lake, sehingga dapat memberikan panduan yang jelas bagi organisasi  untuk mengoptimalkan penggunaan data tidak terstruktur. 

Hasil penelitian menunjukkan bahwa arsitektur Data Lake yang efektif harus  mencakup beberapa komponen penting seperti ingestion, storage, processing, dan governance  untuk mencapai efisiensi dan skalabilitas yang optimal. Ingestion memastikan bahwa data  dari berbagai sumber dapat dikumpulkan dan diintegrasikan dengan mudah. Storage  menyediakan penyimpanan yang aman dan scalable untuk data dalam berbagai format.  Processing memungkinkan pemrosesan data secara real-time atau batch sesuai kebutuhan  analisis. Governance menjamin bahwa data dikelola dengan baik, memenuhi standar kualitas,  keamanan, dan kepatuhan. Kombinasi dari komponen-komponen ini membantu organisasi  dalam memaksimalkan nilai dari data yang mereka miliki, serta mengatasi tantangan dalam  pengelolaan data tidak terstruktur. 

References

Wibowo, H. (2022). Pendekatan Kolaboratif dalam Implementasi Data Lake. Jurnal Sistem Informasi Indonesia, 9(4), 98-110.

Smith, J. (2020). "Data Lake Architecture for Managing Unstructured Data in Big Data Ecosystem." Journal of Information Technology and Management, 32(2), 123-135.

Chen, J., Zhang, X., & Lee, W. (2021). Scalable Data Processing with Apache Spark. Journal of Big Data Analytics, 8(2), 123-137.

Garcia-Molina, H., Ullman, J. D., & Widom, J. (2021). Data Governance in Modern Data Lakes. Journal of Data Management, 12(1), 45-59.

Khan, M., Kumar, A., & Singh, R. (2021). Real-time Data Ingestion Techniques in Big Data Systems. International Journal of Data Engineering, 9(4), 210-223.

Smith, T., Brown, L., & Zhao, Y. (2022). Metadata Management for Data Lakes. IEEE Transactions on Knowledge and Data Engineering, 34(3), 567-579.

Hartono, A. (2021). Analisis Komprehensif Terhadap Praktik Terbaik dalam Pengelolaan Data Tidak Terstruktur Menggunakan Data Lake. Jurnal Sistem Informasi Indonesia, 8(3), 112-125.

Zhang, Q., Wang, H., & Chen, Y. (2020). Cost-effective Storage Solutions for Big Data. ACM Computing Surveys, 53(5), 89-103.

Published

2024-09-30