티스토리 뷰

Data Enginnering

빅데이터를 지탱하는 기술(1)

내일도이렇게 2019. 9. 18. 22:15

 빅데이터를 지탱하는 기술책을 읽고 정리한 내용입니다. 

 

데이터 파이프라인, 데이터 웨어하우스, 데이터 레이크에 대한 개념들이 쉽게 정리되어 있고

전체적인 데이터 흐름을 알 수 있어서 많은 도움이 되었습니다.

 


데이터 파이프라인 

  - 데이터 수집에서 워크플로 관리까지 

  - 차례대로 전달해나가는 데이터로 구성된 시스템 

 

 

데이터 수집 

  

  벌크형 

  이미 어딘가에 존재하는 데이터를 정리해 추출하는 방법으로, 데이터베이스와 파일 서버등에서

  정기적으로 데이터를 수집하는데 사용 

 

  스트리밍형 

  차례차례 생성되는 데이터를 끊임없이 계속해서 보내는 방법으로 실시간 데이터를 수집하는데 사용

 

스트림 처리와 배치 처리

 

  스트림 처리 

  과거 30분간 취합한 데이터를 집계하여 그래프를 만들려면 시계열 데이터베이스와 같은

  실시간 처리를 지향한 데이터베이스가 자주 사용  

 

  배치 처리

  장기적인 데이터 분석을 위해서 보다 대량의 데이터를 저장하고 처리하는데 적합한 분산 시스템이 적합 

 

분산 스토리지 

   여러 컴퓨터와 디스크로부터 구성된 스토리지 시스템 

   ex) 객체 스토리지, NoSQL 데이터베이스 

 

분산 데이터 처리 

  분산 스토리지에 저장된 데이터를 처리하데는 분산 데이터 처리의 프레임워크가 필요 

  분산 데이터 처리의 주 역할은 나중에 분석하기 쉽도록 데이터를 가공해서 그 결과를 외부 데이터베이스에 저장

   

워크플로 관리 

    전체 데이터 파이프라인의 동작을 관리하기 위해서 워크플로 관리 기술 사용

    매일 정해진 시간에 배치 처리를 스케줄대로 실행하고, 오류가 발생한 경우 관리자에게 통지하는 목적으로 사용

 

 


 

데이터 웨어하우스와 데이터 마트  

 

 

 데이터 웨어하우스

     대량의 데이터를 장기 보존하는 것에 최적화 되어 있는 데이터베이스 

 

 데이터 마트

    데이터 분석과 같은 목적에 사용하는 경우에 데이터 웨어하우스에서 필요한 데이터만을 추출한 데이터베이스 

 

 ETL(extract-transform-load)

    데이터를 추출(extract) , 가공(transform) 후 로드(load) 

 

 


데이터 레이크 

 

  데이터가 많아져서 ETL 프로세스 자체가 복잡해짐에 따라 모든 데이터가 데이터 웨어하우스를 가정해서 만들어지지 않는다.  텍스트 파일과 바이너리 데이터 등은 있는 그대로 데이터 웨어하우스에 넣을 수 없는 것들도 있다. 

 

데이터 레이크

 모든 데이터를 원래의 형태로 축적해두고 나중에 그것을 필요에 따라 가공하는 구조로 데이터의 축적 장소

 데이터 형식은 자유이지만 대부분의 경우 CSV나 JSON 등의 범용적인 텍스트 형식으로 사용됨.

 

공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/09   »
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30
글 보관함