top of page

Enterprise Workload Automation으로 Databricks 워크플로우 간소화

데이터는 기업의 성공에 필수적인 자산입니다. 데이터를 효과적으로 관리하고 분석할 수 있는 능력은 경쟁 우위를 제공할 수 있습니다. Databricks는 데이터 통합, 저장 및 처리를 위한 강력한 플랫폼이지만, 자동화는 데이터 플랫폼 관리자의 부담을 줄이고 생산성을 높일 수 있는 중요한 기능입니다. AutoSys와 Automic은 Databricks를 비롯한 다양한 클라우드 플랫폼과 온프레미스 플랫폼에서 실행되는 모든 자동화 워크로드를 관리하는 데 도움이 되는 통합 플랫폼입니다.


Databricks 이용 조직의 고민

데이터와 AI 활용 능력은 조직의 장기적인 성공에 결정적인 요소가 될 것이며, 이를 이해하는 수많은 데이터 과학자, 엔지니어, 분석가들이 Databricks를 자주 사용하게 되었습니다. Databricks는 데이터 통합, 저장, 처리 및 관리를 위한 많은 기능을 제공하지만, 워크로드 자동화에 있어서는 제한적인 면을 가지고 있습니다.


Databricks 사용이 확대되면서, 노트북 기반 워크플로의 볼륨도 같이 증가하였고, 이러한 워크로드를 관리하는 것은 더 많은 시간과 노력을 필요로 하게 되었습니다. Databricks는 기본적으로 운영자가 자동으로 작업을 실행할 수 있는 시간 기반 스케줄러를 제공하나, 그 워크플로는 종종 다양한 종속성을 가지고 있습니다. 이는 업스트림 데이터 공급을 위한 종속성과, Databricks 출력에 의존하는 다운스트림 애플리케이션을 위한 종속성입니다.


이런 종속성을 관리하기 위한 일반적인 방법은 강제 시간 지연을 사용하는 것인데, 이는 이전 작업이 완료된 후 후속 작업이 시작되도록 예약하는 것을 의미합니다. 그러나 이 방법에는 문제가 있습니다. 강제 지연 시간보다 더 많은 시간이 소요되는 작업이 발생하면, 이후 작업은 부정확하거나 불완전한 데이터로 시작하게 됩니다.


따라서 팀은 작업 사이에 강제 지연 시간을 설정하는 방안을 선택해야 합니다. 가장 오래 걸리는 작업이 최대 10시간이 소요된다고 가정하면, 팀은 이에 2시간의 버퍼를 더해 모든 이후 작업을 12시간 후에 시작하도록 예약할 수 있습니다. 이러한 접근법은 데이터 품질 저하, 노동 집약적인 해결책, 높은 비용 및 높은 실패율과 같은 여러 위험 요소를 야기할 수 있습니다.


일부 자동화 팀은 이런 문제를 해결하기 위해 셸 스크립트를 작성하여 자동화된 워크플로를 생성하려고 시도하였지만, 이 방식은 초기 투자가 크고 지원 및 실행이 어려우며, 확장이 어렵습니다.


또한, 이러한 문제들은 Databricks에서만 워크로드를 관리하려고 할 때만 발생하는 것이 아닙니다. 많은 조직들이 여러 플랫폼과 서비스에서 상호 연관된 작업 스트림을 실행하고 있기 때문에, 이런 다중 플랫폼 시나리오에서 엔터프라이즈 워크로드 자동화 솔루션의 부재는 심각한 취약점이 될 수 있습니다.





브로드컴 소프트웨어의 자동화 솔루션이 필요한 이유

앞서 언급한 문제들을 해결하기 위해서는 워크로드 자동화를 위한 효과적인 솔루션을 찾는 것이 중요합니다. 이 곳에서 브로드컴의 자동화 솔루션의 중요성이 드러나게 됩니다. 브로드컴은 이러한 복잡성을 처리할 수 있는 강력한 자동화 기능을 제공하여 Databricks를 사용하는 데이터 플랫폼 관리자가 효율적으로 작업을 관리하고 확장할 수 있도록 도와줍니다.

고비용의 자동화 섬이 생겨날 가능성이 있는 문제점을 해결하는 데 있어, 브로드컴의 엔터프라이즈 자동화 솔루션은 매력적인 선택입니다. Databricks와 같은 클라우드 기반 솔루션의 확장에 따른 사일로화된 자동화 도구의 유지 관리 및 지원에 더 이상 고민하지 않아도 됩니다.

브로드컴의 AutoSys와 Automic 같은 엔터프라이즈 자동화는 Databricks를 포함한 클라우드 기반 워크로드의 변화하는 요구사항에 맞게 적응할 수 있으며, 다양한 환경과 플랫폼에서 자동화 워크로드를 중앙에서 관리하는 기능을 제공합니다.

브로드컴 자동화의 광범위한 클라우드 통합 기능을 활용하면, 워크로드 팀은 Databricks 내부에서 복잡한 다단계 자동화 배포뿐만 아니라, 다양한 플랫폼과 서비스 제공업체 간의 복잡한 파이프라인을 효율적으로 관리할 수 있습니다. 또한, Google Cloud Platform에서의 데이터 집계, Databricks에서의 데이터 처리, Amazon QuickSight에서의 분석을 통해 다양한 공급업체의 ETL 워크플로를 설정하고 중앙에서 관리할 수 있습니다.

AutoSys와 Automic을 통한 Databricks 통합은 개발자와 데이터 과학 팀이 Databricks의 기능을 최대한 활용하면서도, 자동화 팀이 전체 애플리케이션 환경에서 자동화 워크로드를 관리하고 조정하는 중앙 통합 플랫폼을 유지할 수 있게 해줍니다. 이 두 솔루션은 모든 프로세스의 종속성을 모델링하고, 중앙 집중식 운영 제어를 가능하게 하며, 실행 중인 모든 서비스에 대한 360도 시야를 제공하는 등 IT 운영 팀에게 중요한 기능들을 제공합니다.


AutoSys와 Automic은 Databricks에 다양한 명령을 내릴 수 있습니다. 클러스터를 시작하고, 작업을 실행하고 모니터링하고, 클러스터를 중지하는 등의 명령이 가능합니다. "지금 실행"이나 "제출 실행" 페이로드로 작업을 제출하거나, JSON 페이로드를 기반으로 작업을 실행할 수 있습니다. 이렇게 하면 Databricks의 전체 워크플로를 자동화할 수 있습니다.

Databricks 통합을 통해, 조직은 데이터 무결성과 정확성이 향상되며, 운영 효율성이 향상되고, 작업 기간과 비용이 줄어들며, 작업의 탄력성이 개선됩니다. 특히 Databricks와 다른 클라우드 솔루션의 사용이 계속 확장되면서 이러한 이점이 점점 더 중요해집니다.

AutoSys와 Automic에 대한 더 자세한 내용은 관련 문서를 참조 바랍니다.




조회수 8회댓글 0개

최근 게시물

전체 보기

Comments


bottom of page