banner
홈페이지 / 소식 / Cloudera는 책임 있는 AI를 대규모로 향한 길을 제시합니다.
소식

Cloudera는 책임 있는 AI를 대규모로 향한 길을 제시합니다.

Oct 19, 2023Oct 19, 2023

분석가로서 저는 수년 동안 Cloudera를 지켜보며 오랫동안 의견을 제시해 왔습니다. Cloudera는 퍼블릭 및 프라이빗 클라우드 전반의 데이터 관리 문제를 해결하여 고객이 데이터의 가치를 관리하고 활용할 수 있도록 지원합니다. Cloudera는 10년 넘게 빅 데이터의 선두주자로 자리해 왔으며, 25엑사바이트의 데이터를 관리하고 있으며 모든 산업 분야의 최대 글로벌 기업 10곳 중 9곳에서 사용하고 있습니다.

Cloudera는 오픈 소스 엔터프라이즈 데이터 플랫폼 구축에 중점을 둔 Cloudera 1.0, Hortonworks와 Cloudera를 결합하여 하이브리드 클라우드로의 경로를 가속화하는 Cloudera 2.0, 최초의 진정한 하이브리드, 멀티 클라우드 데이터 플랫폼을 만드는 Cloudera 3.0 등 수년에 걸쳐 발전해 왔습니다. . 이 기사에서는 CDP(Cloudera Data Platform)가 엔터프라이즈 AI의 새로운 세계에 적합한 이유를 설명합니다.

무엇이 잘못될 수 있나요?

Generative AI는 LLM(대형 언어 모델)이라는 알고리즘을 사용하여 자연어 지침을 사용하여 텍스트, 이미지, 오디오 또는 코드 형태로 새로운 콘텐츠를 만듭니다.

헤드라인을 장식한 ChatGPT와 같은 생성적 AI 도구는 데이터 품질, 콘텐츠, 소유권 및 개인정보 보호가 의심스러운 인터넷의 대량 데이터를 학습합니다. 최근 불행한 변호사를 포함하여 많은 분들이 경험하셨듯이 ChatGPT는 전체 잘못된 정보와 함께 진실된 결과를 설득력 있게 제시하여 사용자가 허구에서 사실을 분류할 수 있도록 합니다.

확실히 기업 환경에서는 이는 용납될 수 없습니다. 기업의 경우 생성 AI 및 관련 LLM의 성공은 훈련 데이터의 품질과 신뢰성에 달려 있습니다.

하이브리드 클라우드 - 모든 데이터가 엔터프라이즈 AI에 준비되어 있습니다.

CDP에서 Cloudera는 플랫폼과 모든 데이터 서비스 전반에 걸쳐 공통 보안 및 거버넌스 프레임워크를 관리하는 단일 제어 플레인을 통해 하이브리드 비전을 실현했습니다. CDP 플랫폼은 퍼블릭 클라우드와 프라이빗 클라우드 간에 워크로드, 데이터 및 관련 메타데이터를 양방향으로 이동할 수 있습니다.

CDP Open Data Lakehouse는 온프레미스 또는 클라우드에서 기초 모델을 배포하기 위한 보안, 거버넌스 및 엔터프라이즈 컨텍스트가 포함된 '기초 데이터'를 제공합니다.

AI 신뢰는 데이터 신뢰에서 시작됩니다

엔터프라이즈 AI가 성공하려면 결과에 대한 신뢰가 있어야 합니다. 자신감은 모델을 훈련하는 데 사용되는 기본 데이터를 신뢰하는 것입니다. CDP 아키텍처의 일부인 SDX(Shared Data Experience)는 모든 분석과 퍼블릭 및 프라이빗 클라우드 전반에서 공유 보안, 계보 및 거버넌스를 지원합니다.

SDX는 두 개의 오픈 소스 프로젝트인 Apache Ranger를 사용하여 보안 정책을 정의, 운영 및 관리하고, Apache Atlas를 사용하여 메타데이터 관리 및 거버넌스를 사용하여 자산 카탈로그를 구축, 분류 및 통제합니다.

SDX에는 모든 데이터 자산을 관리하고 검색하기 위한 데이터 카탈로그가 포함되어 있습니다. 데이터는 운영, 소셜, 비즈니스 컨텍스트를 포함한 풍부한 메타데이터로 프로파일링되고 향상되어 신뢰할 수 있고 재사용 가능한 데이터 자산을 생성하고 검색 가능하게 만듭니다.

CDP에는 프로덕션 환경의 기계 학습 모델을 포함하여 전체 데이터 수명주기에 걸쳐 전체적인 보안, 거버넌스 및 규정 준수를 지원하는 기능이 있습니다.

여기서 핵심은 모델 생성, 모델 교육에 사용되는 데이터 및 데이터 출처(프로덕션 환경 계보에 대한 정확하고 완전한 데이터 소스)를 설명하는 능력입니다.

GPT 및 기초 모델의 BYO 버전

많은 고객이 이미 CDP의 일부로 ML 기능을 사용하고 있습니다. Cloudera의 기계 학습 서비스는 잘 확립되어 있으며 실험 데이터 과학부터 모델 훈련 및 배포까지 전체 ML 수명주기를 포괄합니다. Cloudera는 고객이 애플리케이션 개발을 시작할 수 있도록 엔드투엔드 응용 기계 학습 프로토타입(AMP) 라이브러리를 제공합니다.

최근 Six Five Summit 분석가 이벤트에서 Cloudera는 데이터를 교육하는 대신 사내에서 GPT 버전과 기초 모델을 생성하기를 원하는 고객에 대한 대응으로 대규모 언어 모델의 생성 AI에 대한 청사진으로 엔터프라이즈 데이터로 증강된 LLM 챗봇을 발표했습니다. 공개 API 플러그인.