[빅데이터교육/스파크학원]빅데이터 입문자를 위한 아파치 스파크(Apache Spark) 프로그래밍(평일주간)
상세보기 : http://www.topcredu.co.kr/sub/crcl/view/db/2128
교육개요 |
빅데이터R도 데이터 분석에서 널리 사용되고 있는 무료 도구이지만 대용량 데이터를 직접 다루는 데 한계가 있습니다. 하지만 아파치 스파크(Apache Spark)는 머신러닝, 그래프 알고리즘, 실시간 스트리밍, 처리는 물론 하둡, 빅데이터 R, Hive, Apache Zeppeli) 등 빅데이터 분야의 기존 도구와 연동이 가능해서 다양한 분야로 확장되고 있으며 특히 메모리상에서 동작하여 클러스터 환경의 분산 데이터 처리 시스템으로 뛰어난 성능과 다양한 데이터 처리를 위한 함수를 제공하며 빅데이터R, 하둡, 하이브 등 기존 데이터 분석 도구등과 연동하여 사용할 수 있으며 하둡에 비해 간단한 코드로 작업이 가능 합니다.본 과정에서 스파크의 개요, 설치, 설정 및 작동, 사례, 적용방법을 예제와 더블어 배울 수 있으므로 단기간에 스파크에 대해 이해를 하고 여러분들의 시스템에 적용할 수 있을 것 입니다. |
수료조건 |
출석률 80%이상 |
교육목표 |
- 아파치 스파크 개요의 이해- 스파크 설치 및 개발환경의 이해- 스파크 설정의 이해- Scalar 언에에 대한 이해- 스파크 RDD의 이해- SQL과 HiveQL기반의 아파치 스파크 SQL의 이해- 스파크 MLlib의 이해- Mllib과 스파크 ML을 이용한 머신 러닝 애플리케이션 개발 방법의 이해- 스파크 스트리밍을 이용한 고속 데이터 스트림 처리 방법의 이해 |
교육대상 |
- 빅데이터에 관심 있는 자- 아파치 스파크의 도입을 원하는 자- 아파치 스파크에 관심있는 개발자, 데이터분석가, DB전문가 |
교육내용
빅데이터 스파크 프로그래밍 |
아파치 스파크 개요스파크 설치 및 설정클러스터 디자인개요 및 용어클러스터 환경의 이해스파크 어플리케이션 개발Hello World 작성Scalar 프로그래밍- 설치- 기본문법RDD 프로그래밍- RDD 생성- RDD 액션- RDD 연산, 트랜스포메이션- Key/Value 페어스파크 SQL- 스파크 SQL을 이용한 데이터 처리- 데이터프레임- JDBC- User Define Function- 내장함수- 하이브스파크 스트리밍을 통한 데이터 처리- 스트리밍 아키텍처- 스트리밍 컨텍스트- 스트리밍 데이터 처리스파크 MLlib을 이용한 머신러닝- 개발환경 설정- MLlib API- 데이터 타입- MLlib 데이터 처리- 알고리즘 |
|