플렛폼데이 행사 참여 후~
http://www.platformday.com/pages/introduce
제목 Keynote: 클라우드 컴퓨팅의 성공 요인
요약
키워드 클라우드 컴퓨팅, 컴퓨팅 플랫폼, Grid Computing, 분산컴퓨팅
발표시간 10:10 ~ 10:50
강사 성기준
현 NHN 기술연구센터 선행기술개발랩 랩장 (2007 ~ )
전 NHN 분산컴퓨팅팀 팀장 (2006 ~ 2007)
전 삼성 SDS 기술연구소 이머징테크팀 팀장 (2003 ~ 2006)
2003년 귀국 전 미국 실리콘밸리 여러 회사 R&D Center에서 20년의 소프트웨어 기술 개발 경력
제목 Hadoop Overview and MapReduce Programming
요약 Hadoop의 분산파일시스템인 HDFS, 분산 데이타베이스인 HBase와 분산 프로그래밍모델인 MapReduce에 대해 소개한다. 어떤 작업들에 Hadoop 분산환경에 적용하기 적합하며 어떻게 MapReduce로 구현하는지에 대해 알아본다. 이해를 돕기 위해 실제 MapReduce로 구현된 검색엔진인 Nutch등을 예제로 소개할 예정이다.
키워드 Hadoop, HDFS, HBase, MapReduce
발표자료 PDF
발표시간 11:00 ~ 11:50
강사 이준복
KAIST 전산학과 박사과정
제목 Grid Computing at Yahoo!
요약 현재 야후에서 사용하고 있는 Hadoop 그리드 컴퓨팅 환경에 대한 소개를 하고 내부 직원들이 어떠한 방법, 용도로 그리드를 사용 하는지 소개를 한다. 또한 앞으로 그리드 컴퓨팅의 지원 방향에 대한 간략한 소개도 해본다. ps. 이해를 위해 Hadoop에 대한 약간의 소개를 포함할 수 있다.
키워드 Yahoo!, Hadoop
발표자료 PDF
발표시간 11:50 ~ 12:30
강사 전희원
Yahoo! Korea Search Eng. 팀 대리
블로그 : http://www.freesearch.pe.kr
제목 Tenth: Daum의 대용량 분산 파일 시스템 소개
요약 Daum 한메일, 카페 등의 서비스는 Peta 단위 이상의 대량 데이타를 다루고 있다. 이런 대량의 데이타를 안전하고 효율적으로 관리하기 위해선, 기존의 파일 시스템이 아닌 Daum만의 저비용, 대용량, 고가용성 파일시스템이 필요하였다. Tenth 는 Daum 에서 만든 대용량 분산 파일 시스템으로, 이번 세션에서는 Tenth 를 설계하면서 고려했던 구조적인 이슈들과 Tenth 를 사용하는 서비스들을 운영하면서 얻게된 노하우에 대해서 언급하고자 한다.
키워드 저비용, 대용량, 고가용성, 파일시스템, Tenth
발표자료 PDF
발표시간 1:30 ~ 2:10
강사 김남희
다음커뮤니케이션 기반기술팀 팀장
다음커뮤니케이션 2000년 입사
제목 MR.Flow: 분산 프로그래밍 서비스와 가상화 기반 Hadoop
요약 최근 대용량 데이터 처리를 위한 분산 프로그래밍 방식으로 Google이 제안한 MapReduce가 각광받고 있다. 하지만 데이터 처리를 위해 MapReduce 프로그램을 개발하고 Hadoop 환경을 꾸며 실행하는 것은 쉽지 않은 과정이다. NexR이 개발한 MR.Flow는 MapReduce 모듈들을 간편하게 조합하여 데이터 처리 프로그램을 만들고 실행해 볼 수 있는 웹서비스를 제공한다. 또한, Xen 가상화 클러스터 시스템인 Virtual Cluster Center(VCC)를 개발하여 Hadoop의 설치와 실행, 관리를 자동화해 준다. 본 발표에서는 MR.Flow와 Virtual Cluster Center에 대해 소개하고 기술적인 구조에 대해 논의한다. 그리고 이러한 툴들을 기반으로 대학에 분산 데이터 처리 교육과정 개설을 지원해 주는 Academic Distributed Computing Initiative 구상을 소개한다.
키워드 MapReduce, Hadoop, Xen, 가상화, MR.Flow, 분산 데이터 처리 교육
발표자료 PDF
발표시간 2:20 ~ 3:00
강사 한재선
NexR 대표이사
KAIST 정보미디어 경영대학원 대우교수
블로그 : http://www.web2hub.com
제목 광우병과 대용량 데이터 처리 플랫폼
요약 여자 3명, 남자 2명을 대상으로 시작한 휴먼 지놈 프로젝트(Human Genome Project)를 시발점으로 이제는 국제적 협력 프로젝트를 통해서천명이 넘는 다양한 인종의 유전적 변이(Genetic Variation)에 대한 연구가 진행되고 있다. 이에 국내에서도 한국인 만명을 대상으로 하는 대규모 프로젝트가 수행되면서 이제까지 다루어보지 못한 대규모의 유전적 변이 데이터가 쏟아져 나오기 시작했다. 그 결과 이제까지 다루어 보지 못했던 대규모의 유전적 변이 데이터의 분석을 위한 고속의 컴퓨팅 파워와 협업에 대한 필요가 절실해 졌다. 이러한 시점에서 생물학 데이터 분석을 위해 필요한 것은 무엇이고, 이를 어떻게 대용량 데이터 처리 플랫폼에 결합시킬 수 있을지에 대한 문제를 제기한다.
키워드 광우병, 데이터 처리 플랫폼, 휴먼 지놈 프로젝트, 유전적 변이, Genetic Variation
발표자료 PDF
발표시간 3:10 ~ 3:50
강사 홍창범
국립보건연구원의 유전체센터에서 근무하고 있으며, 리눅스 기반의 클러스터를 효율적으로 대규모 분석 업무에 사용할지에 대한 고민중이며, 국내의 바이오인포매틱스 관련 오픈소스 활성화에 대해 관심을 가지고 자신의 블로그(http://socmaster.homelinux.org/~hongiiv)를 통해 다양한 시도를 하고 있다.
제목 Neptune: 대용량 분산 데이터 저장소
요약 Neptune은 Google의 Bigtable과 같이 Column Oriented Data Storage로 PetaByte 규모의 데이터를 n개의 노드에 분산 저장시킨 후 실시간 또는 배치 업무에 데이터 서비스를 제공하는 시스템이다. 이번 발표에서는 Neptune의 소개 및 Neptune을 이용한 간단한 사례에 대해 알아본다.
키워드 Neptune, Bigtable, Hadoop, HBase, Distributed Data Storage
발표자료 PDF
발표시간 4:10 ~ 4:50
강사 김형준
NHN, 분산시스템TF 수석
구글 스타일의 분산컴퓨팅 관련 연구수행
블로그 : http://www.jaso.co.kr
제목 저비용 대규모 서비스 기반 분산파일시스템 기술
요약 웹2.0의 등장으로 인터넷 서비스가 공급자 중심에서 사용자 중심으로 패러다임이 이동함에 따라 UCC와 함께 인터넷 서비스 시장이 급속도로 증가하고 있다. 이러한 추세에 따라 인터넷 서비스 업체들의 경우 매일 수십GB 이상의 데이터가 새롭게 저장되고 있으며, 이를 효과적으로 관리할 수 있는 저비용, 고효율의 스토리지 환경이 요구되고 있다. 특히, 공개소프트웨어인 Hadoop DFS의 경우 다수의 서버 노드들을 하나의 단일 이미지로 가상화한 후 대량의 분산 데이터를 처리하기 위한 구조로서 주목받고 있으나, 동영상 서비스와 같은 인터넷 환경에 적용하기에는 몇가지 문제점들을 가지고 있다. 본 발표에서는 기존 Hadoop DFS를 인터넷 서비스 환경에 적용할 때 발생하는 문제점들에 대한 기술적 분석 내용과 이를 개선하기 위해 진행한 작업에 대하여 설명하고, 아울러 자체적으로 개발한 분산파일시스템에 대한 소개 및 적용 사례를 설명한다.
키워드 HDFS, 분산파일시스템, 스토리지가상화
발표자료 PDF
발표시간 5:00 ~ 5:40
강사 진기성
전자통신연구원 저장시스템연구팀 선임연구원(2001~)
클러스터 DBMS 개발(iBASE Cluster)
OSD 기반 파일시스템 개발(OASIS)
저비용 대규모 분산파일시스템 개발(GLORY-FS)
2008. 6. 1.
피드 구독하기:
댓글 (Atom)
댓글 없음:
댓글 쓰기