Prof. Jaewook Lee's Research Team, Developed Big-Data specialized architecture for object serialization with applications to Big data analytics

서울대학교 이재욱 교수 연구진,
빅데이터 처리 가속 아키텍처 핵심 기술 개발

  • 유전체 빅데이터 분석 FPGA 가속 프레임워크 Genesis 개발
  • 빅데이터 응용을 위한 자바 오브젝트 직렬화(serialization) 가속기 아키텍처 Cereal 개발
  • 초저지연 SSD를 위한 하드웨어 기반 디맨드 페이징 기술 개발 및 NoSQL 데이터베이스 적용

ISCA 2020 프로그램: https://www.iscaconf.org/isca2020/program/

이재욱 교수 연구진이 컴퓨터 아키텍처 분야의 플래그십 컨퍼런스인 제47회 ACM/IEEE International Symposium on Computer Architecture(ISCA)에 3편의 논문을 게재하였다. 올해 ISCA에는 이재진 교수 연구진의 논문을 포함하여, 전체 채택 논문 77편 중 5% 이상(4편)의 논문을 우리 학부 연구진이 게재하는 성과를 거두었다.

Genesis[1]: 이재욱 교수 연구진(제1저자: 함태준 박사후 연구원)은 UC Berkeley, Duke 대학과 공동으로 유전체 빅데이터 분석의 FPGA 가속을 위한 Genesis 프레임워크를 발표하였다. 이 논문에서는 유전체 빅데이터를 데이터베이스 형태로 저장하고, 널리 사용되는 데이터 조작 연산들을 SQL 연산으로 표현한 후, 이러한 SQL 연산을 가속하기 위한 FPGA 하드웨어를 효율적으로 구현할 수 있는 방법을 제시하였다. 연구진은 Genesis 프레임워크를 이용하여, 표준 유전체 시퀀싱 파이프라인 GATK4에서 데이터 조작 연산(중복 리드 검출, 메타데이터 갱신, 품질 점수 보정)을 위한 FPGA 가속기를 설계하고, 이를 Amazon AWS F1 클라우드에 적용하여, 기존 CPU 대비 2-18배에 달하는 성능 향상과 2-15배의 비용 절감을 달성하였다.

20200527_01_jaewlee.png

Cereal[2]: 이재욱 교수 연구진(제1저자: 장재영 박사, 현 삼성전자 연구원)은 메모리 오브젝트 직렬화(serialization) 가속기 아키텍처인 Cereal을 발표하였다. Apache Spark등 분산 빅데이터 분석 환경에서 서로 다른 노드간에 정보를 전송할 때 직렬화가 필수적으로 요구되는데, 이는 상당한 성능 비용을 유발한다. 해당 연구에서는 모든 메모리 오브젝트를 순차적으로 탐색하고 처리하는 기존 알고리즘을 개선하여, 이들을 효과적으로 병렬처리 할 수 있는 새로운 직렬화 포맷을 제안하고, 이 개선된 알고리즘을 수행하는 가속기 하드웨어(Cereal)를 설계하였다. Cereal은 Apache Spark 응용 수행시 Java Serializer 대비 평균 7.9배, Kryo 대비 평균 4.8배의 (역)직렬화 성능 향상을 달성하였다.

20200527_02_jaewlee.png

하드웨어 기반 디맨드 페이징[3]: 이재욱 교수 연구진(공동1저자 김문경 박사과정)은 성균관대와 공동으로 Ultra low-latency SSD를 위한 하드웨어 기반 디맨드 페이징(demand paging) 기술을 발표하였다. 제안된 기술은 페이지 폴트가 발생했을 때, 기존의 OS가 예외를 처리하는 대신, CPU 캐시 미스 처럼 예외 발생 없이 이를 파이프라인에서 직접 처리하는 기술이다([그림 3]). 이를 통해 OS 커널에서 낭비되는 CPU 사이클을 제거하여, OS에서 제공하는 페이지 보호 기능을 유지하면서 디스크 액세스 시간에 가까운 페이지 폴트 처리시간을 제공한다.

20200527_03_jaewlee.png

올해 ISCA 2020은 최근 COVID-19 확산으로 인해 지난 5월 29일부터 가상 컨퍼런스로 개최되었다. 세 논문 모두 학부생 인턴이 연구에 참여하여 의미있는 기여를 하였으며, 이 중 두 논문에 공저자로 등재되었다.

[1] Tae Jun Ham, et al., "Genesis: A Hardware Acceleration Framework for Genomic Data Analysis", 47th IEEE/ACM International Symposium on Computer Architecture (ISCA-47), Valencia, Spain, May 2020.

[2] Jaeyoung Jang, et al., "A Specialized Architecture for Object Serialization with Applications to Big Data Analytics", 47th IEEE/ACM International Symposium on Computer Architecture (ISCA-47), Valencia, Spain, May 2020.

[3] Gyusun Lee*, Wenjing Jin*, et al., "A Case for Hardware-Based Demand Paging", 47th IEEE/ACM International Symposium on Computer Architecture (ISCA-47), Valencia, Spain, May 2020. (* equal contributions)

Friday, June 5th 2020