if (kakao) 2021 컨퍼런스에서 Data 관련 기술 발표 세션을 소개합니다. 1. 대량의 스트림 데이터를 실시간으로 분류하기 @rick.lee 대량의 스트림 데이터를 실시간으로 분류하면서 늘어나는 데이터와 분류 조건으로 발생하는 문제들을 Elasticsearch Percolator를 활용해 개선하는 방법을 공유합니다. 2. 300GB 데이터로 어떻게 학습을 할 수 있을까? @peter.han 광고추천팀에서 전환최적화 타게팅 모델을 딥러닝으로 전환하면서 학습 데이터의 규모가 크고 광고주 별로 많은 모델을 처리하다보니 많은 어려움을 겪었습니다. 모델의 성능/효율을 유지하면서 어떻게 하면 데이터를 줄일 수 있을까 고민하고 튜닝했던 경험들을 공유합니다. 목차 : 1. 데이터의 볼륨과 데이터의 처리 시간 2. 하둡 데이터를 처리할 때 병목구간 3. 데이터를 줄이기 위한 방법들에는 어떤 것들이 있는지 소개하고 우리 상황에 적합한 방법을 선택한 과정 3. 추천 시스템 airflow 2.0 도입기 @jerry.4 추천시스템 내 workflow 개선을 위해 airflow를 도입했던 이유와, 쿠버네티스에서 airflow를 안정적으로 운영하기 위해 했던 고민들, 그리고 2.0으로의 버전업 경험과 추천시스템 내에서 이를 어떻게 활용하고 있는지 공유합니다. 4. PostgreSQL ecosystem @biber.baek 안녕하세요. 카카오에서 postgresql 디비의 운영을 담당하고 있는 비버입니다. postgresql ecosystem의 핵심 개념인 extension에 대해 알아보고 extension으로 개발된 citus와 timescaledb에 대해 소개해드리겠습니다. 5. 카카오 공용 하둡 운영 사례 @jace.beleren 공용 하둡 클러스터 구축 시 고려해야할 포인트와 장애 대응 사례에 대한 소개 6. Druid@Kakao @evan.hwangbo Kakao의 Druid 도입 사례 및 multi-tenant 클러스터 소개 --- - https://if.kakao.com - 카카오테크: https://tech.kakao.com - 관련 글: https://tech.kakao.com/2021/11/05/preview-data-ifkakao2021/