티스토리 뷰

컨퍼런스 및 세미나

파이콘 2023 뒤늦은 후기

주디 𝙹𝚞𝚍𝚢 2023. 10. 1. 15:37

 올해도 다녀온 파이콘 2023. 방문한 날짜는 8월 12일이었는데, 이제서야 후기를 올리는 나는 도대체... 심지어 사진도 거의 안 찍었다. 그나저나 이번 파이콘은 가격이 꽤 비쌌는데 이러면 파이콘에 가야할 메리트가 좀 사라지지 않나 싶었다. 어차피 나중에 유튜브로 올라올테니 그것만 보는 사람이 많아질테고.

 여튼 내가 들은 세션들은 아래와 같다.

  • RustPython, 파이썬 커뮤니티로
  • 짠내나는 데이터 다루기 (부제: 제한된 메모리로 다룰 수 있는 현실적인 데이터)
  • Async state machine
  • 로컬 환경에서 사이즈가 큰 데이터를 처리/분석하기 위한 전략: Pandas 2.0, HF Datasets
  • Django 봄은 다시 온다 - Django와 함께 좋은 웹서비스 코드 만들기

 위 세션명만 봐도 아시다시피 이번에 내가 집중한 부분은 대용량 데이터 처리였다. 대용량 데이터를 다뤄야하는 필요성을 느낀 건 테스트를 위한 더미데이터를 몇백만건씩 만들어냈을 때였는데, 이보다 더 많은 데이터가 필요할 때 어떻게 처리해야 하는지 궁금했다.

 여러 프로그램을 한번에 사용해야하는 8GB와 같은 메모리 환경에서 32GB보다 큰 파일 혹은 수백수천개의 파일을 메모리에 모두 로드해서 사용해야 할 경우, 우선 메모리를 낭비하는 요소를 제거한 정형화된 데이터를 열 지향 데이터 파일 형식인 parquet로 만들어 pandas로 분산처리 프레임워크 등을 이용하여 chunked  processing하면 된다는 것을 배울 수 있었다.

 발표자료 중에 CSV와 parquet을 비교한 표가 있었는데, CSV는 대용량 데이터 처리에 부적합하며, 메모리 효율성이 낮고 스키마나 데이터 타입 정보가 파일에 저장되지 않아 매번 제공해야 한다는 단점이 있다는 것을 알게 되었다.

 발표를 들으며, 자바진영에도 파이썬의 pandas와 같이 대용량 데이터를 다루는 프레임워크가 있는지 알아보았는데, hadoop과 spark가 있다는 것을 알게 되었고, parquet가 hadoop과 spark에서도 사용할 수 있어서 자바에서 어떻게 대용량 데이터를 다루면 되는지 알 수 있었다.

 개발하면서 데이터를 다룰 때 CSV를 사용하곤 했는데 행 기반 저장인 CSV와 다르게 열 기반 저장인 parquet라는 것이 있고, parquet이 대용량 데이터를 다루기에 더 효율적이라고 해서 데이터를 어떻게 효율적으로 다룰 수 있게 저장할지에 대해서도 더 알아봐야겠다는 생각이 들었다.

 그리고 'Django'에 대한 세션에서는 Django가 직접 다뤄야할 소스 양이 적고 스케일 아웃이 쉽다는 장점이 있다는 것과 최근 Node.js가 프론트, 백을 모두 커버할 수 있는 장점으로 Django보다 이용이 많아지는 요즘의 개발 트렌드에 대해서 알 수 있었다.(Django 개발배운지 얼마 안됐을 때 했었는데 이제는 거의 다 까먹었다.)


 내년 파이썬도 기다려지긴 하지만 요번엔 작년에 비해 입장료가 많이 비쌌던 탓에... 내년 세션이 마음에 드는지 살펴보고 갈지 말지 결정할 것 같다!

300x250

'컨퍼런스 및 세미나' 카테고리의 다른 글

우아콘 2023 후기  (1) 2023.11.20
인프콘 2023 후기  (0) 2023.08.15
스프링캠프 2023 후기  (1) 2023.04.24
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/12   »
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31
글 보관함