글을 이쁘게 쓰고 싶어서 벨로그로 블로그를 옮겨볼까 하다가 번거로워서 다시 게시글 옮기는 중! 아무래도 논문 리뷰는 노션이나 벨로그가 더 편해서.. 대부분의 글을 노션에 적어 뒀다가 벨로그로 옮기는데 티스토리로 안 옮길 것 같다 ㅠㅠ
(벨로그 : https://velog.io/@lynnminn/posts)
작년 회고 때 작성한 2024년 목표
2024년은 내실을 다지고 더 단단한 사람이 되고 싶다.
(1) 기술적으로는 적어도 강화학습에서는 툭하면 탁 나오는 T 자형 실력을 가지고 싶다.
(2) 메타인지를 높이고, 약점들을 하나씩 도장깨기 하고 싶다.
(3) 자기 중심을 잘 잡고 흔들리지 않는 사람이 되고싶다.
사회에서는 5에서 6년차로 넘어가는 현 시점에서, 지금까지 내가 겪고 배웠던 것들이 내것이 잘 되었는지 점검하고
부족한 부분들을 충분하게 보충하는 해가 되기를 노력해보려 한다.
작년에 작성했던 회고를 다시 보니, 마치 처음 보는 것처럼 완전히 새로웠다.
그만큼 그때 세웠던 목표를 인지하지 않고 살아왔던 것 같다.
그래서 어떤 24년을 보냈는지 돌아 봤는데 상반기와 하반기로 나눌 수 있다.
1. 2024년 상반기
상반기에는 두 가지 중요한 이벤트가 있었다.
- 자세히 말할 수는 없지만, 날 힘들게 했던 특정 이유가 사라졌다.
- 5월에 큰 행사를 치렀다. 이로 인해 5월까지 계속 바빴고, 작년에 세웠던 목표의 존재를 까먹었다. :-(
그에 대한 결과로 5월까지는 거의 가짜연구소에서 진행하는 강화학습 스터디 외에는 공부를 못했다.
2. 2024년 하반기
강화학습에 더욱 재미를 느끼는 기간이었다. Offline RL / Imitation Learning 분야에 꽂혀서 관련 논문들을 조금 읽었고, 특히 Offline RL에서 Online RL로의 파인튜닝에 관심이 많았다.
- 데이터 활용에 대한 고민: 처음에는 On-policy 방식의 Online RL을 진행했지만, 원하는 데이터를 만들어 학습에 사용하고 싶어졌다. RL 모델이 덜 학습한 부분이나 특별히 더 학습시키고 싶은 부분에 집중하고자 했다.
- Off-policy 학습과 실험: Off-policy 학습을 시도하며 Offline 데이터를 활용했다. Online과 Offline 데이터의 비율을 조절하는 등 다양한 실험을 진행했다. 동시에 Imitation Learning도 해보았다.
- 데이터 수집과 Pretraining: 데이터를 수집하여 pretrain 모델을 만들면 매번 데이터를 넣어가며 학습할 필요가 없을 것 같았다. 이를 위해 휴리스틱 알고리즘도 직접 구현해보았다.
환경이 있는데 굳이 데이터 수집을 해야 하나? 라는 생각이 들 수 있지만, 매번 스크래치로 학습하는 것은 비효율적이라고 느꼈고, 워밍업을 위한 Medium-Expert 데이터셋이 있다면 큰 도움이 될 것이라 생각했다.
--> 물론 "굳이" 라는 생각이 맞을 수도 있다. 아직 이 분야를 잘 알고 접근한다고 하기는 어렵다 ..!
- Online Fine-tuning 실험: pretrain 모델을 활용하여 Online Fine-tuning에 대한 실험도 진행했다.
관련 논문들을 읽으며 실험하니 재미가 두 배였다!
- 게임 분야와 달리 환경을 "시뮬레이션"할 수 없는 도메인에서는 Offline 데이터를 잘 활용해야 하기 때문에 이러한 실험들이 나에게 좋은 양분이 될 것 같다.
- 이제는 RL로 문제를 정의할 때, 과거에 쌓아둔 Offline 데이터를 사용하여 모델을 학습하거나, Online 환경에서 지속적인 학습, 특정 태스크에서 파인튜닝 등을 시도해볼 수 있을 것 같다는 자신감이 생겼다.
- 그리고 운 좋게 Offline RL, Unsupervised RL, 파운데이션 모델 등에 대한 RL 논문 리뷰 스터디에 참여하게 되어 팀원분들로부터 좋은 영향을 받고 있다.
3. 그 외
이직한지 1년 6개월이 되어가고 있는 지금! 어쩌다 보니 이직의 목표를 달성해 나가고 있다.
- 이직할 때 가장 열망했던 것은 "하드 스킬"의 향상이었다.
- 특히 개발에 있어서 더 좋게 만드는 것에 대한 깊은 고민, 시니어의 피드백, 그리고 발전을 기대하며 이직했다.
- 이전 회사에서도 하드 스킬의 성장은 있었지만, 4~5년 다니다 보니 스스로 한계를 느꼈고, 환경을 바꿀 필요가 있었다.
- 원래는 지식의 범위가 RL로 되게 좁았는데, LLM 챗봇 개발, Docker 환경 세팅, Offline RL 실험, video 생성 논문 리뷰 등을 통해 지식의 범위가 넓어졌다.
- Docker : 특히 AI 서비스 운영을 조금 경험하면서 Docker를 알게 되었고, Dockerfile, Docker Compose, Docker 레지스트리를 만들 수 있게 되었다.
- Cython : 학습 속도 때문에 Cython으로 환경 코드 빌드하는 경험도 했다. 속도가 빨라지긴 했지만, 최신 Python 버전에서는 Cython 없이도 충분히 빠르다는 의견을 들어서 앞으로 재사용할 수 있는 경험인지는 모르겠다.
- API 개발: 운영하는 서비스를 모니터링하기 위해 API도 만들어보았는데, 생각보다 간단해서 놀랐다. 물론 FastAPI를 사용했다.
- 그 외 스터디: 개인적으로 진행하는 스터디를 통해 LLM, video diffusion에 대한 지식이 생겼다. 두 분야에 대한 막연함이 사라졌다.
- 결과적으로 개발만 주 업무로 하다보니 자연스럽게 하드 스킬이 늘고 있다.
- 같이 일하는 시니어분이 조언을 많이 주시고 ChatGPT와 엄청난 절친이 됐다.
그리고 이번에도 운이 좋게 가짜연구소의 1st Grand Gathering: Sudo Pseudo Explore에 모여봐요 강화학숲 부스로 참여할 수 있었다.
논문 리뷰하는 스터디여서 많은 분들이 관심을 가져줄까 걱정됐지만 다행히 강화학습에 관심을 가져주시는 분들이 계셔서 즐겁게 마무리할 수 있었다 :)
1st Grand Gathering: Sudo Pseudo Explore
내년 목표
24년을 되돌아보니 어찌 저찌 목표로 했던 것의 절반 정도는 이루지 않았나 싶다.
그럼에도 여전히 난 중심이 덜 잡혀 흔들리는 사람인 것 같다. 그래서 25년 동일한 목표를 가지려 한다.
내실을 다지고 더 단단한 사람이 되기
내년은 개인적으로도 굉장히 중요한 해가 될 수도 있다. 이때 스스로 흔들리지 않고 중심을 잘 잡아서, 꾸준히 앞으로 나아갈 수 있는 해를 만들어야지.
가볍게 리스트업도 해보자면 아래와 같다.
(1) 강화학습에서는 툭하면 탁 나오는 T 자형 실력을 가지기. 논문 많이 읽고 적재 적소에 응용할 수 있는 배경 지식 갖기
(2) 지치지 않는 마음 만들기
(3) 소프트 스킬 다지기. 기술을 잘 알던 모르던 원하는 의도를 잘 전달하는 실력 가지기
'ETC > 기타' 카테고리의 다른 글
2023년 회고 (4) | 2023.12.20 |
---|---|
늦게 하는 2022년 회고 및 2023년 계획 (2) | 2023.02.05 |
OpenROAD 설치 (0) | 2022.02.07 |
tistory에 LinkedIn 링크 삽입 (0) | 2022.01.09 |
jupyter notebook kernel 추가 (0) | 2022.01.07 |