Engineer Chanp5660 blog


증명사진

이름 : 박찬
생년월일 : 1995.11.26
이메일 : chanp5660@naver.com
블로그 : https://chanp5660.github.io/
인스타 : https://www.instagram.com/chan_p__/

주요 키워드

  • 통계학, 컴퓨터공학, 시계열 데이터, NLP(형태소분석, 개체명 인식 및 추출), 토픽모델링, 특이치 탐지 및 처리, 비지니스소통, 데이터분석가

기술 스택

Python, C, R, Tensorflow, Pytorch, Linux, Git

개발툴

Jupyter, Jira, Confluence,
Notion, VScode, Linux,
Github

Python R C
Tensorflow Pytorch Linux
Git Github Jupyter

학력

전북대학교 대학원/ 석사 수료
2020년 03월 - 2022년 2월, 전주
학과 : 전자.정보공학부(컴퓨터공학)
전공 : 정보처리/데이터마이닝

전북대학교 / 학사 졸업
2014년 03월 - 2020년 02월, 전주
주전공 : 통계학과
부전공 : 컴퓨터공학부

자격증

컴퓨터활용능력 1급
빅데이터분석가
워드프로세서
정보처리기능사
태권도 4단
1종보통운전면허

병역 사항

의무경찰 만기 전역
2015년 04월 - 2017년 01월

경력

(주)한국해양기상기술 2023.03.27 ~
인공지능개발자, 사원, 재직중

  • 해양 및 기상 프로젝트 관련 프로젝트 참여
    • 브레인스토밍 및 시나리오 작성
    • 데이터분석가 업무 진행 중

논문

박찬, 이경순. (2023). 농산물 가격의 특이치 탐지 및 처리를 통한 딥러닝 기반 가격 예측. 디지털콘텐츠학회논문지, 24(8), 1899-1906, 10.9728/dcs.2023.24.8.1899 https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11507118

박찬, & 이경순. (2020.12). 농산물 가격변동 데이터 특이치 탐지. 한국정보과학회 학술발표논문집, 565-567.
https://www.dbpia.co.kr/Journal/articleDetail?nodeId=NODE10529713

Park, C., & Lee, K. S. (2020.10). Named Entity Recognition for Analyzing Factors of Agrifood Price Fluctuation. In Annual Conference on Human and Language Technology (pp. 347-350). Human and Language Technology.
https://koreascience.kr/article/CFKO202030060856861.page


프로젝트

범부처 협업 클라우드 혁신사례 창출사업

  • 목적 : 관련 업체들의 협업으로 전북 로컬푸드에 정보를 제공하고, 가격을 예측하여 재고 손실을 줄이기 위한 것입니다.
  • 맡은 부분 : 온라인 및 소셜 미디어 데이터 기반 가격 예측 서비스

농산물 가격변동 데이터 특이치 탐지

  • 목적 : 다른 시계열 데이터와는 달리 농산물 가격 변동에 대한 특이치는 중요한 정보입니다. 이러한 특이치를 찾는 방법과 그 특징을 파악하여 향후 농산물 가격을 예측하는 데 도움이 됩니다.
  • 방법 : 가격 데이터의 시계열 분석을 통해 IQR, Zscore,ARIMA와 같은 특이치 방법을 찾습니다. 이후 IQR에 데이터의 특성 중 하나의 계절성을 접목시켜, 재배 시기 등 영향을 주는 시기에 부분 적용하는 방법을 사용합니다.

소셜 미디어 농산품 가격변동요인 탐지를 위한 지식 구축

  • 관련 사이트들을 웹 스크랩핑(selenium, BeautifulSoup) 데이터를 수집하고 저장합니다.
  • 문서 유사도(코사인 유사도)토픽 모델링(LDA, LSA) 을 사용하여 레시피, 영양성분 등 가격에 영향을 주는 요인을 파악하여 정보를 제공합니다.

농산물 가격변동요인 탐지를 위한 형태소분석 및 개체명 추출

  • 농산물 문서에 대한 형태소분석HanBert기반으로 필요에 따라 직접 Bio 표현을 사용한 사전을 만들었습니다.
  • 새로운 문서에 대한 개체명을 추출하기 위해 BiLSTM-CRF 기술을 사용합니다. 이를 통해 가격 상승 및 하락에 영향을 미치는 주요 요인을 찾게 됩니다. 이후 인과 관계를 추출하기 위한 과정을 수행할 예정입니다.

자기소개서

데이터 분석의 재미

  • 계학 수업 중 모의 엘포인트 빅데이터 경진대회(5회)에서 쇼핑몰 고객의 카드 소비명세 데이터를 분석하는 팀 프로젝트를 맡았습니다. 분석 파트를 담당하여 실제 데이터를 통해 의미를 찾아가는 과정에서 흥미를 느꼈습니다.
  • 령대와 요일에 따른 소비패턴은 한국의 소비패턴과 유사하지만, 성별에 대한 해석에 문제가 제기될 수 있다는 것을 깨달았습니다. 단순히 보면 “성별의 소비패턴 차이가 없다”라고 해석할 수 있지만, 실제 이용 고객은 주로 여성인 주부가 주를 이루었고, 남성의 카드를 이용했다는 것으로 해석할 수도 있었습니다.
  • 어진 데이터의 메타정보를 주의 깊게 파악해야 한다는 계기가 되었고, 분석하고 의미를 부여할 때 가장 중요하게 생각하는 부분입니다.

통계와 컴퓨터가 협력하여 집값 예측

  • 계학 머신러닝 수업 중 캐글(Kaggle) 플랫폼에서 “House Prices” 집과 주변 정보의 데이터를 이용해 집값을 예측하는 팀 프로젝트를 진행했습니다.
  • 존에 경험했던 통계적 기법을 사용하여 적은 데이터로 추론하며 근거를 찾아가며 진행했다면, Python Scikit-Learn 라이브러리를 이용하여 데이터를 근거로 추론하는 것에 흥미를 느끼게 되었습니다.
  • 래서 컴퓨터 기술을 배울 필요성을 느끼게 되었고, 부전공으로 컴퓨터공학부를 선택했습니다. 이 경험이 나에게 통계적 기법과 컴퓨터 기술이 협력하여 사용될 수 있는 계기가 되었습니다.

전문가의 초석을 다지다

  • 는 졸업을 앞둔 때, 좋아하는 일과 지금까지의 경험을 고려하여 인공지능 분야로 진로를 결정하게 되었습니다. 대학생 때부터 텍스트 데이터에 대한 관심이 있었고, 인연이 닿아 대학원에 진학하게 되었습니다. 대학원에서는 다양한 기관과 협업하며 데이터 수집 및 처리와 리눅스 기반 서버에서 다양한 프레임워크를 이용한 모델링을 경험했습니다. 이러한 경험은 앞으로의 전문성을 더할 수 있는 기회가 되었습니다.

시야를 넓히다.

  • 사 연구 과정에서는 농식품 관련 텍스트와 가격 데이터를 다루었습니다.
  • 를 위해서는 새로운 용어들(출하, 반입, 작목, 햇, 파종 등)에 대한 이해가 필요했는데, 이를 위해 농산물 관련 사이트 KAMIS, 남도장터 등을 참고하여 용어를 학습했습니다.
  • 격 데이터의 변동을 이해하기 위해서는 각 품목에 대한 정보(심는 시기, 재배 시기 등)가 중요했고, 이 외에도 심어져 있는 시기의 기상 정보, 병충해 정보, 전년도의 재고, 올해의 출하량 등의 정보를 수집하여 가격 데이터를 해석하는 데 활용했습니다.
  • 렇게 다른 도메인을 공부할수록 기존에 알고 있던 도메인들과 협력하여 더욱 의미 있는 결과를 도출할 수 있다는 것을 배웠습니다.

비지니스 소통

  • 사 과정에서 참여한 학교-기관 협업 프로젝트를 통해 메일 답장으로 기록하는 방법과 보고서 형식으로 회의 내용을 정리하는 비즈니스적인 소통 방법을 배웠습니다. 이를 통해 여러 프로젝트를 하더라도 헷갈리지 않고 진행할 수 있는 능력을 갖추게 되었습니다.
  • 한 산림조합에서 1년간 공공기관과의 서류작성 및 관리 업무를 수행하며, 비용과 시간이 중요한 작업에서 완벽하게 준비하고 몇 번이고 검토하는 자세를 가지게 되었습니다. 이러한 경험을 통해 한글과 엑셀 등 실제 업무에서 사용되는 모든 과정들을 경험하고 기본적인 업무 능력을 갖추게 되었습니다.

태권도, 건강, 긍정적, 자신감

  • 권도 단증을 취득하기 위해서는 최소 8년 이상의 수련이 필요합니다. 단수가 올라갈수록 보다 깊이 있는 연구와 기술을 배우게 되면서, 개인적으로 재미와 스트레스 해소를 동시에 얻을 수 있는 취미를 갖게 되었습니다. 또한, 태권도 수련은 건강에 좋을 뿐만 아니라, 긍정적이고 자신감 있는 성격을 배울 수 있게 되었습니다.


말하기 애매한 부분

소셜 미디어( 빅카인즈, 트위터) 토픽 모델링

  • 목적 : 빅카인즈와 트위터에서 LDA를 이용하여 해마다 어떤 토픽으로 나뉘는지 특징을 살펴본다.
  • project

따릉이 자전거 구역 추가 (달리구)

  • 목적 : 서울 따릉이 데이터를 분석하여 전주에 자전거 설치에 대한 정보를 제공하기 위해
  • 맡은 부분 : 데이터 수집 및 분석

내가 좋아하는 말

나는 옳은 선택을 하는게 아니라, 내가 선택한 것을 옳게 만든다.

  • 가장 좋아하는 문장으로 내가 선택한 것에 의심하지 말고 자신감을 가지고 그 선택을 옳게 만들어가는 과정만 있으므로 후회할 시간에 선택한 것에 최선을 다하는 것이 좋다고 생각합니다.
  • 현재 나를 있게 해준 나의 선택 : 통계학과, 부전공 컴퓨터공학부, 대학원 컴퓨터공학부(정보처리데이터마이닝), 1년간 휴식, 의무경찰, 태권도 4단