본문 바로가기

전체 글

(19)
글또 9기 회고글 무사히 글또 9기(23.12~24.5)를 마치게 된 기념으로 간단하게 회고를 적어보려고 한다. 6개월 전 다짐글을 썼다는 게 믿을 수 없을 정도로.. 시간이 빠르게 지나버렸다 ㅠㅠhttps://hy-god-life.tistory.com/11 글또 9기 다짐글지난 7기를 진행하고, 잠시 쉬었다가 9기를 다시 시작하게 되었다! (글또의 대략적인 소개는 아래를 참고!) 2022.10.15 - [일상] - 글또 7기 회고글 글또 7기 회고글 글또 란? 글또는 글쓰는 또라이가hy-god-life.tistory.com 그리고 뻔뻔하게도 아래 2개의 다짐은 모두 30% 정도 성공한 것 같다. 1. 써야 되어서 쓰는 글 말고 쓰고 싶은 글 쓰기 (w. 미리미리 계획적으로..)글감은 미리 고민을 하긴 했으나, 9개 중 ..
ChatGPT API로 빠르게 NLP 데이터 클러스터링 하기 (w. Python) 최근 ChatGPT 기반 NLP 클러스터링 데이터를 분석에 적용한 경험이 있었다. 개인적으로는 기존의 ChatGPT의 사용성 중에 가장 유용하다고 생각이 되어 글로 남기기로 결심했다!  일단 ChatGPT 기반 클러스터링을 하는 방법은 2개가 있다!  방법가격난이도성능1. ChatGPT Plus 내파일 업로드월 $20 정액매우 쉬움(Chatgpt 웹 페이지에서 가능)정확도 나쁨(100행 이하일 때는 잘해주나,그 이상으로 갈수록 체감 정확도 낮음. 3만행까지는 분류를 해주긴 함.)2. Open AI의 API호출 건당 지불(몇만건 정도라면 훨씬저렴하다고 생각됨.)약간 배경 지식 필요(파이썬에서 실행)정확도 좋은 편(토큰수 제한으로 호출 1건당 소량 밖에 분류 요청 불가함. for문으로 끊어서 소량씩 분류 요..
회사에서 할 데이터 분석 주제 찾기 오늘은 회사에서 "분석 인사이트를 가져가야 하는 상황(?)"이 왔을 때, 시도해 보면 좋을 접근들에 대해 짧게 정리해보고자 한다. 아래 상황에 처한 데이터 분석가 분들께 도움이 되기를 바라는 마음이다. 해당 서비스를 처음 분석하는데, 어디서부터 진행해야 하는지 막막할 때 업무 요청이 없어할 일을 찾아야 할 때 나도 입사 전에는 나를 위해 준비된 프로젝트들이 있을 줄 알았는데, 생각보다 내가 직접 일 찾아서 해야 할 때가 많았다. 처음에는 이러한 상황이 무척 당황스러웠지만, 잦은 조직 개편으로 여러 서비스를 거치다 보니 제법 흔한 상황이었다. (물론 이런 상황은 해당 서비스를 담당한 지 초창기에 생기고, 몇 번의 분석으로 존재감을 알리면 일이 저절로 들어오니 너무 걱정 안 해도 된다.) 필요한 분석은 아래..
유데미(Udemy) Apache Spark 와 Python으로 빅 데이터 다루기 수강 후기 저번 chatgpt를 활용한 데이터 분석 강의에 이어 Apache Spark강의를 유데미에서 수강했다. 마찬가지로 글또를 통해 유데미 강의 쿠폰을 사용했다. 글또, 유데미 감사합니다 🤗 강의 링크는 아래와 같다. https://udemy.wjtb.co.kr/course2/id/3851 [유데미] Apache Spark 와 Python으로 빅 데이터 다루기 이 강의는 빅데이터에서 가장 인기 있는 기술, Apache Spark을 알려줍니다. 아마존, 이베이, Yahoo를 포함한 유명 기업 고용주는 모두 Spark를 사용합니다. udemy.wjtb.co.kr 수강 동기 데이터분석가로서 업무에서 만나게 되는 데이터의 양이 방대하긴 하지만, 아직 분산 환경 데이터 플랫폼을 제대로 경험해 본 적은 없었다. (사양 ..
[R] 데이터 전처리시 유용한 함수 3선! 최근 실무에서 R을 사용하면서, 새로 알게 된 유용한 함수들이 있어 소개해보고자 한다. ㅎㅎ 아직 이별 중이라 R을 쓰긴 하는 점은 안 비밀 ㅎㅎ 2023.12.17 - [일상] - R과의 이별을 결심하며.. R과의 이별을 결심하며.. 요즘 2023년을 마치며 2024의 목표를 세우고 있다. 그중 하나는 데이터 분석 시 주요 작업 언어를 R에서 파이썬으로 바꾸는 것이다. 사실 그냥 바꾸면 되긴 하는데, 이렇게 거창하게 글까지 쓰는 이 hy-god-life.tistory.com 소개할 함수는 아래 3개이다. 1. pivot_wider : long->wide 형식 변환 2. across : 여러 변수에 대한 요약 통계량 계산 3. complete : 누락된 조합 생성 예시와 함께 좀 더 자세히 살펴보자. 1..
파이썬 내 SQL 데이터 병렬 추출로 칼퇴하기 오늘은 데이터 병렬 추출을 통해 데이터를 효율적으로 추출하는 법에 대해 소개하려고 한다. 신입 시절 분석 업무에서 가장 예상치 못했던 복병은 데이터 추출이었다. 학생 때는 주어진 데이터에서부터 과제를 시작했다면, 실전에서는 내가 데이터를 직접 추출해야 한다. 주로 SQL로 DB에서 데이터를 가져와서 파이썬이나 R에서 분석을 한다. 여기서 미치고 팔짝 튀는 포인트는 SQL을 통한 데이터 추출 부분이다. 보통 회사에서 만나게 되는 데이터들은 규모가 매우매우 크다. 3년 치 데이터가 필요하더라도, 쿼리는 1일 단위 혹은 시간 단위로 날려야 했다. (1일 단위라면 365*3=1095개의 쿼리를 날려야 함.) 한 쿼리 돌리는데 1분 정도가 걸린다면 19시간 정도는 기다려야 데이터를 받을 수 얻을 수 있다. 절망하..
유데미(Udemy) ChatGPT 와 파이썬을 활용한 데이터 사이언스 및 데이터 분석 수강 후기 최근 좋은 기회로 글또를 통해 유데미 강의 쿠폰을 받게 되었다. 글또, 유데미 감사합니다 🤗 2개의 강의를 신청했고 그중에 하나가 chatgpt를 활용한 데이터 분석 강의이다! 다른 강의는 스파크와 파이썬을 활용한 빅데이터 다루 기인데 해당 강의도 수강 후 후기글을 남길 예정이다! 강의 링크는 아래와 같다. https://www.udemy.com/course/chatgpt-for-data-science-and-data-analysis-in-python-korean/ 강의 내용 강의는 크게 4가지 섹션으로 나눠지고, 무료 플랜을 가지고도 데이터 분석 실습을 해볼 수 있도록 구성되어있다. 하지만 섹션3는 api 사용 부분이기 때문에, 실습을 위해서는 소정의 api 요금을 내야 할 수는 있다. 섹션 1 : 프..
구글 스프레드 시트에서 ChatGPT 사용하기 ChatGPT도 구글 워크 플레이스도 너무 잘 쓰고 있는 나는 최근에 구글 스프레드 시트에서 ChatGPT를 사용할 수 있는 프로그램을 찾았다!! 데이터 분석할 때 주로 R이나 파이썬을 사용하지만, 원 데이터를 확인할 때나 분석 결과를 표로 정리할 때는 구글 스프레드 시트도 많이 쓴다. 최근에는 회사에서 일본 데이터를 보고 있는데, 이때 구글 스프레드 시트가 특히나 유용하다. GOOGLETRANSLATE라는 함수를 통해 무료로 일본어를 번역을 아주 쉽고 간단하게 할 수 있기 때문이다. 그런데 사실 번역 퀄리티가 그다지 좋지는 않아서, 결과를 봐도 읭 싶을 때가 많다. 그러던 중 구글 스프레드 시트에서 ChatGPT를 사용할 수 있다는 것을 알게 되었다! 아래는 B열 : GOOGLETRANSLATE, C열..