본문 바로가기

Category77

[Book] 데이터분석을 위한 SQL 레시피 3장 요약 빅데이터 활용 도구와 서비스가 많아지고 있다. 그 중 대표적인 빅데이터 처리 시스템을 설명하고, 다루는 데이터의 양 / 처리 비용 / 비용 제약 등을 생각하며 어떤 도구를 사용해야 좋을지 알아보기로 한다. 1. PostgreSQL오픈소스 RDB 이다.가장 역사가 깊고 표준 SQL을 잘 준수하며 윈도우 함수, CTE(WITH 구문) 등 분석에 필수적으로 사용하는 구문 등을 모두 구현한다.GU Installer 를 제공한다. 2. Apache Hive 분산 처리 시스템을 사용하므로, 방대한 데이터를 고속으로 처리할 수 있다.파일 기반의 시스템이다. 따라서, 특정 레코드 하나를 변경/제거하는 것이 어렵고 인덱스도 디폴트로 존재하지 않아 쿼리 실행 때 파일 전체를 조작해야 한다.자세히 설명하면, 파둡 파일 시스.. 2025. 1. 23.
2023년 상반기 회고 벌써 2023년의 반이 지나고 나머지 반을 맞이하게 되었다. 만 나이 도입으로 인해 2살 어려지고 시작하는 감이 있지만, 나만 먹고 들어가는게 아니라는 점이 포인트 ,,! 주마등처럼 지나쳐가는 상반기의 내 모습은 매우 바빴다. 이전 직장의 퇴사와 동시에 다시 취준을 시작하고, 좋은 기회로 스타트업에 합류하게 되어 새로운 도메인과 시장을 경험할 수 있었다. 이제서야 조금 마음의 여유가 생기게 되었다. 여유가 생기니깐 나를 다시 돌아보게 되었고, 2023년을 시작하면서 스스로 다짐했던 것들과 시작했던 것들을 잘 실천하고 있는지 회고해보려고 한다. (무섭다,,) 1. 취준을 시작으로 취업까지 : 새로운 업무 공간과 멘토의 만남 취업컴퍼니라는 취업, 이직을 위한 가상의 네트워킹을 통해 집무실을 이용해보게 되었다.. 2023. 7. 2.
[요약 정리] 빅데이터를 지탱하는 기술 빅데이터 기술 Hadoop : 다수의 컴퓨터에서 대량의 데이터를 처리하기 위한 시스템, 분산 처리 시스템 방식 : 모여진 데이터를 나중에 집계 방대한 데이터를 저장해둘 스토리지와 데이터를 순차적으로 처리할 수 있는 구조가 필요하며, 수백-수천 대 단위의 컴퓨터를 관리하는 프레임워크 java 언어로 동작되는 제한이 있어, SQL 언어를 통해 Hadoop을 실행시킬 수 있는 Hive가 개발됨. NoSQL : 전통적인 RDB의 제약을 제거한 데이터 베이스의 총칭 방식 애플리케이션에서 온라인으로 접속 장점 : RDB 보다 고속의 읽기, 쓰기가 가능하고 분산 처리에 뛰어남 DB 종류 key-value store(KVS) : 다수의 키와 값을 관련지어 저장 document store : JSON과 같은 복잡한 데이.. 2023. 7. 2.
서비스의 나침반 : 유저인터뷰(User Interview) 제품의 성장이 더딘가요? 서비스가 옳은 방향으로 가고 있는지 궁금하신가요? 기획 의도대로 유저가 잘 사용하고 있던가요? 서비스를 편리하게 사용하고 있을까요? 유저인터뷰가 중요한 이유는 결국 제품을 사용하는 사람이 유저이기 때문입니다. 회사가 만들고 싶은 서비스를 만드는 것이 아니라 유저가 사용하고 싶은 서비스를 만들기 위해서 유저인터뷰는 필수입니다. 조직의 규모나 서비스의 성장 단계 등에 따라 인터뷰의 목적이 달라질 수 있습니다. 하지만 본질은 유저의 경험을 조사하고 서비스의 방향성이나 개선 지점을 발굴하는 일이겠지요 ! 초기 서비스일수록 ‘사용자의 피드백’이 중요합니다. 우리가 시장에서 해결하고자 했던 문제와 사용자가 겪는 문제와 동일한지, 동일하다면 우리 서비스가 그 문제를 해결해주고 있는지 지속적으.. 2023. 5. 28.
1st party, 2nd party, 3rd party 데이터 'OO' party data 한번쯤은 들어봤을 것이다. 간단하게 말하면, 사용자 데이터를 의미하고 이 데이터를 누가(=party) 수집했냐에 따라 분류한 것이다. 제1자, 제2자, 제3자와 같이 표현할 수 있다. 최근 디지털 광고 분야에서 서드파티 데이터가 화두에 올랐던 이유는 개인정보법 강화로 인해 구글과 애플이 해당 데이터 수집을 중단했기 때문이다. 서드파티 쿠키는 주로 고객 맞춤형 광고와 리타겟팅 영역에서 유용하게 사용되었으며. 성과나 효율을 파악하기 위한 사용자 행동 추적에 활용할 수 있었다. 쿠키 지원 중단으로 고객 마케팅 영역에서 어려움이 발생하게 되었지만, 사용자의 프라이버시 보호 정책 내에서 좀 더 안전하고 효율적인 광고/마케팅을 기대해볼 수 있지 않을까싶다. 이제 이 모든 것이 무슨 얘기.. 2023. 5. 7.
스타트업 합류 3주차면 풍월을 읊는다? ✍🏻 본 글은 PAP 활동 중에 쓰여진 글로 PAP 블로그에서도 만나보실 수 있습니다. 저의 경험을 토대로 작성된 내용이며, 무엇이 맞고 틀리다를 이야기하고자 하는 글이 아닌 경험을 공유하고자 작성된 글이므로 재미 or 참고 차원에서 봐주시면 감사하겠습니다 🙂 현업에서 데이터 분석가로 활동하면서 항상 데이터 분석가로서 뭘 느끼고 있고, 고민하고 있고, 탐구하고 있는지 생각하고 있는 것 같습니다. 이 시점의 저를 공유하고 나눠드리자면, 최근에 스타트업에 합류하게 되었고 3주째 정신을 못차리고 있습니다^.^ 스타트업 특성 상 업무가 빠르게 진행되야 하기 때문에 서비스 및 환경을 파악하고 적응하는데 발생하는 혼란은 어쩔 수 없던 것 같습니다. 오늘 포스팅은 혼돈의 카오스 그 잡채였던, 3주 간의 기간동안 2개.. 2023. 4. 30.