AI 9

[빅데이터] scikit-learn - 선형회귀, 랜덤포레스트, 군집분석 실전 코드

개요 파이썬 머신러닝의 사실상 표준인 scikit-learn을 사용해 지도학습(선형회귀, 랜덤포레스트)과 비지도학습(K-Means 군집분석)을 코드로 직접 구현한다. 단순히 코드만 실행하는 것이 아니라, 실행 결과를 네트워크 실무 관점에서 해석하는 과정까지 포함한다. WHY — 왜 scikit-learn을 쓰는가 네트워크 엔지니어가 방화벽 정책을 세울 때 패킷 필터링 코드를 밑바닥부터 짜지 않는다. 이미 완성된 UTM 장비의 기능을 가져다 쓴다. scikit-learn이 정확히 그런 도구다. 복잡한 수학 수식이 모두 모듈로 내장되어 있어, 데이터만 잘 정리해서 넣어주면 학습과 예측을 자동으로 처리한다. 패키지 설치 terminal — (ml-env) 가상환경 안에서 ..

AI/빅데이터 2026.04.14

[빅데이터] pandas와 numpy - 네트워크 엔지니어를 위한 데이터 전처리 기초

개요 AI/ML 알고리즘에 데이터를 넣기 위해서는 텍스트 로그나 CSV 파일을 컴퓨터가 계산하기 좋은 형태로 다듬어야 한다. 이 전처리 작업의 핵심 도구가 pandas와 numpy다. 이번 포스팅은 개념 소개에서 끝내지 않고, Ubuntu 실습 환경 세팅부터 필터링, 통계 계산, CSV 읽기까지 실제 실행 결과를 눈으로 확인하면서 진행한다. WHY — 엑셀로는 대용량 로그를 볼 수 없다 현업에서 방화벽 Syslog나 스위치 로그를 엑셀로 열어본 적이 있다면, 수십만 줄이 넘는 순간 프로그램이 멈추거나 렉이 걸리는 경험을 해봤을 것이다. pandas는 기가바이트 단위의 텍스트 로그나 CSV 파일도 메모리에 올려 순식간에 표(DataFrame) 형태로 만들어버린다. 이것이 엑셀 대..

AI/빅데이터 2026.04.14

[빅데이터] 딥러닝 - CNN, RNN, Transformer까지 한 번에 정리

개요 딥러닝은 ML의 한 종류로 인간 뇌의 신경망 구조를 모방한다. 선형회귀, 랜덤포레스트로 처리하기 어려운 이미지, 텍스트, 시계열 데이터에 강하다. CNN, RNN, Transformer는 모두 딥러닝의 하위 구조로, 처리하는 데이터 특성에 따라 구분된다. ChatGPT, RAG, Agent 전부 이 구조 위에서 동작한다. WHY — 기존 ML로 안 되는 경우 랜덤포레스트는 표 형태의 정형 데이터에 강하다. 하지만 네트워크 로그 전체 흐름에서 패턴을 찾거나, 장애 원인을 자연어로 설명하거나, 시계열 트래픽의 장기 패턴을 학습하려면 다른 구조가 필요하다. 딥러닝은 이런 비정형 데이터와 복잡한 순서 정보를 처리하기 위해 등장했다. HOW — 딥러닝 기초: 신경망 구조 ..

AI/빅데이터 2026.04.14

[빅데이터] 군집분석 - 정답 없이 이상한 것을 찾아낸다

개요 선형회귀와 랜덤포레스트는 정답이 있는 데이터로 학습한다. 그런데 현실에서는 정답을 모르는 경우가 훨씬 많다. "이 IP들 중 어떤 게 이상한지 모르겠다"는 상황이 대표적이다. 군집분석(Clustering)은 정답 없이 비슷한 것끼리 알아서 묶는 비지도학습 기법이다. WHY — 정답 레이블이 없을 때 랜덤포레스트로 공격 트래픽을 탐지하려면 "이것은 공격, 저것은 정상"이라는 레이블이 붙은 학습 데이터가 필요하다. 하지만 처음 보는 공격 패턴은 레이블이 없다. 제로데이 공격이 대표적이다. 군집분석은 레이블 없이 평소와 다른 패턴을 찾아낸다. "이상한지 모르지만, 다른 것들과 다른 그룹에 속한다"는 것만으로도 충분한 알림이 된다. HOW — K-Means 군집분석..

AI/빅데이터 2026.04.14

[빅데이터] 랜덤포레스트 - 수백 개의 스무고개로 다수결을 낸다

개요 선형회귀는 직선 관계에서만 유효하다. 현실 데이터는 복잡한 비선형 패턴을 가진다. 랜덤포레스트는 이 문제를 "수백 개의 스무고개(결정트리)를 만들어 다수결로 결정"하는 방식으로 해결한다. 지도학습 중 분류 문제에서 가장 널리 쓰이는 알고리즘 중 하나다. WHY — 선형회귀로 안 되는 경우 네트워크 트래픽 분류를 예로 들면, 공격 트래픽과 정상 트래픽을 구분하는 기준은 사용률 하나가 아니다. 패킷 크기, 출발지 국가, 접속 시간대, 프로토콜, 포트 번호 등 여러 변수가 복합적으로 작용한다. 이런 다변수, 비선형 패턴은 직선 하나로 나눌 수 없다. 선형회귀: "사용률이 높을수록 응답이 느리다" → 숫자 예측 (회귀)랜덤포레스트: "이 트래픽이 공격인가, 정상인가" → 범주 ..

AI/빅데이터 2026.04.14

[빅데이터] 선형회귀 - ML의 첫 번째 알고리즘, 직선 하나로 예측한다

개요 선형회귀는 ML의 가장 기본 알고리즘이다. "직선 하나를 데이터에 맞게 긋는 것"이 전부다. 단순해 보이지만 ML이 어떻게 학습하는지의 원리가 그대로 들어 있다. 선형회귀를 이해하면 더 복잡한 알고리즘도 같은 원리로 이해할 수 있다. WHY — 선형회귀가 중요한 이유 선형회귀는 지도학습 중 회귀(숫자 예측)의 대표 알고리즘이다. 트래픽이 얼마나 될지, 링크 사용률이 몇 %가 될지 같은 수치 예측에 사용한다. 더 중요한 이유가 있다. ML의 핵심 개념인 학습 데이터 → 가중치 조정 → 오차 최소화 과정이 선형회귀에서 가장 명확하게 드러난다. 이걸 이해하면 랜덤포레스트, 딥러닝도 "결국 같은 원리"라는 게 보인다. HOW — 선형회귀의 동작 원리 기본 개념..

AI/빅데이터 2026.04.14

[빅데이터] 통계 기초 - ML을 이해하려면 통계 4가지만 알면 된다

개요 빅데이터 예측 분석 강의를 통계 기초 없이 수강했다가 코드는 따라 쳤지만 결과를 해석하지 못하는 상황이 됐다. ML 알고리즘은 내부적으로 통계 수식을 사용한다. 수식을 외울 필요는 없지만 평균, 분산, 상관관계, 정규분포 이 4가지 개념이 없으면 결과 해석이 불가능하다. WHY — 통계가 ML의 선행 과목인 이유 ML 모델이 "정확도 87%"라고 출력했을 때, 통계를 모르면 "오 높은가 보다"로 끝난다. 통계를 알면 "데이터 불균형이 있어서 이 수치가 의미 없을 수 있다"는 판단이 가능해진다. 구분통계 기반 분석빅데이터 예측 분석 핵심 질문지금 어떻게 생겼나?앞으로 어떻게 될까? ..

AI/빅데이터 2026.04.14

[빅데이터] AI, ML, 딥러닝 - 개념 지도부터 잡아라

개요 네트워크 엔지니어 15년 차가 AI/ML을 처음 공부하면서 가장 먼저 부딪힌 벽은 용어의 혼란이었다. AI, ML, 딥러닝을 같은 말처럼 쓰는 사람도 있고, 전혀 다른 것처럼 설명하는 사람도 있었다. 이 글은 세 개념의 관계를 정확히 정리하고, 각 ML 기법이 어디에 속하는지 전체 지도를 그리는 것을 목표로 한다. WHY — 개념 지도가 먼저인 이유 선형회귀, 랜덤포레스트, CNN을 각각 배워도 머릿속에서 연결이 안 되면 응용이 불가능하다. 새로운 기술이 나왔을 때 "이게 ML인가, 딥러닝인가, 어디에 쓰는 건가"를 판단하려면 전체 구조가 먼저 잡혀 있어야 한다. 네트워크로 비유하면 OSI 7계층을 모르고 패킷 분석을 배우는 것과 같다. TCP가 3계층인지 4계층인지 모..

AI/빅데이터 2026.04.14

[EVE-NG] Home LAB 구축 과정: 포트포워딩 삽질에서 Zero Trust 까지

네트워크 엔지니어가 집에서 EVE-NG 서버를 외부에서 안전하게 접속하기까지!— Gemini와 함께한 삽질 전기(全記) —들어가며Home LAB을 구축하는 네트워크 엔지니어라면 한 번쯤 이런 생각을 해봤을 겁니다."회사에서도 EVE-NG 랩 환경에 붙을 수 없을까??"처음엔 단순해 보였습니다... 공유기 포트포워딩 몇 개 뚫으면 되는 거 아닌가 싶었죠..!하지만, 이중 공유기(NAT), 포트 충돌, VPN 핸드쉐이크 실패... 예상치 못한 장벽들이 연속으로 등장했고, 그 과정에서 생각보다 훨씬 깊은 곳까지 파고들게 됐습니다.이 포스팅은 그 삽질의 기록입니다. 그 과정에서 Gemini는 구성 설계 파트너이자 트러블슈팅 도우미로 활용한 경험을 함께 담았습니다.최종 결과는 단순한 포트포워딩을 넘어, Zero ..

Etc/EVE-NG 2026.02.22