New to Nutbox?

24-3-26 scikit-learn 공부

2 comments

steem-agora
84
last monthSteemit2 min read

머신 러닝도 결국 라이브러리를 얼마나 제대로 이해하고 사용할 수 있는가에 달려 있는 것 같다.
마치 장님 코끼리 만지기와 같다는 기분을 느끼지만 파이선 공부는 라이브러리를 얼마나 잘 파악하고 사용할 줄 아는가가 중요한 것 같다.

내장된 자료인 diabetes 자료로 라이브러리 사용하는 방법을 실습하고 있다
diabetes.load_diabetes()

예제 데이터의 구성은 아래와 같다

  • 일반적으로 딕셔너리 형태로 구성
  • data: 특징 데이터 세트
  • target: 분류용은 레이블 값, 회귀용은 숫자 결과값 데이터
  • target_names: 개별 레이블의 이름 (분류용)
  • feature_names: 특징 이름
  • DESCR: 데이터 세트에 대한 설명과 각 특징 설명

현재까지 3개정도를 실습해 보았다.

첫째는 model_selection 모듈이다. 아래와 같은 기능을 한다.

학습용 데이터와 테스트 데이터로 분리
교차 검증 분할 및 평가
Estimator의 하이퍼 파라미터 튜닝을 위한 다양한 함수와 클래스 제공

두번째는 train_test_split(): 학습/테스트 데이터 세트 분리하는 기능을 한다.

세번째는 cross_val_score(): 교차 검증하는 기능이다.

네번째는 GridSearchCV: 교차 검증과 최적 하이퍼 파라미터 찾기이다.

그냥 단순하게 따라하는 것을 넘어 코드 한줄 한줄 그 의미를 파악해야 하는데 그게 쉽지 않다.
그런 공부에 colab에 내장된 ai가 매우 도움이 된다.
gemini와 openai를 사용하면서 물어보고 있다.
최고의 선생이 아닌가 한다.

앞으로 코드 작성에 최적화된 devin이 나온다면 세상이 달라질 것 같다.
비전공자도 조금만 익숙해지면 아주 쉽게 코드를 작성할 수 있다.

코그니션 사에서 만드는 devin은 openai보다 8배나 코딩 능력이 뛰어나고 머신러닝도 스스로 시킨다고 한다.
지금은 ai 개발자가 우대를 받는다고 하는데 점점 ai 개발자도 설 땅이 줄어들 것 같다고 한다.
그야말로 어마어마한 변화가 우리를 덮치고 있다.

내가 살고 있는 세상을 이해하는 것도 쉽지 않은 일이다.

Comments

Sort byBest