[입시통계] 지원자 점수대를 유형별로 나누어 최종등록여부를 분류하는 모델 구축
게시글 주소: https://iu.orbi.kr/00032053830
1. 서론
지난 글: 지원자의 점수대와 선호도를 바탕으로 최종등록여부를 판별하는 모델 구축
안녕하세요 설빙입니다 :D
저번 입시통계 칼럼에서는 점수대에 따른 선호도 순위에 따라 최종 등록 여부를 분류하는 모델을 구축해보았다면,
오늘은 지원자의 점수대에 따라 군집 분석 기법 (클러스터링 기법)을 이용해 이전 지원자 점수, 합격 여부, 그리고 최종 등록 여부를 토대로 지원자를 유형별로 나누는 비지도 학습 알고리즘을 이용하여 최종등록모델을 구축하였습니다.
2. 군집파악, 합격으로 향한 지름길
우리 주위에서 발생하는 사건들은, 동전을 던지는 행위와 같이 특정 범위 내에서 동일한 확률로 발생할 확률을 가진 균일 분포 (Uniform Distribution)을 따르기 보다는, 수능 성적을 모두가 동일한 확률로 랜덤하게 점수를 받는 것 같지 않듯이 사건이 발생할 확률이 서로 다른 분포를 가진 비정규분포를 주로 따라간다.
미국 메이저리그 선수들의 달리기 속도를 조사해서 정리한 위의 히스토그램을 예로 들어보자. 어느 느린 선수는 1초에 24피트밖에 뛰지 못하고 어느 빠른 선수는 1초에 30피트의 속도로 질주하지만, 60% 이상의 선수들은 1초에 26피트에서 28피트 사이의 속도에서 질주한다. 이처럼 대부분 사건의 분포는 균등하지 않고, 어느 한 부분에서 군집하는 경향성을 가진다.
사실 거의 모든 사건이 어느 한 부분에 군집하여 있는 비정규분포, 혹은 정규분포도 우리 생각 만큼은 흔하지는 않다. 고등과정을 공부하거나 통계문제를 풀 때에는 대부분 정규분포로 가정해 모수를 가정하는 모수적 방법을 사용하지만, 찍먹 vs 부먹의 케이스와 같이 보통의 사례에서는 어느 양 극단에서 표본이 군집하는 경향성이 생기거나, 두개의 극단 그 이상의 군집이 형성되는 케이스도 있을 것이다. 위의 그래프와 같이 표본이 두개의 부분에 군집하는 경향성이 보인다면, 이 데이터를 분석하기 위해 군집 분포를 사용할 수 있다.
군집 분포, 쉽게 말해서 클러스터링 기법은 간단하게 서로 비슷한 경향성을 가진 분포들을 묶고, 다른 군집에 있는 분포들과 차별화를 두어 나누는 기법이다. 위 그래프의 왼쪽에 있는 분포를 군집 1이라고 하고, 오른쪽에 있는 분포를 군집 2라고 하면, 각가의 평균, 표준편차 등 간단한 기준으로 두 군집을 나누어 통계적으로 서로 비교할 수 있는 기반을 만들어 낼 수 있다.
서론이 길었지만, 핵심은 바로 우리가 관심있어하는 입시 지원에서도 지원자 점수대를 분석해 군집화한 후 분석해 우리가 원하는 대로 유용하게 사용할 수 있다는 것이다. 보통 최초합격과 추가합격의 커트라인은 입시 모의지원 사이트가 제시한 커트라인대에 분포하여 있는 경향성이 있는데, 이 지원자 점수들을 군집화해 어느 점수대에서 지원자들이 몰려있는지 분석하고, 너무 높으면 폭발을 예상하고 빼고, 상대적으로 분포 정도가 낮은 점수대의 학과에 지원해 합격 가능성을 아주 큰 폭으로 늘리는 방도로 사용할 수 있다.
여러가지 요소들을 차원 축소한 자료를 정리한 위의 그래프를 예시로 들자면, 위 분포는 많게는 최초합격과 추가합격을 구분하는 커트까지 합쳐서 5가지, 적게는 4가지 군집으로 분류하여 분석할 수 있다. 1번, 2번, 3번 군집에 있는 데이터는 불합격할 확률이 높고, 4번 군집에 있는 데이터는 최소한의 합격이 보장되어 있는 데이터이다. 다만 2번과 3번 군집에도 추가합격한 데이터가 존재하는데, 이 데이터들은 나중에 업로드할 다른 분석기법을 통해 알아내 남들이 모르는 빵구를 예상해 큰 이득을 얻을 수 있다.
3. 알고리즘 분석 과정
이번에도 OO 대학교 XX 학과에 2019년도에 180명의 지원자가 정시모집에 지원했다고 가정합시다.
최종지원 모델은 지원자 점수대, 최종 결과, 등록 여부 데이터를 사용했다.
점수대에 따른 지원 여부를 분석할 때에는 산업 현장은 물론 학계에서도 널리 사용되는 K-평균++ 기법을 사용해 초기 클러스터 센트로이드를 똑똑하게 할당하였고, 여러가지 요소들을 초평면으로 압축해 분석한 그래프에서는 비지도 선형 변환 기법인 PCA를 사용해 분류를 진행하였다.
K-평균 ++ 기법을 사용해 군집을 분류해 실제 데이터와 비교한 그래프이다. 아직 표본이 많이 쌓이지 않았고, 이 기법으로 데이터들을 분석하는 것이 익숙치 않아 예측과 실제가 다른 정도를 나타낸 추세선의 기울기가 일정하지 않은 것을 확인할 수 있다. 이 문제를 해결하기 위해서는 이 쪽으로 학습을 더 하여 더 나은 성능을 보이는 분류기를 사용하거나, 이 오차를 나타내는 추세선을 분류하여 분석해 여러 다른 군집을 분류해 낼 수 있다.
PCA를 사용한 차원 축소를 완료한 데이터를 나타낸 그래프이다. 위에서 이미 설명했기에 중요하게 설명할 점은 없고, 기계가 스스로 학습해 불합격, 최초합격, 추가합격을 나누는 분류학습을 하게 하도록 작업하고 있다. 이 프로그램이 실용화될 때에는 그래프에서 최초합격, 추가합격, 불합격이 나누어 표시된 그래프를 볼 수 있을 것이다.
4. 최종 레포트
저번 분석기와 마찬가지로 창에다가 "cluster_SB(연도)"만 넣으면, 분석기가 스스로 학습하여 분류한 그래프들을 출력한다. 위 추세선들의 그래프와 절편도 추가하면 어떨까 고민하고 있다가 가시성이 안 좋아서 없앴는데 만일 필요하다면 제공하도록 하겠다.
5. 데이터의 사용처
학생: 다른 분석기보다 합격여부에 매우 결정적인 역할을 할 수 있는 분석기라서 이 분석기를 중심으로 최대한 정밀도가 높고 오차가 적은 분석기 제작에 총력을 기울이고 있다. 지금은 정확성에 확신이 안가 군대를 갔다온 다음에야 최신 논문들의 파라미터도 분석해 그제서야 상용화 할 수 있겠지만, 개인적으로 기대를 걸어도 되는 매우 강력한 도구이다.
입시 컨설턴트: 학생보다 더 나은 입시 식견으로 남들이 보지 못한 군집 분포와 추세를 발견하고, 이를 입시 상담과 지원에 유익하게 사용한다
6. 마무리
이 분류기는 몇번의 수정과 번복은 한 다음에야 배포할 예정입니다 (적어도 1~2년...)
이 분류기도 알맞은 데이터를 크롤링해서 적용하기만 하면 전처리 단계가 끝이 납니다.
제 깃허브 블로그에도 비슷한 주제의 글들을 올리고 있습니다. 심심할때 한번씩 와주세요 :D
0 XDK (+0)
유익한 글을 읽었다면 작성자에게 XDK를 선물하세요.
-
현재 노베이스...인 상태로 국어 수학, 전과목이 노베여서 수학은 중학수학 개념원리...
-
주인(19) 격노... "점유이탈죄 적용해 처벌할 것" 의지 밝혀
-
어떻게 이딴게 오답률 68퍼지
-
영어 어떡할까요 0
3등급만 맞추려 하는데 기출 같은 거는 돌려야 될까요..? 작수(유기) 72점...
-
일본 신사에 놀러갔다가 마법사 오니 보추랑 바람피다 걸려서 다음날 비행기로...
-
저메추 1
부탁
-
생윤 퀴즈 1
천부적 재능의 분포는 공동 자산이다.
-
반수 0
아주대 높공에서 경북대 전자로 반수는 좀 에바 인가?
-
안녕하세요, 여러분의 꿈의 열쇠를 찾고 조여주는 사람들 [몽키스패너]입니다! *본...
-
돈 많이 벌어서 3
레고만지면서살고싶음... 레고개비싸
-
한강다리도 없애자. 한강 투신 금지로 3층이상 건물도 다 철폐하자. 투신 금지로...
-
국어 기출(실제시험형) 풀려면 어느 문제집이 가장 좋나요? 1
단원별로, 유형별로 묶어놓은 거 말고, 실제 평가원 시험을 그대로 가져다 놓은 국어...
-
물화생지 다하는게 무조건 유리하겠지? 화학을 개못하고 물 생은 여러번 돌리고...
-
오늘은 일희일비 안할수가 ㅇ없다 아니 국어 수학 안가리고 문제가 어떻게 이렇게 안풀릴수가 있지
-
이게 은근 숨은 킬러파트임
-
대학을 잘 갔다고해서 그 사람이 더 낮은 대학 다니는 사람보다 공부 잘하는 거는...
-
우송대 인스타에서 이벤트 참여한 고등학생들은 특별 혜택으로 추첨을 통해 성심당...
-
밥묵자 4
-
다들 특정 노래 들으면 떠오르는 경험 있지 않음? 12
another day-카관의 면접 보러 ktx 타고 강릉가는 길에 반복 재생 너를...
-
100원에 5기가 6개월마다 유심만 바꾸면 거의 통신비 안들거같긴 한데..
-
적절하지 못한 요소의 개수를 가장 빠르게 맞히시는 분께 1000덕 지급합니다.
-
지금 이감하고있는데 맨날 화작 쉽게 내서 작년처럼 매콤하게 화작내는 모고 풀고...
-
정시 구별법 2
대학교에서 처음 모이면 “너 무슨 전형으로 왔어?” 이런 식으로 묻는 애들 다 정시임 ㅋㅋㅋ
-
허무하다 5
10시반부터 지금까지 수학만했는데 뭘 했나 보면 한 양이 그리 많지도 않고.....
-
에어4인데 패널엔 문제없고 액정만 금감… 필기할 때 불편해서 수리하고시픔…
-
감사합니다
-
어때요?????
-
쎈발점 수1, 수2 이제 끝냈는데요 수1은 고3 자이스토리를 예전에 다니던 학원에서...
-
화력 테스트 2
좋아요 수 눌러서 이 글을 메인 보내면 모의고사를 당장 올리는 걸로
-
허수도 당황스러운데 항등식 조작하는 꼬라지도 당황스럽네
-
뭐 붙을지 안붙을지 모르지만 그래도 붙을 가능성이 높을거 같은데 내년에도 걍 다같이...
-
설맞이 다 끝내가서 다음 n제 정하려는데 문해전2는 많이 어렵나용?
-
스마트키 써야 하나요? 안 쓰는게 낫나요? 어떤 방송보니까 와드를 7번에 두던데 전...
-
최고차 1이라두고?
-
현역 이과 여고생입니다 지방 일반고 재학 중이고 내신은 2.3~2.4정도에요 교과로...
-
여쭤볼게 있습니다..
-
중시건경...이라고 얘기하기도 했었는데, 이거 보니 건대 갈 바엔 동국대가고 애초에...
-
6평, 7모 정도 난이도 되는 실모 추천 가능할까요?… 강대x 너무 어려워…
-
ㅜ
-
수능 과탐 1등급 받아본애들 그냥 풀어봐도 26~27개 이상은 받을듯 특히 화1...
-
어짜피 난 쓰지도 못해
-
세상에서 제일가는 포테이토칩
-
항상 Wls나 일침러들은 있었지만 오르비 특유의 유쾌함과 시끌벅적함이 그리워서...
-
스탠서브 88점 2
아존나쉬웠는데뭔가많이틀림 이상하다...
-
아빠 휴진이라 집에서 맥주마시는데 추논 이거틀렸다니까 보더니 쓱 푸는데...
-
찬우쌤 수업 듣고 있는데 고전소설,화작 양치기 할 때도 첨부터 시간 안 재고 풀어야 하나요?
-
공시 10시간은 만들어야지.
-
수능 + 비교과 전형 커다랗게 하나 만들면 됨. 내신의 영향력이 거의 없는 전형을...
-
똥손이라 그림도 못 그리는데... 쿄애니 청소부라도 시켜만 준다면 바로 할 듯
![](https://s3.orbi.kr/data/emoticons/dangi/029.png)
항상 잘 보고 있습니다![](https://s3.orbi.kr/data/emoticons/oribi_animated/006.gif)
선추천 후정독![](https://s3.orbi.kr/data/emoticons/orcon/022.png)
아주 좋소![](https://s3.orbi.kr/data/emoticons/rabong/001.png)
감사합니다![](https://s3.orbi.kr/data/emoticons/dangi_animated/026.gif)
k-군집화 ㄷ역시 통계천재
앗 이걸 이제서야 봤네요;;;
재밌게 잘 읽었습니다 ㅎㅎ 항상 유용한 정보 올려주셔서 감사하게 생각하고 있습니다!
감사합니다 ㅎㅎ