[입시통계] 지원자의 점수대와 선호도를 바탕으로 최종등록여부를 판별하는 모델 구축
게시글 주소: https://iu.orbi.kr/00032010329
1. 서론
안녕하세요 설빙입니다 :D
9월 모의고사가 얼마 안 남은 이 시점, 어려운 환경 속에서도 잘 헤쳐나가고 계신가요?
아무리 힘들어도 걱정하지 마세요. 그 시점이 오늘이 되었든 내일이 되었든
분명히 고생한 만큼 그 이상으로 돌려받을 거에요.
조금만 더 힘을 냅시다!
오늘의 고생이 드디어 수능날에 복에 되어 돌아와 성적을 생각 그 이상으로 받았으면,
이제 원하는 대학, 원하는 학과에 성공적으로 붙을 수 있을 입시 전략을 짜야할 시기입니다.
하지만 이전까지는 평범한 학생 입장에서는 쓸 수 있는 도구가 한정되어 있었습니다.
비유하자면 수능 샤프 달랑 하나만 가지고 전쟁터에 나간 느낌이지요.
할 수 있는 방도라면은 입시 모의지원 사이트에 들어가서
성적레포트를 확인해서 칸수대로 지원 전략을 세우거나,
더 세부적으로 들어가자면 성적 데이터를 가지고 일일히 1순위 2순위 엑셀 노가다해서
얻은 감을 믿고 지원하는게 보통입니다.
이렇게 하면은 그냥 아무런 생각 없이 지원하는 것보다는 합격 확률을 높일 수는 있지만,
갑자기 마지막날에 표본이 몰려 틀린 결과가 나올수도 있고
자신의 감을 바탕으로 결정을 내렸기 때문에 통계적으로도 올바른 방식이 아닙니다
이 때문에, print('Hello World')도 할 줄 모르는 평범한 고3, 재수생 학생이더라도
코드 한줄만 적으면 데이터 사이언스에 인공지능 학습 알고리즘들을 가미한
매우 강력한 데이터 분석 레포트를 제작해서
수능 이후에 입시에 관련해서 여러가지 수학적인 지표를 공유할 예정이니다.
이름하여 SB 지표!
이번 첫번째 칼럼에서는 선호도를 이용해 등록 여부를 판별할 수 있는 모델을 설명해드리겠습니다.
혹여나 이해가 되지 않으시더라도 하나도 상관 없습니다
그냥 이렇게 프로그램을 작업중이라고 파악하시면 됩니다 :D
2. 선호도의 중요성
각 지원자의 선호도는 그 순서만으로는 합격 여부를 결정할 수는 없지만,
최초합격에다가 3순위면 최종적으로 그 학과에 등록하지 않을 가능성이 높고,
추가합격에다가 1순위면 최종적으로 그 학과에 등록할 확률이 아주 높아서
내 점수보다 위에 있는 표본의 점수대가 선호도가 얼마면 몇퍼센트의 확률로 등록할지 말지의 여부를
통계적으로 활용할 수 있는 중요한 지표 중 하나입니다.
학생들의 선호도를 점수대에 따라 확인하기 위해 점수대에 따른 선호도 분포 그래프를 먼저 첨부하였습니다. 이를 통해 모델을 구축하기 전 전체적인 선호도를 파악할 수 있습니다.
3. 알고리즘 분석 과정
OO 대학교 XX 학과에 2019년도에 180명의 지원자가 정시모집에 지원했다고 가정합시다.
선호도 모델은 선호도, 지원자 점수대, 등록 여부 데이터로 구축하였습니다.
모델에 들어갈 최적의 학습 알고리즘 파악하기 위해,
Keras, Tensorflow 등등 다양한 강력한 도구들이 있지만
저는 사이킷런을 이용한 학습을 통해
로지스틱 회귀
결정 트리 학습법
K- 최근접 이웃 알고리즘
다수결 투표 앙상블 분류기
각각 모델의 위양성과 진음성을 구하고,
이를 바탕으로 정밀도, 재현율을 측정해 가장 성능이 좋은 학습 알고리즘을 사용하였습니다.
4. 알고리즘 분석 결과
알고리즘을 학습하고 난 뒤, 지원년도, 점수대와, 선호도를 넣은 코드 한 줄을 작성하면
데이터 분석 레포트와 더불어 학습 알고리즘이 계산한 결과 + 정밀도를 출력합니다..
밑의 그래프는 학습 알고리즘이 데이터를 분류한 결과를 나타낸 그래프입니다. 여러 학과의 선호도를 분석한 다음, 이 그래프들을 가지고 클러스터링 기법을 통해 유형화하여 종류에 따라 분류할 수 있습니다.
5. 최종 레포트
앞의 예시에서 코드 단 한줄로 매우 강력한 데이터분석 레포트를 만드는 과정을 설명드렸습니다.
주어진 데이터에 따라 맞는 결과를 산출하고, 그 때마다 달리할 점은 코드 몇 단어면 충분하기 때문에
매우 빠르고 쉽게 자신이 원하는 데이터를 얻을 수 있습니다.
6. 데이터의 사용처
전체적인 모델 구축: 선호도 모델만으로는 개개인 학생의 합불 여부를 판단할 수는 없지만, 이 모델을 다중신경망의 하나의 뉴런으로 설정하고, 다른 모델하고 합쳐 큰 인공신경망을 구축한다면, 더 나은 결과를 산출할 수 있습니다.
입학처에서 사용: 입학처에서는 점수가 높은 학생들을 더 많이 포집하고 싶어하는 데, 이 모델을 통해 높은 점수대의 학생들이 어느 학과를 선호하는지 분석해 그 고득점자들을 위한 전략을 수립할 수 있습니다.
학과별로 비교: 다른 대학, 동일한 학과의 레포트들을 산출해 그 학과가 학생들에게 어느 정도 선호도가 있는지 파악할 수 있습니다.
대학 안에서 비교: 동일한 대학 내의 레포트들을 산출해 어느 학과의 학생선호도가 높은지 파악할 수 있습니다.
학생: 자기 표본 위의 점수대의 학생의 선호도에 따라 어느 정도 확률로 빠져나가는 표본인지 분석해 알맞는 입시 전략을 구축할 수 있습니다.
7. 마무리
비록 이번에는 가상의 학교 학과를 설정해 표본을 수집했지만, 이미 모델구축을 끝냈기 때문에
알맞은 데이터를 크롤링해서 적용하기만 하면 전처리 단계가 끝이 납니다.
이렇게 입시에 관련한 통계를 몇개의 칼럼으로 나누어 제작할 예정입니다.
제 깃허브 블로그에도 비슷한 주제의 글들을 올리고 있습니다. 심심할때 한번씩 와주세요 :D
0 XDK (+0)
유익한 글을 읽었다면 작성자에게 XDK를 선물하세요.
-
이감 파이널 3
시즌 몇 이런거랑 파이널이랑 다른거임? 오프기준
-
혹시 작년 이감 파이널1(시즌5) 7회 답지 있으신뷴 ㅠㅠ제발 0
작년에 남은거 오늘 풀었는데 답지가 어디갔는지 모르겠어요ㅜㅜㅜ 브탁드립니다..
-
질문하려고 사이트 들어갔는데 글쓰기 아이콘 같은게 없네요;;
-
일주일 전에 이감 사이트에서 봉소하고 간쓸개 패키지 온라인으로 샀는데, 온라인하고...
-
일주일 전에 이감 사이트에서 봉소하고 간쓸개 패키지 온라인으로 샀는데, 온라인하고...
-
김봉소 모의고사 중에서 엄마의 말뚝 다룬 모의고사가 몇 회차인지 대강이라도 아시는분?
-
풀려하는데 도저희 시간이안나서...쪽지주세요! 전문항 융합장문이고 시험지크기로 되어있어요
-
인생 첫 봉소 후기 13
작년에도 imagine했고 올해도 연간imagine 시켜 놓은 게 있어서 그거랑...
-
이번에 대성마이맥에서 봉소사서 처음푸는데 문제 풀때는 아 진짜 퀄 좋다...
-
혹시몰라서 좀 풀어봣으면 좋겠는데 도대체 언제 반영되는지ㅠㅠ
-
간이랑 쓸개가 점점 부푼다..?
-
봉소 파이널2 1회차 81점(실질적 79점...) 16
화작 1개 틀리고 문법 1개 틀리고 비문학 독서 1문제 틀리고 문학 5문제...
-
스듀에서 온라인용팔고있는중 아닌가...?
-
파이널 6회 87점 실화? ㅡㅡ 학교에서 잘풀리길래 이번엔 90 넘겠지 하고...
-
오늘 원래 학교에서 국어 실모 풀고 수학 실모 풀 생각이었는데 6
국어풀고나서 지쳐서 계획 변경하고 드릴 기벡 풀었습니다... 봉소말고 상훈모고를...
-
봉소 개떡락 1
4회 90->5회 78 무엇이 문제일까요ㅠ
-
비문학 너무어렵네요; 예술-과학 지문은 편-안했는데 그거빼고 2지문은 진짜 개씹헬;...
-
수학은 기출분석과 교과서만 하면 된다고 생각하시는 goat분들이 왜 굳이 국어만...
-
봉소형한테 간쓸개 기증하면 주간지분량 떡상 가능? 그리고 장기기증자 특별우대전형으로...
-
사탐 어떻게 내실려는지...
-
봉소 질문 0
봉소자료가 1.봉소가 자기 수업때 나눠 주는 자료+모고 2.이감국어 시스템이용학원...
-
바탕 7 8 회차 16
남은기간동안 바탕 7,8차 중에 하나만 풀고 봉소 13회 풀려는데.. 혹시...
-
봉소형 그리고 여러분 정말 수고하셨고 감사합니다. 18
예전에는 그냥 되도않는 둥둥독해 속독해서 겨우 1등급나온거가지고 국어...
-
다 모르시면 1,2회라도 부탁드려요 ㅜㅜ
-
다음주에도 주는건가요???
-
봉소랑 간쓸개 2
수능 출제위원 들어가고나서만든게 각각 몇회 몇주차부터인가요? 글구 간쓸개다하면 체감효과 좋나요?
-
비문학만 틀렷는데 단순일치도 틀리네요.. 어떻게 해야할까요.. 국어 고수분들 도와주세요
-
아 제 눈알이 삔거에요?
-
이건뭐 제 눈알이 삔건가요?
-
작년이랑 올해 봉소 오프 베스트 회차는 무엇일까요.. 1
사설 모의고사 최대한 안풀려고 하는데 봉소 오프를 구해서요.. 너무 많이 풀면 또...
-
작년 봉소 파이널 10회차 답이나 해설지 있으면 댓글좀여 퓨
-
궁금한게 있어요 0
명인학원가면 봉소 컨텐츠 구매할수있나요??
-
모고만 사서 풀고있는데 분석서 딱히 필요없죠?
-
간쓸개 어때여? 7
간쓸개 좋나용 일등급 목표로 하고 있기는 핟데 기출이랑 이감 하구 있거든요 막 주위...
-
파이널 봉소3회 답지좀 사진으로 찍어보내주실분 ㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠ올해 수능...
-
일단 필자 점수는 93 경제 비문학2점짜리, 인문비문학3점짜리, 문학...
-
뭔가 턱턱 막히지 않나요? 킬러지문같은경우에요..ㅠㅜ 9평은 호로롤롤 하면서...
-
앞으로 얼마나 괴랄한것들이나올지 궁금하네요.... 솔직히요번에 과학지문 개오바였는데...
-
오늘 이감2회차 with김상훈 (제점수스포 난도도) 22
점수는 96점 ! 틀린거는 과학지문1개 경제지문한개 둘다 2점짜리 일단...
-
일단 숙제 진찌 너무많아서 너무행복함 드디어 풍족한 자료를?? 간쓸개 200문제...
-
파이널들으려고 하는데 어떤 쌤이 더 괜찮을까요? 강민철쌤 압축반만 듣고 step3는...
-
일주일에하나풀고 나머지는 기출n회독,리트에쓰면 충분한가여 지금 부터일주일에봉옾...
-
8월말부터 파이널하는거 학원에서푸는건 김상훈모의 12회차죠?? 봉소오프12회차는 숙제로 주죠?
-
혹시 팔면은 어떻게 사는지좀 알려주세요!
-
알려주세영
-
국어 비문학낯선지문 대비용으로 리트,상상,봉소,사관기출 중에 일단 지금은 리트하고...
-
97나왔는데 37번하나틀렸고든요 근데 이거아무리봐도 3번선지 답인데 문제오류아닌가요?
-
봉소오프 시즌4 모의고사 몇개정도나오는지 알수있나요? 1
시즌2는 5개자나요 즌4는 몇개나오나요? 12개라는소문을듣긴했는디..
-
봉소온 비문학지문은 좀 많이 더러워서요...(문제가 안좋다는게아니라 수능이나...
-
거기에 뭐있나요?? Ebs연계나 그런거있는건가요?
설마 설빙지표인가요
코드 모르는 여고셍 저거 못 쓰는 것.
저기 위에 있는 preference_SB(년도, 점수대, 선호도 순위) 한줄만 적으면 레포트가 쫘아아아악 나오는 형식입니다 :D
영어도 모르는 여고셍
그래서 python인가요?
넵! 작업은 ipynb로 했지만 만일 배포한다면 구글 코랩을 이용할 예정입니다
구글 코랩은 처음 들어봤네요
구글에서 프로그램 실행 가능한 건가요
넵넵 일일히 파이썬 안깔아도 되서 접근성이 디게 편해요
![](https://s3.orbi.kr/data/emoticons/oribi_animated/014.gif)
코딩황(대충 컴공+통계 지식은 다 동원해서 예측률을 높인 프로그램을 도입했다는 얘기)
나는 모르게따
![](https://s3.orbi.kr/data/emoticons/rabong/012.png)
이런거는 또 어떻게 만들었대;;지난 몇달동안 인생을 갈아넣었습니다
오르비가 설빙님의 이 프로젝트에 투자를 하고,
대신 일정 지분을 저희에게 주시면 어떨까요?
앞으로 만들어지는 서비스는 완성도가 상업적인 서비스가 가능한 수준에 도달할 때까지는 오르비를 통해 회원들에게 무료로 제공하기로 하고요.
반갑습니다 :D 넵! 열심히 참여할 의향이 있습니다. 세부적인 사항은 저한테 메일로 보내주세요
회원정보에 기재된 대학교 이메일 주소로 연락드리면 되나요?
넵 다만 피드백은 cuihyun12@naver.com 여기가 제일 빠르니까 여기로 보내주시면 감사하겠습니다!
제가 회사에서 제안해 보고 상의 후 답장 드릴 수 있게 하겠습니다
![](https://s3.orbi.kr/data/emoticons/oribi_animated/034.gif)
미쵸미쵸클러스터링.. K-... 비문학 ptsd
딱 오르비가 관심 가질만하다고 생각했는데 냄새 맡고 바로 오네ㄷㄷ
멋있습니다 진짜