23 수능 국어 상위 5%에 도달한 인공지능
게시글 주소: https://iu.orbi.kr/00064160457
안녕하세요, 오르비 여러분.
오픈소스 한국어 문서 기반 질의응답 AI 시스템을 탐구하는 프로젝트 팀 NomaDamas입니다.
23 수능 국어에서 상위 5%를 인공지능으로 달성하여 뉴스 기사가 나왔습니다!
수험생시절 오르비에서 도움을 많이 받았던 기억이 나
혹시 저희 프로젝트가 수험생 여러분들께 조금이나마 도움이 될까 싶어 공유합니다!
세 줄 요약
- 기존 3등급(86점, 상위 22%)이던 GPT-4의 수능 국어 성적을, 프롬프트 엔지니어링으로 2등급(94점, 상위 5%)로 향상시켰습니다.
- 문제 유형에 특화된 프롬프트를 사용하면 1등급(96점, 상위4%)까지 달성할 수 있습니다.
- 사용한 프롬프트 전문과 소스코드, 수능 국어 데이터셋을 오픈소스로 공개했습니다.
1. 프롬프트 엔지니어링?
긴 글을 시작하기에 앞서, 많은 분들의 이해를 돕기 위해 저희가 사용한 프롬프트 엔지니어링에 대한 간단히 설명 드리겠습니다.
프롬프트 엔지니어링은 대화형 인공지능 (예: Chat-GPT)에 들어가는 입력 프롬프트를 신중하게 작성하고 개선하여, 원하는 고품질의 응답을 생성하는 과정입니다.
간단히, 어떻게 인공지능에 ‘잘’ 질문 하는지 연구하는 것입니다.
‘수험공부를 하면서 얻은 나름의 노하우들을 프롬프트에 적용하면, 인공지능의 수능 점수가 어디까지 올라갈까?’ 라는 의문이 들었고, 프롬프트 엔지니어링을 통해 적용해 보았습니다.
2. 사용한 프롬프트
어떤 프롬프트를 사용했는지 궁금하시죠?
핵심부터 말씀 드리자면, 지문 속에서 정답과 관련이 있는 문장을 찾도록 한 것입니다.
수험생 시절에 지문에서 ‘1+1=3’ 이라고 한다면 그냥 받아들이고 풀겠다는 마음가짐으로
지문 속에서 근거를 찾는 연습을 하며 기출 문제 분석을 많이 했었는데요,
그 경험을 프롬프트에 반영해 보았습니다.
그 결과 인공지능의 점수가 8점 상승하여 94점이 되었습니다.
지문에서 근거를 찾는 능력의 중요성을 다시 한번 느낄 수 있었고, 수험생분들에게도 공유하고 싶었습니다.
[실제 사용 프롬프트]
위의 프롬프트는 <보기> 가 없는 경우에 사용한 프롬프트 입니다.
저희는 <보기>가 있는 경우와, 없는 경우를 구분하여 프롬프트를 사용하였습니다.
본문이 너무 길어질 것 같아 <보기>가 있을 때 프롬프트는 더 궁금하신 분들이 참고하실 수 있도록
자세한 설명이 있는 링크를 함께 달아두겠습니다 :)
3. 빈출 유형 대응 프롬프트
위의 프롬프트로는 13번, 15번, 40번 문제를 제외하고 모두 풀 수 있었습니다.
GPT-4가 ‘동음이의어’, ‘다의어’ 관련 문제를 못 푸는 것을 확인했습니다.
이에 수험생들이 기출문제로 문제 해결의 방향을 잡는 것처럼,
인공지능에게도 문제를 푸는 방법을 알려주는 13번 문제 맞춤 프롬프트를 제작하기로 했습니다.
[실제 사용한 13번 전용 프롬프트]
(프롬프트에 사용된 표현이 정확한 표현인지는 잘 모르겠습니다..)
제가 이 문제를 실제 시험장에서 만났다면 다음 프롬프트와 같이 행동했을 것이라고 생각하고 작성해보았는데요,
저의 수험생활경험으로 만들어진, 13번 유형의 문제들만 해결할 수 있는 맞춤형 프롬프트 입니다.
오직 ‘지문 속 근거가 된 문장’만으로는 인공지능이 해결하기 어렵다고 판단하여 맞춤형 프롬프트를 제작하였고,
그리하여 13번 문제까지 정답을 맞춰 96점, 1등급에 도달할 수 있었습니다.
하지만 이 프롬프트는 같은 유형의 문제가 나왔을 때에만 재사용 가능한 프롬프트라는 점에 있어서,
완벽한 1등급에는 도달하지 못했습니다.
오지랖일지는 모르겠지만,,,
그래도 인공지능처럼 많은 수험생분들이 시험장에서 만나게 될 다양한 예상 문제들에 대해 나름의 ‘행동 매뉴얼’을 만들어 시험장에 들어가시면,
훨씬 빠르고 정확하게 문제를 해결할 수 있다는 것을 증명한 사례라고 생각하여 가져와 보았습니다 :)
4. 실제 예시
- 17번 문제 (오답률 84.9%)
5. 오답 풀이
23 수능 국어(화법과 작문)에서 15번(비문학)과 40번(화법과 작문) 문제를 GPT-4가 풀지 못했습니다.
왜 오답을 뱉어냈는지 나름대로 설명 해보는 섹션입니다.
- 15번
- 15번 문제의 핵심은 지문으로부터 '100^0.75'와 '1^0.75'를 유도해 무엇이 더 큰지를 구해야 합니다. 이는 GPT-4의 수학 능력 부족으로 두 숫자 중 더 큰 수 찾기를 힘들어 합니다.
- 또한, 지문만 보고 해당 식을 유도하는 것 조차도 힘들어 합니다. 수학적 수식을 이해하고 그것을 선택지에 응용하는 능력이 떨어지기 때문입니다.
- 비슷한 문제로, 문제의 19년도 수능 31번 문제도 '만유인력 공식'을 이해하고 활용해야 풀 수 있는데, 해당 문제 역시 GPT-4는 못 풀었습니다.
- 40번
- 40번에서는 학생 1과 학생 3 '모두' 상대의 발화 내용을 잘못 이해했는지 파악하는 것이 핵심입니다.
- 실제로 해당 부분에서 학생 1은 상대의 발화 내용을 잘못 이해하고 있으나, 학생 3은 그렇지 않습니다.
- 그래서 3번 선지를 정답으로 골랐어야 했지만,
GPT-4는 학생 1이 상대의 발화를 잘못 이해했다고 잘 파악하였으나,
학생 3은 상대의 발화 내용을 이해하고 있다고 파악하여 오답을 고르게 되었습니다. - 비교적 수험생분들에게는 익숙할 수 있는 평가원의 함정 입니다만, 아직 평가원의 함정을 수월하게 빠져나가지 못하는 인공지능입니다
0 XDK (+0)
유익한 글을 읽었다면 작성자에게 XDK를 선물하세요.
-
배고파
-
D-34 2
수학 16-20 국어 2 사문 567 세지 15 16 17
-
학종 상향 8
학종이 적정인지 상향인지 여부는 성적으로 판단하는 건가요? 재 성적대에서 인하대가...
-
새 지우개 특 4
사자마자 사라짐 ㅗ
-
국경이 중국러시아 최전방근무초소 개마고원 영하 -30도 엄ㅋㅋ
-
난 내 삶에서 또 회피를 하고 있었구나. 분명히 나도 힘든 상황이지만 내가 그쪽들...
-
언매황들아 3
'요ㅅ.반치음ㅣ' 여기서 '요'가 왜 관형사야?? '여기사이'이렇게 풀어지니까...
-
21번. 우리에게 허수의 존재를 각인시켜주기 위해 일부러 문제오류를 낸 것이라면?...
-
러닝 유행으로 몸이 건강해지고 한강 노벨상으로 책도 읽고~ 그래도 맨발 달리기는 자제하자
-
최저러 수학 0
최저러라 수학은 수능때까지 감만 유지하고싶은데 하루 5~10문제...
-
시험칠때 1컷 50이라고 가정한 상태로 문제푸시나요??
-
뭔가 답이 깔끔하지가 않아서 시간도 너무 오래걸리고 해설을 봐도 이걸 이렇게...
-
ㅇㅅㅇ 부탁드립니다!
-
갑작스럽게 수능 다시보고싶어서 23,24물지->25사문으로 바꿨는데 리밋은...
-
좌 드가좌 1
로보택시 ㄱㄱ링
-
꿀직업이네
-
방에 쳐박햐서 하루종일 피파4조지기
-
심찬우의 에이어 5
아니 나 재수 시작해서 6월까지 고민하고 머리뜯으면서 찬우쌤 방법으로 계속해서...
-
그리고 모든 것에 대해 how를 묻는 것도 좋은 습관임 물론 댓글이 많은 글에 있는...
-
인터넷이나 유튜브 보고 철학적인 사고 깊게 하지 마세요 대학와서 그냥 교양으로...
-
수학 실모 추천 1
난이도가 높은 실모 말고 적당한 실모 추천좀 해주세요
-
ㅇㅇ?
-
그 "어떤것이 좋다"에서 "어떤것"을 현실로 끄집어 내는건 힘듬 왜힘들까?...
-
이감 막 몰아서 엄청 풀면서 이감 등급으로 5에서 2였나 1까지 올리고 감 잔뜩...
-
안녕하세요. 처음 가입하고 글 써보게됩니다. 여기가 어떤 느낌의 커뮤니티인지는 잘...
-
타지리 3
-
반갑습니다. 국어 강사 유대종입니다. 최근 수능의 경향성은 좀 더 문학 판단에서...
-
저 계속 1컷아니면 1컷에서 한문제 더 맞추는데 이거 수능기준...
-
연논 꿀팁 모음 28
연고대 3회합격자 연상논술 김태규샘입니다. (연심리, 연경영, 고경제) 올해는 제가...
-
그냥 심란해서 올려봅니다.. 다들 수능 화이팅하세요
-
역시 미국 0
한국이었으면 공산국가니 뭐니 난리났을텐데 ㅋㅋ
-
과탐 만큼 개념 기출 후에 실모 벅벅해서 효율이 가장 좋은 과목이 없는듯 수학은...
-
모든사람은 어떤 음악을 들으면 좋다 별로다 이렇게 느끼는게 있을거 아님 그말은...
-
초등학교~중1 지필고사 부활
-
이게 간당간당한 2등급이라니
-
수능 국어공부를 5년동안 해왔는데 처음 시작했을 시기와 비교했을 때 똑같이...
-
1. 공통점을 찾는것 대상간의 비교를 통해 함 2. 공통점을 가진것을 찾는것 한...
-
전 내일 조교로 갑니당
-
십일워 쎈 0
지금 차영진 쌤 십일워 듣고잇는 고2인데 쎈이랑 같이 병행하고 있는데 이거 잘하고...
-
연대 논술 하루 전에 시상식에서 박수치다가 저…저요? 하면서 얼떨떨하게 일어나는 그 짤처럼 됨
-
{A,B,C} 라는 대상1과 {C,D,E} 라는 대상2가 있을때 두대상의 공통점인...
-
아예 공부를 안 한 건 아니고 했는데 지금 등급이 부진하게 뜨고 있습니다 물론 제...
-
사문 풀이 시간 4
도표 시간 빼면 나머지 개념 몇분안에 풀어야 하나요????
-
수2 극한 로피탈 21
0분의0꼴 이니까 로피탈을 사용가능해서...
-
국어 문학 0
실모돌리기 전에 루틴으로 연계작품 풀고싶은데 괜찮은거 뭐가 있을까욤
-
현대시에서 사물 0
사물의 속성을 표출한다 하는 선지 보다가.. 사물은 인간 말고 모든것에 해당되는 건가용??
-
내신 ㅈ된 고2 0
시험이 끝났는데도 즐겁지 않아요
-
문학2틀 언어2틀 91점 꽃을 위한 서시는 사설에 왜이리 많이 나올까 작품성이 좋나
우와… 너무 신기해요…
휴 ai 이겼다
이건 제작자가 천재다