티베트모래우유 [976710] · MS 2020 (수정됨) · 쪽지

2024-07-07 20:25:53
조회수 322

4. 24 언어이해 [4-6] 개인정보 비식별화 기술; 풀이 복기

게시글 주소: https://iu.orbi.kr/00068663350

(7.9M) [16]

24 언어이해 [4-6] 개인정보 비식별화 기술.pdf

0. 언어이해 1세트 풀이 복기 https://orbi.kr/00067557013

1. 21 언어이해 [13-15] 르포르의 권리와 권력의 관계 https://orbi.kr/00067630247

2. 20 언어이해 [25-27] 우주선의 랑데부 https://orbi.kr/00067889104

3. 16 언어이해 [7-10] 김춘수와 김수영의 시 이론 https://orbi.kr/00068481607


4. 24 언어이해 [4-6] 개인정보 비식별화 기술


들어가기 전 : 저는 24학년도 LEET로 로스쿨에 입학했습니다. 그래서 이 지문은 제가 실전에서 치렀던 본시험입니다. 당시 시험장에서는 6번의 답을 찍지 못하고 다음 지문을 풀기 시작했고 (저는 한 지문당 6분 20초~6분 40초를 할당하고 그 시간을 넘기면 바로 다음 지문으로 넘어갔거든요), 마지막 2분 정도를 더 투자해서 6번을 풀었습니다. 실제 시험장에서는 풀이시간 8분을 넘긴 셈이지요.
복기를 올려야 하니 한 호흡으로 다 풀었습니다만, 시험 운영에 대해서도 많이 고민해보시는 걸 추천하고 싶습니다(시험 운영 및 전략을 세워놓고 그 호흡으로 문제를 푸는 것은 수능에서도 당연 적용되는 것입니다!).

저는 사후적 해설도 이해하고 제것으로 만들 수 있다면 독해력 측면에서 도움이 되겠지만, 실전에서 어떤 수준까지 납득하면 문제의 정답을 맞출 수 있는지가 더 중요하다고 생각합니다. 사후적 해설보다는, 실전처럼 문제를 풀 때 어떤 생각을 했는지를 주로 작성하도록 하겠습니다.



실제 풀이과정은 위의 영상을 참고하세요.  


시선의 이동 단계 ] 에 따라 작성합니다. (저는 대부분의 언어이해 문제를 이 시선으로 풀었습니다)

1. 문제, 선지 먼저 보고 → 글의 틀을 추론

2. 지문 독해 (주로 통독; 책을 중간에 건너뛰지 않고 처음부터 끝까지 훑어 읽는 것)

3. 문제 풀이




1. 문제, 선지 먼저 보고 → 글의 틀을 추론 [ 0:00 ~ 1:15 ]  


저는 문제와 선지를 먼저 보고 글의 틀이 어떤지를 추론해보는 과정을 먼저 했습니다.
(지문 독해를 할 때 힘조절을 하려면 이게 낫다고 생각했기 때문입니다)


4번 : 발문(“윗글의 내용과 일치하지 않는 것은?”)에서는 얻을 것이 없으니 선지로 갑니다. 크게 눈에 띄는 건 없고 ‘속성’ 정도가 눈에 띄었습니다. 넘어갑니다.


5번 : “k-익명성”이 무엇인지를 알아야겠지요. 지문으로 갑니다. 특정 개인을 추정할 가능성을 낮추는 기술이라고 합니다. 선지로 갑니다. k를 변경하고 있습니다. k를 낮추거나, 높이거나... 그러면, “재식별 가능성”, “동질집합 어쩌구” 가 바뀝니다. ⑤ 는 공통점 이야기 같구요.


<생각> 재식별 가능성(사람을 알아볼 수 있는 가능성)이 바뀌는 지문입니다. k가 변하면 그 가능성도 변할 것입니다.


6번 : 절망적이군요... 일단 <보기>를 빨리 봅니다. 무슨 소리인지 알 수 없으니 ㄱ~ㄷ으로 갑니다. k 값이 나오고, ℓ 값이 나오는군요. 아까 봤던 동질집합 어쩌구도 나오구요.


<생각> k라는 변수도 있고, ℓ 이라는 변수도 나올 것입니다.


∴ <글의 틀을 추론> k 가 변하면, ℓ 이 변하면, 사람을 알아볼 수 있는 가능성이 바뀔 것입니다. (딱 봐도 어려워 보입니다, 적당히 포기할 마음을 먹고...)




2. 지문 독해 (통독) [ 1:15 ~ 5:40 ] 


언어이해 지문은 타임어택, 어려운 문장, 복잡한 구조 등으로 인해 모든 내용을 이해할 수 없으므로

'문제를 푸는 데 무리없는 수준으로 납득하는 것' 을 목표로 삼아야 한다고 생각합니다.

저 역시 제 방식으로 글을 빠르게 납득하는 것을 목표로 했었고, 제 사고방식을 아래와 같이 작성할 것입니다.


지문 독해는 (1) 단락을 나누어 요약, (2) 힘주어 읽은 표현

두 가지로 나누어 작성할 것입니다. 제가 풀면서 실제로 그렇게 생각한 것들입니다.



(1) 단락을 나누어 요약


시간관계상 요약적으로 빠르게, 지문의 핵심적인 틀은 무엇인지, 핵심 화제는 무엇인지를 중점적으로 보는 훈련을 했습니다. 실제로 이런 방식으로 읽습니다.


이 글은 총 4문장으로 요약할 수 있습니다.


- 개인의 신원이 드러나지 않도록 하면서도 데이터의 활용성을 확대하는 기술이 있다.

- k를 늘려서 특정 개인을 식별할 수 있는 확률을 줄인다.

- ℓ을 늘려서 특정 개인의 민감속성을 식별할 수 있는 확률을 줄인다.

- 데이터 삭제 후의 활용성은 레코드 잔존율, 레코드 유사도로 측정한다.



(2) 힘주어 읽은 표현


저는 내용을 빠르게 납득하기 위해서는 아래처럼 특정 표현을 힘주어서 읽는 훈련이 필요하다고 생각했습니다.

그렇게 읽지 않으면 모든 문장에 힘을 주면서 읽게 되어 강약조절이 어려워서 그랬습니다.


풀이 영상에서 제가 // 표시하는 것이 제가 힘주어 읽은 표현입니다. 일종의 부표를 띄우는 것이라고 보시면 됩니다.

▶ 부분은 "제가 실제로 그렇게 납득하고 넘어가는 사고방식" 입니다.


1문단


“… 개인정보의 전부 또는 일부삭제하거나 대체함으로써 개인의 신원이 드러나지 않도록 하면서도 해당 데이터의 활용성을 최대한 유지할 수 있도록 하는 개인정보 비식별화 기술을 사용한다.”


대조하는 표현입니다. 두 개가 충돌합니다. ⑴개인의 신원이 드러나면 안 되고 ⑵그러면서도 해당 데이터의 활용성을 최대한 유지해야 됩니다. 이 둘을 적정선에서 조합하는 게 기술의 목표가 되겠군요.


(참고로 저는 학부에서 통계수업을 좀 들었어서, 제 경험과 비교해가면서 읽었습니다. LEET 자체가 학부졸업생을 대상으로 하다 보니 이런 경우가 왕왕 있지요. 수능에서라면 조금 더 친절하게 나올 거라고 생각합니다.)



2문단


읽다 보면 참 정보가 많은데, 이럴 때일수록 적당히 납득하고 넘어가야 합니다. 적당히 이미지화해서 적당히 납득하거나, 정보처리는 포기하고 중요한 단어만 위치표시를 해놓고 넘어가는 것도 한 방법이지요.

(+저는 정보처리라는 독해방법(?)자체를 아예 포기하는 타입입니다(단기기억력에 자신이 없는 편이기 때문에...))


저는 2문단은 이런 느낌으로 받아들이고 넘어갔습니다.


데이터 집합

레코드   레코드

∧             ∧

속성 속성   속성 속성


식별자와 준식별자 : 정의만 납득 (바로 알아볼 수 있는 것 / 결합하면 알아볼 수 있는 것). 예시는 기억 못하니 포기. 문제 풀 때 제 위치로 돌아올 수만 있으면 된다고 생각합니다.



“성별, 이름, 연령으로 구성되어 있는 원본 데이터 집합이 있을 때, 이름에서 성씨만을 남겨 비식별 데이터 집합을 만들었다고 하자. 비록 이름은 성만 남기고 가려져 있지만 ‘남성’이 유일하거나, 성이 ‘이씨’이면서 ‘35세’인 사람이 유일하다면, 원본에 이 두 사람이 포함된 사실을 알면서 이들 각자의 유일한 속성값 조항을 미리 알고 있는 사람은 특정 개인을 재식별할 수 있다.”


예시입니다. 예시는 납득하고 빨리 넘어가는 게 좋지요. 통계자료를 볼 때 특정 개인을 재식별할 수 있는 경험이 있다면 빨리 납득됩니다.


특히 예시에서 갑자기 읽는 속도가 느려지고 머뭇머뭇하는 경우가 많은데, 앞에 나온 개념을 하나하나 적용하면서 그 예시를 완전히 내 것으로 소화하려고 하면 상당한 시간이 소요됩니다. 생각보다 내 뇌는 나의 일반생활경험과 연관지을 때 '위치' 정도는 잘 기억해 내거든요. 맥락 위주로 빨리 납득하고 넘기는 것이 낫다고 생각합니다.


(+ 이 예시에서는, 저같은 경우 ‘로스쿨 입학자 통계’를 보다가, 해외대학 출신이 1명인데 출신학과가 영어로 쓰여있는 경우도 1개라서, 그 합격자분 전공이 뭔지를 당연히 알 수밖에 없었던 경험이 있습니다(...) ‘아~ 이런 거 알아 봤어~’ 라고 생각하면서 빨리 넘어갔습니다.)



“익명 데이터라도 여러 속성과 결합하면 유일한 속성값 조합이 새로 생기게 되며 이에 따라 특정 개인이 재식별되는 불완전한 비식별 데이터 집합이 된다.”


특이한 표현들이 많이 나옵니다. 유일한 속성값이 나오면 그 사람이 누군지를 알 수 있게 됩니다. 불완전한, 안 좋은 데이터 집합이 되는군요. 문제입니다. 뒤에서 해결방법이 나올 것입니다.



3문단


“k-익명성은 특정 개인을 추정할 가능성을 1/k 이하로 낮추는 비식별화 기술로 원본 데이터 집합의 식별자나 준식별자 속성에 대해서 마스킹, 범주화 등을 수행하여 유사한 준식별자 속성값들을 동일하게 만드는 작업을 수행한다.”


특이한 표현이 나옵니다. 유사한 것을 동일하게 만들어서 식별하지 못하게 하는 게 바로 해결책이군요. k-익명성이라고 합니다. 


▶ k-익명성은 뭐지요? 특정 개인을 추정할 가능성이 1/k이하가 되도록 하는 기술이지요? k가 높아지면 좋다! 이정도로 생각하고 넘어가면 되겠지요. 그 다음 문장은 사실 이걸 구체적으로 풀어서 (어렵게) 설명하는 내용이고요.


(그 다음을 전부 정보처리하는 건 말도 안되는 일이고, 앞뒤를 붙여서 읽어야 ‘당연하다’ 고 생각되며 넘어가지게 된다고 생각합니다.)


제가 납득한 방식은 이렇습니다.


→ 특정 개인을 추정할 가능성이 1/k 이하가 된다는 말은 뭔가요? 같은 게 k개가 있고 그중에 1개가 ‘특정 개인’이 된다는 의미이지요?

→ 그 뒤를 읽어보면? k-익명성은 동일한 레코드의 수가 k개 이상 반드시 갖추어지도록 하고, k개 미만으로 동일한 레코드는 죄다 삭제해 버립니다.

→ 여기서 ‘아하, 레코드가 한 사람이구나.’ 로 납득.

→ 그래서 “특정하고자 하는 개인이 속한 동질집합의 크기가 k일 때 이 특정 개인이 k명 중의 한 명임을 추정할 수 있으므로 1/k의 확률로 개인 추정이 가능하다” 고 하는 거지요.


+ 추가로 생각해볼 수 있는 것은, ‘오 그냥 삭제를 해버리네. 괜찮나?’ 정도가 될 수 있겠습니다.



4문단


“k-익명성은 한 동질집합에 속하는 모든 레코드에서 준식별자 속성이 아닌 민감속성의 값이 모두 동일한 경우 해당 정도가 유출되는 단점이 있다.”


특이한 표현입니다. 단점이 나왔군요. 모든 사람이 민감속성의 값이 같은 경우 또 유출이 있습니다(지긋지긋...). 해결책이 또 나올 것입니다. (+ 민감속성은 어디서 본 거 같으니까 위로 올라가서 살짝 확인했습니다)



“이러한 k-익명성의 단점을 보완하기 위해 ℓ-다양성을 추가로 적용한다.”


▶ 해결책은? ℓ-다양성입니다.



“ℓ-다양성은 동질집합에서 민감속성이 최소 ℓ개의 서로 다른 속성값들을 갖도록 한다. 이 조건을 만족하지 못하는 동질집합은 비식별 데이터 집합에서 삭제한다.”


▶ ℓ-다양성은? 민감속성이 ℓ개가 안되면 또 삭제해 버립니다.



+ 여기서 생각할 수 있는 것은? 삭제를 2번 하는 거지요.

① 동일한 레코드가 k개 이상 안되면 죄다 삭제합니다. 그러고 난 다음 ② 거기서 ℓ개의 민감속성이 안되면 또 죄다 삭제합니다.

(저는 시험장에서 ‘통계자료를 막 지워버리네, 상남자식 기술이군...’ 라고 생각했던 기억이 납니다 ^^;)



5문단


“비식별화 기술은 개인 식별 가능성은 낮출 수 있지만 정보 손실을 유발하기 때문에 구축된 빅데이터를 활용하는 측에서는 데이터의 가치가 낮아진다.”


대조하는 표현입니다. 개인 식별 가능성은 낮아져서 좋습니다. 대신 정보 손실이 생깁니다. (생각했던 것과 같지요)



“원본 유사도는 비식별 데이터 집합의 활용성을 나타내는 지표이며 원본 데이터 집합과 이를 비식별 처리한 비식별 데이터 집합이 얼마나 유사한지를 나타낸다. 이 지표는 레코드 잔존율과 레코드 유사도로 측정한다.”


CASE 나눕니다. 뒤를 읽어보면 이렇습니다. 레코드 잔존율은? 몇 개 남았는지를 보는 거구요. 레코드 유사도는? 남은 것들이 얼마나 비슷한지를 표현한 거군요.




3. 문제 풀이 [ 5:40 ~ 8:15 ] 


저는 문제를 풀고 빨리 답을 골라내기 위해서 세부정보를 암기하거나, 내용을 이해하려고 드는 것이 비효율적이라고 생각했었습니다. 핵심적인 내용들이 어느 위치에 있었는지를 기억해서 제대로 돌아가는 것을 목표로 하였습니다.


4번.

① 앞으로 가서 확인합니다. 그 자체만으로 누구인지 식별 가능한 속성입니다. 맞습니다.

② 범주화와 마스킹은 어디다 하는 거지요? 준식별자에 합니다. 답이니 찍습니다.


(선지에 P라고 적은건 Pass 라는 의미입니다. 나중에 시간나면 다시 돌아오려고...)  


+ 언어이해는 정답을 찾은 이상 나머지 선지는 보지 않는 것이 우월전략입니다 (나머지 선지에서 또다른 답을 찾아내는 순간 그 고민으로 1분 이상이 소요됩니다. 차라리 그 문제는 깔끔하게 틀리고 다른 문제를 맞추는 것이 낫다고 생각합니다. 이 시험은 다 맞추는 것을 목표로 할 실익이 없다고 생각합니다.)



5번.

① k를 낮추면 어떻게 될까요? 일단 데이터가 많이 남지 않을까요? (삭제되는 게 적을테니...) 레코드 잔존율은 늘어날 겁니다.

② k-다양성은 동질집합의 크기(레코드 수)가 같아지도록 하는 기술은 아닙니다. (사실 k가 높으면 좋은 거죠. 굳이 일괄적으로 k를 낮춰서라도 동질집합 크기가 같도록 하는 기술은 당연히 아닐 겁니다)

③ k를 높이면 어떻게 되나요? 일단 재식별 가능성이 늘어난다는 건 말도 안됩니다.

④ k를 높이면 동질집합의 수가 감소하는 건 맞습니다(극단적으로 k를 100까지 높여서 1/100으로 만들어버리면 살아남는 동질집합이 별로 없을테니... 사실 살아남으면 다행이네요). 근데 민감속성값을 같게 만드는 건 또 별개의 이야기지요. 아닙니다.


나머지 4개가 답이 아니니 ⑤를 찍습니다.



6번.

(한숨 푹 쉬고...) <보기>를 보고 일단 분류를 해 봅니다.

(다행스러운 건, 우편번호-연령은 한 분류 안에서는 동일합니다. k를 생각하기는 쉬워요. 성별은 싹 지워줬구요. 그나마의 배려(ㅠㅠ); 이하 우편번호-연령-성별은 생략)


→ (a)로 해보면 :

(1-상)(4-중)

(2-상)(3-중)

(5-하)(5-상)


→ (b)로 해보면 :

(1-상)(2-상)(3-중)(4-중)

(5-하)(6-상)


여기서 생각해볼 수 있는 것은 :

→ (a)에서 데이터가 살아남으려면 k는 2여야 됩니다 (3이상이면 데이터가 다 삭제됨)

→ 한편 (a)에서건 (b)에서건 데이터가 살아남으려면 ℓ은 2여야 됩니다 (3이상이면 (a) 고 (b)고 다 삭제됩니다)


ㄱ. (a)와 (b)의 k값이 같고 ℓ값도 같은 경우 : 가장 쉽게 떠올릴 수 있는 건 k=2이고 ℓ=2인 경우입니다. 데이터가 다 살아남습니다. 그런데 (a)보다 (b)의 레코드 잔존율이 크다는 말은? k가 2보다 커서 (a)에서 데이터가 죄다 삭제되었다는 뜻입니다 ((b)에서는 레코드수가 4인 게 있어서, k가 3이나 4여도 살아남는 레코드가 있거든요). 맞는 거 같습니다.


ㄴ. 레코드 잔존율 100%! k=2이고 ℓ=2라는 뜻입니다. 동질집합 수가 같을 리가... (2개/3개니깐요. 그게 우편번호 표시방식이 다르다는 것의 핵심이죠)


여기서 ㄴ이 있는 선지는 다 지웁니다. ㄱ은 맞았네요. ㄷ을 봅니다.


ㄷ. (a)의 레코드 잔존율이 100%라는 말인즉슨 k=2, ℓ=2라고 알려준 겁니다. (b)의 레코드 잔존율이 100% 미만으로 떨어지게 (억지로라도) 만들어보면... 일단 가장 먼저 생각할 수 있는 건 ℓ을 3이상으로 높이는 건데, 0%가 되니까 안 되구요. 결국 k를 3~4로 높여서 “(5-하)(6-상)” 은 삭제해버렸다는 뜻이지요. 맞습니다.


+ 참고로, 실전에서는 저는 ㄱ에 확신을 가지지 못했는데 ㄴ을 보고 바로 ②④⑤를 제껴버렸던 기억이 있고 (동질집합의 수가 같을 리 없어! 그럴거면 우편번호 표시를 나눠줄리가 없으니깐! 이라고 생각했습니다, 엄밀한 생각은 아니죠...) ㄷ에서 ℓ=2 이라는 건 눈치로 파악한 상태였고 (ℓ을 3이상으로 움직이면 죄다 삭제가 되어 버리니깐요) 바로 k를 움직이면서 ㄷ을 옳은 보기로 처리했었습니다.

0 XDK (+0)

  1. 유익한 글을 읽었다면 작성자에게 XDK를 선물하세요.

  • Iconic · 741513 · 1시간 전 · MS 2017

    우와!!! 새 글이 올라왔네요 싱글벙글,,, 보자마자 호다닥 달려왔습니다 ..
    6번 문제 보고 느낀 한숨과 절망을 글에 써두셔서 피식피식하며 몹시 공감했습니다,, ㅋㅋㅋㅋ ㅠㅠ 고수분도 이러시는구나,,, 하는 소심한 공감,,

    혹시 다음 글은 24년 언어 중, ’진리에 대한 철학자들의 견해 차이‘ 혹은 첫 지문인 ‘법학에 대한 해석’을 부탁드려도 될까요?

    그리고 시험이 2주 가량 남은 이 시기에 무엇을 하셨는지도 궁금합니다…!
    저는 시간을 촉박하게 준비해서 할 것도, 빈 틈도 너무 많은 것 같아서… 적당히 포기할 건 포기하고, 우선순위를 세워야 할 듯 한데.. 세우셨던 계획을 보고 참고하고 싶습니다!

    양질의 칼럼 정말 감사합니다! 잘 보고 있어요!! 장마철 감기 안 걸리게 조심하셔요! >.<

  • 티베트모래우유 · 976710 · 1시간 전 · MS 2020

    본시험에서 [1~3] 에서는 1번, [10~12] 에서는 10번 오답이 있긴 했는데 ㅋㅋㅋ 접근방법 위주로 쓰겠습니다 (아마 다시 풀어도 오답이 나올 겁니다 ^^;)

    2주 전에는 최근 기출과 봉투모의고사를 번갈아가면서 풀었구요, 1주 전에는 기출만 풀었습니다.
    이 시기에 잘 이해가 안되는 건 본시험장에서도 모를 가능성이 높으니 그냥 넘어갔고요 (다른 걸 더 맞추면 된다고 생각했습니다), 글을 읽을 때 잘 캐치하지 못하거나 간과하는 표현이 있으면 노트에 정리해뒀고, 실수가 있는 경우에도 이런이런 실수를 하니 신경쓰자는 식으로 정리했습니다. 하루 전에는 그걸 봤어요.

  • Iconic · 741513 · 1시간 전 · MS 2017

    흐읍 아직 완성이 안 됐다는 생각에 실모를 안 풀고 있었는데… 이러다 평생 완성 못할 것 같아서 ㅋㅋ ㅠㅠ 저도 당장 모레부터 빨리 시작해봐야겠네요! 후우 화이팅화이팅,, 조언 정말 감사합니다!

  • Iconic · 741513 · 1시간 전 · MS 2017

    앗 궁금한 게 실모 풀고서 실모는 복기를 어느 정도 하셨나요?! 그냥 시간운용적 측면에서만 얻어가셨을까요?
    뭔가 리트 실모는 다들 엄청 별로라고들 하는 분위기가 쎈 거 같아서,,,(수능 준비할 때 많이 듣던 ‘사설틱하다’ 이런 수준을 넘어서, 완전 구데기(?)다 이런 분위가 국룰인 느낌,,, ㅋㅋㅋ) 우유님은 어느 정도로 활용하셨는지 궁금해요!