2. 인공지능이 학습하기 좋게 데이터를 가공해요
핵심 개념
데이터 가공, 데이터 전처리, 데이터 추출, 결측치 제거, 이상치 제거
활동 개요
수집한 데이터에는 필요 없는 부분과 잘못된 부분이 많다는 것을 안내하고 독특한 데이터와 빈 데이터 등 잘못된 데이터를 다듬어 보는 활동을 합니다.
인공지능
영역
인공지능의 이해 인공지능 원리와 활용 인공지능의 사회적 영향
인공지능과 사회 인공지능과 에이전트 데이터 인식 분류,탐색,추론 기계학습과 딥러닝 인공지능 영향력 인공지능 윤리
2015 교육과정 성취기준

[9정통03-04] 필요한 정보를 선택하여 활용합니다.

[12과학05-05] 기후 변화에 대처하는 방법을 알고 실천합니다.

준비물 : 활동지, 키 데이터
학습 활동
도입
만화 이해하기

데이터 가공의 필요성

학습형태 : 전체학습
학습자료 : 만화
활동1
수집한 데이터에서 필요한 것만 뽑아요

우리 학급 친구의 키 데이터만 모으기

학습형태 : 협력학습
활동2
수집한 데이터에서 독특한 부분을 제거해요

우리 학급 친구의 키 데이터 중 독특한 부분 지우기

학습형태 : 협력학습
활동3
수집한 데이터에서 비어있는 데이터를 채워봐요

우리 학급 친구의 키 데이터 중 비어있는 부분 채우기

학습형태 : 협력학습
학습자료 : 활동지 2-1
정리
학습한 내용 확인하기
학습형태 : 전체학습
학습자료 : 만화
활동 팁

필요한 데이터만 골라내기, 독특한 부분 제거하기, 비어 있는 데이터 채우기 활동을 한단계씩 설명하여 이해도를 높입니다.

교사가 먼저 시범을 보인 후 학생들이 활동할 수 있도록 하고, 탐구할 수 있는 충분한 시간을 제공합니다.

지도안 다운로드

시작해요데이터 가공의 필요성을 알아봐요
남자아이 : 기온 데이터를 수집했으니 이제 미래 기온을 예측할 수 있겠구나!!! 인공지능 : 아니야…. 이 데이터로는 인공지능이 정확하게 학습하지 못해….
남자아이: 왜??? 데이터만 있으면 인공지능이 학습하여 우리 미래를 예측해줄 수 있다고 했잖아!! 인공지능:맞아! 하지만 이 데이터는 고쳐야 할 부분이 너무 많아서 인공지능이 이 데이터로는 제대로 학습을 하지 못해.
남자아이 : 그럼 인공지능이 잘 학습할 수 있도록 데이터를 잘 다듬어서 인공지능에게 주면 되겠다! 인공지능 : 좋아, 그럼 오늘은 인공지능 프로그램을 만들기 위해 데이터를 어떻게 다듬는지 한번 알아보자!

【학습 목표】

1. 수집한 데이터에서 필요한 부분을 고를 수 있습니다.

2. 데이터에서 독특한 부분을 지울 수 있습니다.

3. 데이터에서 비어있는 곳을 채워 넣을 수 있습니다.

활동
1수집한 데이터에서 필요한 것만 뽑아요

▷ ‘해바라기반 친구들의 키’ 데이터만 모아야 하는데 실수로 ‘다른 반 친구들의 키’ 데이터까지 수집했습니다. ‘해바라기반 친구들의 키’ 데이터만 고를 수 있도록 여러분이 동그라미 표시해서 도와줍시다.

학급 이름
해바라기반 짱구 100cm
해바라기반 철수 120cm
장미반 치타 120cm
해바라기반 유리 105cm
새싹반 민규 105cm
해바라기반 훈이 X
해바라기반 맹구 130cm
해바라기반 예슬 20cm
장미반 수지 105cm
해바라기반 종수 125cm
새싹반 산소 110cm
해바라기반 연재 X
해바라기반 정아 1cm
해바라기반 지은 X
해바라기반 수정 115cm
해바라기반 종우 240cm
해바라기반 수미 100cm

▸‘해바라기반’ 데이터만 수집하면 되므로 표에서 ‘학급’이라고 되어 있는 ‘칸’ 아래의 데이터에서 ‘해바라기반’만 찾아 동그라미 표시할 수 있도록 합니다. 혼동되지 않도록 ‘이름’과 ‘키’ 데이터를 가리고 찾을 수 있도록 합니다. ▸‘해바라기반’이 아닌 학급에 ‘X’ 표시를 하도록 합니다. ▸필요한 데이터만 고르는 이유는 필요 없는 데이터까지 인공지능에게 제공하면 학습을 하는 데 너무 오래 걸리기 때문이라는 것을 알려줍니다.

활동
2수집한 데이터에서 오류 부분을 제거해요

▷‘해바라기 반 친구들의 키’ 데이터중엔 해바라기 반 친구들의 ‘키’라고 하기에는 너무 크거나 작은 오류 데이터들이 보입니다. 이런 오류 데이터들도 찾아 X표 해봅시다.

학급 이름
해바라기반 짱구 100cm
해바라기반 철수 120cm
해바라기반 유리 105cm
해바라기반 훈이 X
해바라기반 맹구 130cm
해바라기반 예슬 20cm
해바라기반 종수 125cm
해바라기반 연재 X
해바라기반 정아 1cm
해바라기반 지은 X
해바라기반 수정 115cm
해바라기반 종우 240cm
해바라기반 수미 100cm

해바라기반 친구들은 초등학교 1학년 친구들입니다. 초등학교 1학년 친구들의 키는 보통 100cm ~ 130cm 정도입니다.

▸‘오류 데이터’는 모두 3개가 있습니다. ▸다른 친구들에 비해 너무 크거나 너무 작은 ‘키’ 데이터를 찾아보도록 합니다. ▸‘오류 데이터’를 제거하지 않으면 인공지능이 ‘정확한 학습’을 하지 못합니다. ▸‘오류 데이터’를 제거하면 인공지능이 더욱 ‘정확한 학습’을 할 수 있음을 알려주시기 바랍니다.



활동
3수집한 데이터에서 누락된 데이터를 채워봐요

▷ ‘누락된 데이터’가 있어서 문제가 생겼습니다. ‘키 순서로 섰을 때 중앙에 위치하는 친구의 키’를 활용해서 누락된 데이터를 채워 넣어봅시다. 그럼 우선 해바라기반 친구들의 키를 큰 순서대로 나열해볼까요?

중앙값을 활용해 빈 데이터를 채워요 이미지로 대체

▷ 해바라기 반 친구들 키의 ‘중앙값’을 구했으니 ‘비어있는 데이터’를 모두 채울 수 있겠군요!

학급 이름
해바라기반 짱구 100cm
해바라기반 철수 120cm
해바라기반 유리 105cm
해바라기반 훈이 X
해바라기반 맹구 130cm
해바라기반 종수 125cm
해바라기반 연재 X
해바라기반 지은 X
해바라기반 수정 115cm
해바라기반 수미 100cm


▸‘누락된 데이터’는 모두 3개가 있습니다. ▸‘누락된 데이터’를 채우는 방법은 ‘중앙값’을 이용하는 방법, ‘평균값’을 이용하는 방법 ‘내려 받아 데이터값’을 이용하는 방법, ‘아래 데이터값’을 이용하는 방법 등 상황에 따라 매우 다양하므로 여러가지 방법을 적용해 볼 수 있도록 합니다.



[활동지2-1] 실제 데이터를 가공해 보세요

▷ 1차시에서 내려 받았던 서울의 100년간 연평균 기온 데이터를 활용하여 데이터를 가공해 봅시다.

100년간 평균기온 데이터
‘년’ 데이터와 ‘평균기온(℃)’ 데이터만 활용합니다. 나머지 데이터는 모두 삭제해주세요.
1950년~1953년은 ‘평균기온(℃)’ 데이터가 없습니다. 1949년 ‘평균기온(℃)’데이터를 활용해 1950년~1953년 ‘ 평균기온(℃)’ 데이터를 채워주십시오.
누락된 데이터를 채우는 방법에는 중앙값 활용, 평균값 활용, 앞 데이터 값 활용, 뒷 데이터 값 활용 등 여러 가지가 있습니다.

활동지 다운로드

인공지능이 학습할 수 있도록 데이터를 가공해봅시다 동영상 썸네일
정리해요학습한 내용을 확인해 봐요
남학생:인공지능이 데이터를 학습하기 좋게 다듬어서 줘야 하는구나
                     인공지능: 응, 맞아. 수집한 데이터를 그대로 나에게 주면 내가 제대로 학습할 수 없으니 꼭 다듬어서 줘.
개념 쏙쏙
1
필요한 데이터’만 골라내는 것을 ‘데이터 추출’이라고 합니다.
2
오류 데이터’를 제거해내는 것을 ‘이상치 제거’라고 합니다.
3
‘누락된 데이터’를 채워 넣는 것을 ‘결측치 제거’라고 합니다.
4
이러한 모든 과정을 ‘데이터 전처리’라고 합니다. ‘데이터 전처리’는 인공지능이 학습을 더 정확히 할 수 있도록 도와주는 작업입니다.

확인해요

평가 내용 평가 결과
수집한 데이터에서 필요한 부분을 고를 수 있나요?.
오류 데이터를 지울 수 있나요?.
누락된 데이터를 채워 넣을 수 있나요?.