์ƒ์„ธ ์ปจํ…์ธ 

๋ณธ๋ฌธ ์ œ๋ชฉ

27. ๋ถˆ๊ท ํ˜• ๋ฐ์ดํ„ฐ ํ•™์Šต (Class imbalanced learning)

1 Day 1 Introduction

by SlideScholar 2024. 3. 22. 09:42

๋ณธ๋ฌธ

728x90

1. ๋ฆฌ์ƒ˜ํ”Œ๋ง (Re-sampling)

  • Re-sampling : ๋ฐ์ดํ„ฐ ๋ถ„ํฌ๊ฐ€ ๋ถˆ๊ท ํ˜•ํ•œ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•œ ๋ฐฉ๋ฒ•์œผ๋กœ, Over-sampling๊ณผ Under-sampling์ด ๋Œ€ํ‘œ์ 
    Over-sampling : ์†Œ์ˆ˜ ํด๋ž˜์Šค ์ƒ˜ํ”Œ์„ ์ฆ๊ฐ€์‹œํ‚ค๋Š” ๋ฐฉ๋ฒ•์œผ๋กœ, ๋ฐ์ดํ„ฐ๋ฅผ ๋ณต์ œํ•˜๊ฑฐ๋‚˜ ํ•ฉ์„ฑํ•˜์—ฌ ์‚ฌ์šฉํ•จ
    Under-sampling : ๋‹ค์ˆ˜ ํด๋ž˜์Šค ์ƒ˜ํ”Œ์„ ๊ฐ์†Œ์‹œํ‚ค๋Š” ๋ฐฉ๋ฒ•์œผ๋กœ, ๋ฌด์ž‘์œ„ ์„ ํƒ์ด๋‚˜ ๊ณ ๊ธ‰ ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์‚ฌ์šฉํ•˜์—ฌ ์ˆ˜ํ–‰๋จ

- Re-sampling์€ ๋ฐ์ดํ„ฐ์…‹์„ ์กฐ์ž‘ํ•˜์—ฌ ๊ท ํ˜• ์žกํžŒ ๋ถ„ํฌ๋ฅผ ๋งŒ๋“ค์–ด ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๋Š”๋ฐ ์‚ฌ์šฉ๋จ
- ์ฃผ์˜ํ•  ์ ์€ ๋ฆฌ์ƒ˜ํ”Œ๋ง์ด ํŠน์ • ๋ฐ”์ด์–ด์Šค๋‚˜ ์˜ค๋ฒ„ํ”ผํŒ… ๋ฌธ์ œ๋ฅผ ์œ ๋ฐœํ•  ์ˆ˜ ์žˆ์œผ๋ฏ€๋กœ ์ ์ ˆํ•œ ๋ฐฉ๋ฒ•๊ณผ ๊ฒ€์ฆ ๊ธฐ๋ฒ•์„ ์‚ฌ์šฉํ•ด์•ผ ํ•จ
- ๋ฆฌ์ƒ˜ํ”Œ๋ง์„ ํ†ตํ•ด ๋ถˆ๊ท ํ˜• ๋ฐ์ดํ„ฐ๋ฅผ ๋‹ค๋ฃจ๋ฉด ๋ชจ๋ธ์ด ๋Œ€ํ‘œ์ ์ด๊ณ  ๊ท ํ˜• ์žกํžŒ ๋ฐ์ดํ„ฐ์…‹์—์„œ ํ•™์Šตํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์†Œ์ˆ˜ ํด๋ž˜์Šค์˜ ์˜ˆ์ธก ์„ฑ๋Šฅ์ด ํ–ฅ์ƒ๋  ์ˆ˜ ์žˆ์Œ

 

 

2. ์žฌ๊ฐ€์ค‘์น˜

- ์žฌ๊ฐ€์ค‘์น˜ : ํด๋ž˜์Šค์˜ ๋ฐ์ดํ„ฐ ํฌ๊ธฐ์— ๋ฐ˜๋น„๋ก€ํ•˜๋Š” ๊ฐ€์ค‘์น˜๋ฅผ ์ ์šฉํ•˜๋Š” ๋ฐฉ๋ฒ•์ด๋ฉฐ, ์ค‘์š”์„ฑ์„ ๊ณ ๋ คํ•˜์—ฌ ์†์‹ค ํ•จ์ˆ˜๋‚˜ ์•Œ๊ณ ๋ฆฌ์ฆ˜์— ๊ฐ€์ค‘์น˜๋ฅผ ์ ์šฉํ•˜๋Š” ๋ฐฉ์‹์ž„
- ๋ถˆ๊ท ํ˜•ํ•œ ํด๋ž˜์Šค ๋ถ„ํฌ์—์„œ๋Š” ์†Œ์ˆ˜ ํด๋ž˜์Šค์— ๋†’์€ ๊ฐ€์ค‘์น˜๋ฅผ ๋ถ€์—ฌํ•˜์—ฌ ๋ชจ๋ธ์ด ์†Œ์ˆ˜ ํด๋ž˜์Šค์— ์ง‘์ค‘ํ•˜๋„๋ก ์œ ๋„ํ•  ์ˆ˜ ์žˆ์Œ
- ๊ฐ€์ค‘์น˜๋ฅผ ์กฐ์ •ํ•˜๋Š” ๋ฐฉ๋ฒ•์œผ๋กœ๋Š” ์†Œ์ˆ˜ ํด๋ž˜์Šค์˜ ์ƒ˜ํ”Œ ์ˆ˜์— ๋ฐ˜๋น„๋ก€ํ•˜๋Š” ๊ฐ€์ค‘์น˜๋ฅผ ํ• ๋‹นํ•˜๊ฑฐ๋‚˜, ํด๋ž˜์Šค ๋ถˆ๊ท ํ˜• ์ •๋„์— ๋”ฐ๋ผ ๊ฐ€์ค‘์น˜๋ฅผ ๋™์ ์œผ๋กœ ์กฐ์ •ํ•˜๋Š” ๋ฐฉ๋ฒ•์ด ์žˆ์Œ
- ์žฌ๊ฐ€์ค‘์น˜๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด ๋ชจ๋ธ์€ ์†Œ์ˆ˜ ํด๋ž˜์Šค์— ๋” ๊ด€์‹ฌ์„ ๊ฐ€์ง€๊ณ  ํ•™์Šตํ•˜๋ฉฐ, ์˜ˆ์ธก ์„ฑ๋Šฅ์„ ๊ฐœ์„ ํ•  ์ˆ˜ ์žˆ์Œ
- ์žฌ๊ฐ€์ค‘์น˜๋Š” ๋ถˆ๊ท ํ˜• ๋ฐ์ดํ„ฐ ํ•™์Šต์—์„œ ์œ ์šฉํ•˜๋ฉฐ, ์ ์ ˆํ•œ ๊ฐ€์ค‘์น˜ ์กฐ์ •์€ ๋ชจ๋ธ์˜ ํ•™์Šต์„ ํšจ๊ณผ์ ์œผ๋กœ ๋„์šธ ์ˆ˜ ์žˆ์Œ

 

3. ํด๋ž˜์Šค ๊ท ํ˜• ์†์‹ค ํ•จ์ˆ˜ (Class Loss Function)

- ํด๋ž˜์Šค ์†์‹ค ํ•จ์ˆ˜ : ๋ถˆ๊ท ํ˜• ๋ฐ์ดํ„ฐ ํ•™์Šต์—์„œ ์‚ฌ์šฉ๋˜๋Š” ์†์‹ค ํ•จ์ˆ˜๋กœ, ๋‹ค์ˆ˜ ํด๋ž˜์Šค์™€ ์†Œ์ˆ˜ ํด๋ž˜์Šค ๊ฐ„์˜ ๋ถˆ๊ท ํ˜•์„ ๊ณ ๋ คํ•˜์—ฌ ๋ชจ๋ธ์„ ํ•™์Šตํ•˜๋Š” ๋ฐ์— ์ ์šฉ๋จ.
- ์ฃผ๋กœ ํฌ๋กœ์Šค ์—”ํŠธ๋กœํ”ผ ์†์‹ค ํ•จ์ˆ˜๋‚˜ ํ‰๊ท  ์ œ๊ณฑ ์˜ค์ฐจ์™€ ๊ฐ™์€ ๊ธฐ๋ณธ์ ์ธ ์†์‹ค ํ•จ์ˆ˜๋ฅผ ์ˆ˜์ •ํ•˜๊ฑฐ๋‚˜ ํ™•์žฅํ•˜์—ฌ ์‚ฌ์šฉํ•จ
- ํด๋ž˜์Šค ์†์‹ค ํ•จ์ˆ˜์˜ ์„ค๊ณ„๋Š” ๋‹ค์–‘ํ•œ ๋ฐฉ์‹์œผ๋กœ ์ด๋ฃจ์–ด์ง€๋ฉฐ, ๊ฐ€์ค‘์น˜ ์กฐ์ •์ด๋‚˜ ์ƒ˜ํ”Œ ์žฌ๊ฐ€์ค‘์น˜ ๋“ฑ์„ ํ™œ์šฉํ•˜์—ฌ ์†Œ์ˆ˜ ํด๋ž˜์Šค์— ๋†’์€ ๊ฐ€์ค‘์น˜๋ฅผ ๋ถ€์—ฌํ•˜์—ฌ ๋ชจ๋ธ์ด ์†Œ์ˆ˜ ํด๋ž˜์Šค์— ์ง‘์ค‘์ ์œผ๋กœ ํ•™์Šตํ•˜๋„๋ก ์œ ๋„ํ•จ
- Focal Loss๋Š” ํด๋ž˜์Šค ๋ถˆ๊ท ํ˜•์„ ๊ณ ๋ คํ•œ ์†์‹ค ํ•จ์ˆ˜๋กœ, ๋ชจ๋ธ์ด ์–ด๋ ค์šด ์ƒ˜ํ”Œ์— ๋Œ€ํ•œ ์†์‹ค์„ ์ฆ๊ฐ€์‹œํ‚ค๊ณ  ์‰ฌ์šด ์ƒ˜ํ”Œ์— ๋Œ€ํ•œ ์†์‹ค์„ ์ค„์—ฌ ๋ชจ๋ธ์˜ ํ•™์Šต์„ ๊ฐœ์„ ํ•จ
- ์˜ฌ๋ฐ”๋ฅธ ํด๋ž˜์Šค ์†์‹ค ํ•จ์ˆ˜์˜ ์„ ํƒ๊ณผ ์„ค๊ณ„๋Š” ๋ถˆ๊ท ํ˜• ๋ฐ์ดํ„ฐ ํ•™์Šต์—์„œ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ์ค‘์š”ํ•œ ์š”์†Œ์ž„

 

4. ๋ฐ์ดํ„ฐ ์ฆ๊ฐ• ๊ธฐ๋ฒ• (Data Augmentation)

- ๋ฐ์ดํ„ฐ ์ฆ๊ฐ•(Data Augmentation) : ๋ถˆ๊ท ํ˜• ๋ฐ์ดํ„ฐ ํ•™์Šต์—์„œ ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ•˜๊ธฐ ์œ„ํ•ด ๋‹ค์–‘ํ•œ ๊ธฐ๋ฒ•์„ ์‚ฌ์šฉํ•˜๋Š” ๋ฐฉ๋ฒ•.
- ์ผ๋ฐ˜์ ์œผ๋กœ ์‚ฌ์šฉ๋˜๋Š” ๋ฐ์ดํ„ฐ ์ฆ๊ฐ• ๊ธฐ๋ฒ•์—๋Š” ๋’ค์ง‘๊ธฐ, ์ด๋™, ํฌ๊ธฐ ์กฐ์ •, ์ž๋ฅด๊ธฐ, ๋ถ™์ด๊ธฐ, ๋žœ๋ค ์ง€์šฐ๊ธฐ, ํšŒ์ „ ๋“ฑ์ด ์žˆ์Œ
- ๋ฏน์Šค์—… (Mixup) : ๋‘ ์ด๋ฏธ์ง€์˜ ํ”ฝ์…€ ๊ฐ’์˜ ๊ฐ€์ค‘ ํ•ฉ์„ ์ ์šฉํ•˜์—ฌ ์ƒˆ ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•˜๊ณ  ๊ฐ€์ค‘์น˜์— ๋”ฐ๋ผ ๋ ˆ์ด๋ธ”์„ ์ง€์ •ํ•˜๋Š” ๋ฐฉ์‹
- ๋งˆ์Šคํ‚น (Masking): ์ฃผํŒŒ์ˆ˜์™€ ์‹œ๊ฐ„์œผ๋กœ ๊ตฌ์„ฑ๋œ ์ŠคํŽ™ํŠธ๋กœ๊ทธ๋žจ ์ด๋ฏธ์ง€๋ฅผ ์ด์šฉ
       - Frequency Masking : ์ฃผํŒŒ์ˆ˜ ์ŠคํŽ™ํŠธ๋Ÿผ์—์„œ ์ผ๋ถ€ ๊ตฌ๊ฐ„์„ ์ œ๊ฑฐ
       - Time Masking : ์‹œ๊ฐ„ ์ถ•์—์„œ ์ผ๋ถ€ ๊ตฌ๊ฐ„์„ ์ œ๊ฑฐํ•˜์—ฌ ๋ชจ๋ธ์˜ ๊ฐ•์ธ์„ฑ์„ ํ–ฅ์ƒ์‹œํ‚ด.

 

- ๋กค๋ง (Rolling) : ์˜ค๋””์˜ค ์‹ ํ˜ธ์—์„œ ์ผ๋ถ€ ๊ตฌ๊ฐ„์„ ์„ ํƒํ•˜์—ฌ ์•ž๋’ค๋กœ ์ด๋™์‹œํ‚ค๋Š” ๊ธฐ์ˆ ๋กœ, ๋‹ค์–‘ํ•œ ์˜ค๋””์˜ค ์ฒ˜๋ฆฌ ๊ธฐ๋ฒ•์— ์ ์šฉ๋˜์–ด ๋ถ€๋“œ๋Ÿฌ์šด ์ „ํ™˜ํšจ๊ณผ๋ฅผ ์ ์šฉํ•  ์ˆ˜ ์žˆ์Œ

728x90

๊ด€๋ จ๊ธ€ ๋”๋ณด๊ธฐ