토론

실습 데이터 살펴보기에 달린 전체 댓글 · 질문

전체 16개

끈질긴 해결사2026년 3월 26일 12:39

글자를 숫자로 만든다고ㅋ 신기하네

진지한 철학자2026년 3월 13일 13:15

텍스트를 숫자로 변환한다는 것이 흥미롭습니다. 언어는 맥락과 뉘앙스를 품고 있는데, 그것을 수치 벡터로 환원하는 과정에서 의미의 상당 부분이 소실되지 않을까요. 인문학에서 텍스트 해석이 맥락 의존적이라고 강조하는 것과 대조적입니다

도전적인 개척자2026년 2월 17일 13:34

텍스트를 숫자로 변환해야 한다는 건 이해했는데요. 경제학에서 텍스트 마이닝을 많이 쓴다고 들었는데 이게 그 방식인건가요? 금융 뉴스 감성 분석 같은 데도 이 방법이 쓰이는 건지 궁금합니다

cell_020이 셀로 이동 →

끈질긴 해결사2026년 3월 26일 11:54

훈련 테스트 나눠쓰는 거 이해는 되는데, 보통 비율을 어떻게 정하는건지. 기준이 있는건지?

cell_045이 셀로 이동 →

창의적인 몽상가2026년 3월 25일 12:52

리뷰가 전부 숫자 행렬로 바뀐다는 게 신기한데, 이미지 파일이 픽셀 숫자 배열인 것처럼 텍스트도 결국 숫자로 변환되는 거군요. 디자이너로서 이 관점이 익숙하게 느껴졌어요

cell_016이 셀로 이동 →

창의적인 몽상가2026년 3월 25일 11:28

데이터 구조가 훈련·테스트로 나뉘어 있다는 게 디자인 에셋 폴더 구조랑 비슷하다는 생각이 들었어요. 용도별로 나눠서 관리하는 거잖아요

cell_058이 셀로 이동 →

빠릿한 치타2026년 3월 23일 12:36

max_features 기본값이 따로 있나요? 그냥 쓰면 어떻게 되는 건지

분석적인 과학자2026년 2월 1일 11:16

max_features로 단어 수 제한하면 속도는 빠른데, 도메인 특화 희귀 용어가 잘릴 수 있어요. 영어 리뷰라 그나마 괜찮은케이스긴 한데

cell_003이 셀로 이동 →

진지한 철학자2026년 3월 13일 11:41

"데이터로부터 학습한다"는 표현이 매우 흥미롭습니다. 인간의 학습도 경험으로부터 귀납적으로 이루어지는데, 기계의 이른바 '학습'이 이와 구조적으로 동일한 것인지 아니면 단지 유비(analogy)인지 묻지 않을 수 없습니다. 통계적 패턴 추출과 의미 이해 사이의 간극은 어디에 있는 걸까요

성실한 비버2026년 3월 6일 12:06

데이터로부터 학습한다는 게 처음엔 막연했는데, 실제 리뷰 데이터로 직접 해보는 방식이 훨씬 와닿네요. 이론만 나왔으면 벌써 포기했을 것 같아요

cell_047이 셀로 이동 →

성실한 비버2026년 3월 6일 13:20

(리뷰 수 × 단어 수) 행렬이라는 개념은 이해했는데, 실제 숫자로 보니까 규모가 상상 이상으로 크네요. 이 크기의 데이터를 컴퓨터가 처리할 수 있다는 게 신기해요

cell_065이 셀로 이동 →

유쾌한 수달2026년 2월 27일 14:30

데이터 전처리가 이렇게 많은 과정인 줄 몰랐어요 ㅠ

cell_011이 셀로 이동 →

유쾌한 수달2026년 2월 27일 13:48

Yelp 리뷰 데이터로 실습하는 거 재미있을것 같아요! 마케팅 수업에서 리뷰 데이터 분석 얘기 들었는데 이렇게 직접 다뤄보는 건 처음이라

cell_043이 셀로 이동 →

도전적인 개척자2026년 2월 17일 14:03

fit이랑 transform을 따로 하는 이유가 처음엔 헷갈렸는데, 훈련 데이터 기준으로 잡고 테스트엔 그 기준만 적용하는 거라는 게 이제 이해됩니다. 이 개념이 뒤에 나오는 데이터 누수 개념이랑 연결되는 거 맞죠?

cell_054이 셀로 이동 →

꼼꼼한 연구자2026년 2월 9일 12:30

저도 메모리 관련해서 같은 의문이 들었는데요. 읽어보니 0인 위치는 저장 안 하는 구조라서 실제론 생각보다 적게 드는 것 같더라고요. IT 인프라 담당 입장에서는 이런 데이터 구조 효율성이 꽤 중요한 부분이라

논리적인 탐험가2026년 2월 8일 11:16

카운트 벡터라이저 결과가 희소 행렬이라는 건 이해했는데, 단어 수가 수십만개 기준이면 어떡게 메모리를 감당하는 건지. 실무에서 이런 크기 다루는 방법이 따로 있는건가요?