본문 바로가기
728x90
반응형

컴퓨터비전 기초논문3

Classification - GoogLeNet(2014) GoogleNetinception modules 내부를 포함한 모든 Convolution Layer는 ReLU를 사용함Network의 receptive field는 224 x 224로 RGB Channel의 평균으로 subtraction함3 x 3 reduce와 5 x 5 reduce는 3 x 3 및 5 x 5 convolution 이전에 사용 된 reduction layer의 filter수를 나타냄Maxpooling 후 projection layer에서 1 x 1 filter 수를 볼 수 있음network 내부의 Computing resources 개선Depth와 Width를 계산량을 유지하면서 늘리는 것이 목표Multi-scale processing과 Hebbian principle 구조를 기초로함G.. 2024. 8. 22.
Classification - AlexNet(2012) 1. AlexNet (2012년) - ImageNet Classification with Deep Convolutional Neural NetworksCNN 모델ReLU 사용CNN모델의 전통방법인 f(x) = |tanh(x)| 이 아닌 ReLU를 사용훈련시간이 빨라졌을 뿐 아니라, 과대적합을 방지하는데 매우 효과적ReLU는 saturating(기울기가 0에 수렴)을 막기위해 입력을 정규화할 필요가 없음Overlapping pooling풀링계층은 같은 커널맵내의 인접한 뉴런들을 압축하여 출력을 내보냄'Overlapping Pooling'은 z x z 크기의 풀링 윈도우를 사용하여 풀링을 수행그런데 여기서 s(풀링의 stride, 즉 풀링 윈도우가 얼마나 많이 움직이는지를 결정하는 값)가 z보다 작음예를 들.. 2024. 8. 12.
CV기본 영상 및 이미지 기초 이미지와 영상의 기본 개념이미지 : 픽셀로 이루어진 2차원 배열RGB 이미지의 경우, 세 개의 채널(R, G, B)을 가짐영상 : 시간에 따라 변화하는 이미지의 연속프레임 단위로 처리 데이터 전처리Normalization(정규화) : 픽셀 값을 0-1 범위로 조정Augmentation(증강) : 데이터를 다양하게 변형하여 학습 데이터를 늘림회전, 자르기, 색상변화 등 컨볼루션 층필터(Filter)와 커널(Kernel)필터(또는 커널) : 작은 크기의 행렬로, 일반적으로 3 x 3, 5 x 5, 7 x 7 크기를 가짐필터는 이미지의 일부 영역을 스캔하면서 점곱 연산을 수행하여 결과를 생성스트라이드필터가 이미지 위를 이동하는 단계의 크기스트라이드가 1이면 필터가 한 칸씩 이동, 스트라이.. 2024. 7. 19.
728x90
반응형