위 코드는 vgg16의 아키텍처의 입력영상의 채널수가 6일 경우이다. 이렇게 하면 에러가 나지 않고 아키텍처가 생성된다. weights=None이라고 입력해주는 게 중요하다. 이 옵션을 넣지 않으면 에러가 발생한다. 대신 weights=None을 설정하면 imagenet에서 학습된 웨이트는 복사되지 않는다. 아래의 레이어 정보를 보면 입력영상의 채널이 6개이다. 0번 레이어만 shape이 (채널수가) 다르고 나머지 레이어는 원래 vgg16과 같은 shape의 레이어들이다.
resume_download_for_scamps SCAMPS (https://github.com/danmcduff/scampsdataset) consists of many video files. But download URL link does not provide resume download support. Our code is for downloading SCAMPS dataset using python and provides resume function.
I'm trying to do image classification with the Inception V3 model. DoesImageDataGeneratorfrom Keras create new images which are added onto my dataset? If I have 1000 images, will using this function double it to 2000 images which are used for training? Is there a way to know how many images were created and now fed into the model?
Short answer:1) All the original images are just transformed (i.e. rotation, zooming, etc.)every epochand then used for training, and 2) [Therefore] the number of images in each epoch is equal to the number of original images you have.
2020년 가을에 UMASS에서 개설된 Advanced NLP 강의입니다. 슬라이드/동영상 모두 제공됩니다.
강의 제목처럼 기본 NLP내용 외에 최신 내용들을 다루기 때문에 NLP에 대한 사전 지식이 필요한 강의입니다.
동영상 강의는 총 26시간 정도 분량입니다.
[video] https://www.youtube.com/playlist?list=PLWnsVgP6CzadmQX6qevbar3_vDBioWHJL [homepage] https://people.cs.umass.edu/~miyyer/cs685/schedule.html [schedule] Week 1: introduction, language models, representation learning Week 2: neural LMs, RNNs, backpropagation Week 3: Attention mechanisms Week 4: Transformers, transfer learning Week 5: BERT and how to use it for downstream tasks Week 6: further improving transfer learning in NLP Week 7: improving text generation Week 8: data augmentation and collection Week 9: model distillation and retrieval-augmented LMs Week 10: Transformer implementation, vision + language Week 11: Exam week! Week 12: Ethics and probe tasks Week 13: Semantic parsing and commonsense reasoning
특히 3Blue1Brown과 Seeing Theory 컨텐츠는 워낙 쉽게 잘 설명을 해놓았고, visulization이 좋아서 입문자에게 좋습니다.
1. Linear Algebra - 3Blue1Brown 채널 : https://www.youtube.com/playlist?list=PLZHQObOWTQDPD3MizzM2xVFitgF8hE_ab - MIT 강의 : https://ocw.mit.edu/courses/mathematics/18-06-linear-algebra-spring-2010/video-lectures/
2. Probability - Harvard 강의 : https://www.youtube.com/playlist?list=PL2SOU6wwxB0uwwH80KTQ6ht66KWxbzTIo - Seeing Theory : https://seeing-theory.brown.edu/index.html#firstPage
3. Calculus - 3Blue1Brown 채널 : https://www.youtube.com/playlist?list=PLZHQObOWTQDMsr9K-rj53DwVRMYO3t5Yr
4. Multivarate Calculus - Coursera 강의 : https://www.coursera.org/learn/multivariate-calculus-machine-learning
And the kernel size is a spatial parameter, i.e. detemines only width and height.
So an input withcchannels will yield an output withfilterschannels regardless of the value ofc. It must therefore apply 2D convolution with a spatialheight x widthfilter and then aggregate the results somehow for each learned filter.
What is this aggregation operator? is it a summation across channels? can I control it? I couldn't find any information on the Keras documentation.
From this page: "In the output volume, the d-th depth slice (of size W2×H2) is the result of performing a valid convolution of the d-th filter over the input volume with a stride of SS, and then offset by d-th bias. ". So I still don't follow how these convolutions of a volume with a 2D kernel turn into a 2D result. Is the depth dimension reduced by summation?– yokiApr 10 '17 at 6:53
1
"Example 1. For example, suppose that the input volume has size [32x32x3], (e.g. an RGB CIFAR-10 image). If the receptive field (or the filter size) is 5x5, then each neuron in the Conv Layer will have weights to a [5x5x3] region in the input volume, for a total of 5*5*3 = 75 weights (and +1 bias parameter). Notice that the extent of the connectivity along the depth axis must be 3, since this is the depth of the input volume." - I guess you are missing it's 3D kernel [width, height, depth]. So the result is summation across channels.– Nilesh BirariApr 10 '17 at 11:21
1
@Nilesh Birari , my question is exactly how to know what Keras is doing. I guess it's summation, but how can I know for sure?– yokiApr 10 '17 at 11:54
It might be confusing that it is calledConv2Dlayer (it was to me, which is why I came looking for this answer), because as Nilesh Birari commented:
I guess you are missing it's 3D kernel [width, height, depth]. So the result is summation across channels.
Perhaps the2Dstems from the fact that the kernel onlyslidesalong two dimensions, the third dimension is fixed and determined by the number of input channels (the input depth).
So do each channel of the filter have their own weights which can be optimized? Or do we just compute the weights for one channel and use that as values for the rest of the channels of the filter.– MoondraNov 20 '17 at 23:02
I think different kernels are used only for illustration. In Keras it may be implemented with same Kernel across channels.– Regi MathewMay 29 '19 at 6:29
I was also wondering this, and found another answerhere, where it is stated (emphasis mine):
Maybe the most tangible example of a multi-channel input is when you have a color image which has 3 RGB channels. Let's get it to a convolution layer with 3 input channels and 1 output channel. (...) What it does is that it calculates the convolution of each filter with its corresponding input channel (...). The stride of all channels are the same, so they output matrices with the same size. Now,it sums up all matrices and output a single matrix which is the only channelat the output of the convolution layer.
Illustration:
Notice that theweights of the convolution kernels for each channel are different, which are then iteratively adjusted in the back-propagation steps by e.g. gradient decent based algorithms such as stochastic gradient descent (SDG).
So, I am not the only one who started to wonder what's actually happening there and what does the underlying aggregation look like?– Stefan FalkJul 23 '20 at 14:01
I have recently started kearning CNN and I coukdnt understand that why are we using a 2D kernel like of shape (3x3) for a RGB data in place of a 3D kernel like of shape (3x3x3)?
Are we sharing the same kernel among all the channels because the data would look the same in all the channels?
-->
welcome to the community
I guess there's a confusion in your understanding of the kernel we use in case of rgb data. We normally use a kernel of equal number of channels as the input coming in (in this case as you mentioned it's RGB, so my number of channels for convolution operation would be 3). So instead of using a 3 X 3 Kernel, we use a 3 X 3 X 3 kernel. Weight matrix multiplication of kernel and image pixels happen channel-wise.
However, having said this, you can use a kernel of size 3 X 3 when input image is rgb, by specifying the stride as 1 in the third dimension. What this will do is convolute the kernel not only horizontally and vertically but also through the depth or specifically through the channels as well. I don't exactly know why one would like to do it.
Apart from this I guess the course or the video you are referring to might have specified '2D convolution on a 3D image'. That doesn't mean using a 2D kernel. And a 2D convolution on a 3D image uses a 3D kernel and after weight matrix multiplication you get a 2D image hence justifying the 2D convolution name.
딥러닝 기본과 NLP를 익히는데 도움이 될 만한 최신 (2020년 2021년) 동영상 강좌 13종입니다.
하나 하나 직접 들어본 분의 추천이니 관심 있으신 분들은 보시면 좋을 듯 합니다.
1. Deep Learning: CS 182 Spring 2021 Includes a great introduction to deep learning starting with the machine learning basics moving into more core topics like optimization. (by Sergey Levine)
2. Deep Learning (with PyTorch)
This is one of the most recent deep learning courses focusing on hot topics like self-supervised learning, transformers, and energy based models. (by Alfredo Canziani)
3. Deep Learning Crash Course 2021 This course is focused on the popular free book available on the d2l.ai website. If you have been studying the book, this set of lectures will come in handy. (by Alex Smola)
4. Natural Language Processing If you are not too familiar with natural language processing (NLP) concepts, this is a great place to start. It provides short and accessible summaries of some of the most important techniques used to solve NLP problems. (by Machine Learning University)
5. CMU Neural Nets for NLP 2021 This course covers topics related to how neural networks are used in natural language processing (NLP). (by Graham Neubig)
6. CS224N: Natural Language Processing with Deep Learning This has been one of the most popular NLP courses for some time now. It focuses on the use of the latest deep learning techniques applied to NLP problems. (by Chris Manning)
7. fast.ai Code-First Intro to Natural Language Processing The NLP courses above focus heavily on the theory. To get the practical side of NLP, this fast.ai course will be a great place to start. (by Rachel Thomas)
8. CMU Multilingual NLP 2020 Graham Neubig also provides another great course that focuses on multilingual NLP. Topics range from data annotation to code switching to low resource automatic speech recognition. (by Graham Neubig)
9. Deep Learning for Computer Vision 2020 This course focuses heavily on the latest techniques in deep learning for computer vision tasks. From attention mechanism to generative models. (by Justin Johnson)
10. Deep Reinforcement Learning: CS 285 Fall 2020 Focuses on the use of deep learning-based architectures for reinforcement learning problems. (by Sergey Levine)
11. Full Stack Deep Learning 2021 While most of the courses above focus heavily on theory, this course specifically focuses on the ecosystem of tools used to develop and deploy deep learning models. (by Josh Tobin, Pieter Abbeel, Sergey Karayev)
12. Practical Deep Learning for Coders This is another course by fast.ai focusing on a coder-first approach to deep learning. (by Jeremy Howard)
13. Applied ML This is an ongoing course teaching how to build a product grade product through ML techniques and tools. (by Made with ML)
안녕하세요! 이번에 끝난 캐글 대회 RANZCR CLiP - Catheter and Line Position Challenge 에서 11위/1547명 으로 솔로 금메달을 따게 되어서, 간단하게 대회 리뷰해보고자 글을 올리게 되었습니다 :) 1. 대회 소개 chest x-ray 이미지를 인풋으로 받아, 환자에게 삽입된 카테터(튜브)의 종류 및 올바른 위치에 삽입됐는지의 여부를 분류하는 multi-label classification 문제입니다. classification 레이블 뿐 아니라, 일부 이미지에 대해서는 카테터의 위치 정보가 주어졌습니다. (첨부한 두 번째 그림 참고 - 같은 색의 점들을 이으면 카테터의 위치가 됩니다.) 2. 솔루션 https://www.kaggle.com/c/ranzcr-clip-catheter-line-classification/discussion/226557 1) 고해상도를 어떻게 활용할 것인가? - Downconv 2048x2048 이상의 높은 해상도의 이미지가 주어졌습니다. 그러나 이 이미지를 바로 인풋으로 넣으면 GPU 메모리가 감당하지 못하고, 그렇다고 해서 작게 resizing해서 넣으면 정보를 잃어버립니다. Conv2d 레이어 하나를 이용해 2048->1024로 이미지를 변환하는 downconv를 도입해 이를 해결했습니다. avg pooling한 이미지를 이 downconv의 아웃풋과 concat해서 CNN의 인풋으로 넣었습니다. (첨부한 세 번째 그림 참고) 2) 카테터 위치 정보를 어떻게 활용할 것인가? - Pre-training 카테터 위치 정보는 단순 분류 레이블보다 공간적인 측면에서 훨씬 더 많은 정보를 가지고 있기 때문에 모델이 이를 활용할 수 있도록 하는 것이 중요했습니다. 따라서 저는 encoder에 추가적으로 classification head를 부착한 UNet 구조를 사용하였습니다. 카테터 위치 정보를 segmentation mask 형태로 전처리해, 이를 타겟으로 UNet을 학습시켰고, pre-trained UNet encoder를 가지고 classification 학습을 시켰습니다. (첨부한 첫 번째 그림 참고) 3) unlabeled data를 어떻게 활용할 것인가? - Pseudo-training 주어진 labaled 데이터셋 말고, 외부 x-ray 데이터셋들이 많이 존재합니다. 이런 데이터셋들은 카테터 레이블링이 되어있지 않습니다. 최근 unlabaled 데이터셋을 이용한 semi-supervised 및 self-supervised learning들이 제안되고 있습니다. 제 경우 pseudo-labeling 후 재학습시키는 방법(pseudo-training이라고 우선은 명명하겠습니다)이 효과를 발휘했습니다. (첨부한 네 번째 그림 참고) 3. 1위 솔루션 https://www.kaggle.com/c/ranzcr-clip-catheter-line-classification/discussion/226633 * 카테터 관련 마스크 3개 생성, 이를 예측하는 UNet 모델 여러개 학습 후 pseudo-training * 원래 이미지에 예측된 마스크 3개를 concat한 것을 인풋으로 사용하여 분류 모델 여러개 학습 후 pseudo-training * multi-label 중 적절한 경우 multi-class loss 적용 * segmentation 이미지 사이즈 > 1024, classification 이미지 사이즈: 384~512 (segmentation에서 훨씬 높은 이미지 해상도를 필요로 함을 알 수 있습니다.) 4. 느낀점 * 아이디어를 실험해볼 때, 세부 구현 방법에 따라 그 결과가 달라지는 경우가 있는 것 같습니다. * 고해상도, 큰 모델일수록 성능이 올라가는 이미지 대회는 특히 GPU/TPU장비가 중요한 것 같습니다. 4 x RTX3090 & 쓰레드리퍼3990x 서버를 제공해주시고, 대회 막판에 추가 서버들도 쓸 수 있게 해주신 Upstage 에 감사의 말씀 드립니다 :) * 여담으로, 이번 대회에서 실험한 로그들을 살펴보니, 280개의 실험을 했고, 60여개의 학습 옵션을 만들었고, 여러 실험들을 하는 데 사용된 학습시간은 총 1051시간이네요. 제가 아직 실력이 부족해서인지, 시행착오가 많았던 것 같습니다..ㅎㅎ 많이 부족한 글 읽어주셔서 감사합니다!
[ TF Everywhere 행사 영상 및 메이킹 영상 공유] 안녕하세요! 어제 날짜로 TF Everywhere 텐플마을에 오신것을 환영합니다 행사가 성공적으로 마무리 되었습니다. 와-아! 게더타운부터 유튜브 스트리밍까지 700🔥이 넘는 뷰를 달성하며 많은 분들께서 관심을 가져주셨는데요. 👾게더 타운에서 사과찾기, 9와 3/4 공간 찾기👾등 팝업이벤트도 너무 빠르게 성공 해주셔서 역시 개발자 컨퍼런스 답다~ 싶게 열정이 뿜뿜!! 저도 많이 배워간 행사였습니다. (본론) 유튜브 스트리밍으로 각 세션을 참관하셨지만 안타깝게 게더 타운 티켓을 겟하지 못하신 분들을 위해! 이 행사에 대해 짤막하게 메이킹 영상을 만들어보았습니다! 더불어 병렬적으로 진행된 네가지 세션에 대한 업로드 영상도 함께 공유하니 현장에서 멀티 세션을 모두 보지 못해 아쉬웠던 분들 역시 보시면 좋을 것 같네요 :)
모든 스피커분들 감사드리고, 행사에 큰 도움 주신 권순선, 김나연 님 너무 감사드립니다! 좋은 주말 되세요!
에서 'Rename file cusolver64_11.dll To cusolver64_10.dll '
2021-03-16 19:26:14.435563: I tensorflow/stream_executor/platform/default/dso_loader.cc:49] Successfully opened dynamic library cudart64_110.dll 2021-03-16 19:26:14.498628: I tensorflow/stream_executor/platform/default/dso_loader.cc:49] Successfully opened dynamic library cublas64_11.dll 2021-03-16 19:26:14.499003: I tensorflow/stream_executor/platform/default/dso_loader.cc:49] Successfully opened dynamic library cublasLt64_11.dll 2021-03-16 19:26:14.527712: I tensorflow/stream_executor/platform/default/dso_loader.cc:49] Successfully opened dynamic library cufft64_10.dll 2021-03-16 19:26:14.532245: I tensorflow/stream_executor/platform/default/dso_loader.cc:49] Successfully opened dynamic library curand64_10.dll 2021-03-16 19:26:14.535978: W tensorflow/stream_executor/platform/default/dso_loader.cc:60] Could not load dynamic library 'cusolver64_10.dll'; dlerror: cusolver64_10.dll not found 2021-03-16 19:26:14.585485: I tensorflow/stream_executor/platform/default/dso_loader.cc:49] Successfully opened dynamic library cusparse64_11.dll
ERROR: Could not install packages due to an EnvironmentError: [WinError 5] 액세스가 거부되었습니다: 'C:\ProgramData\Anaconda3\envs\venv20\Lib\site-packages\tensorflow\lite\experimental\microfrontend\python\ops\_audio_microfrontend_op.so'
Consider using the `--user` option or check the permissions.
https://www.myheritage.com/deep-nostalgia MyHeritage 라는 독일 회사에서 개발한 Deep Nostalgia 라는 엔진이라고 합니다 오래된 흑백 사진을 애니매이션화 해준다고 해서 예전에 뽑아본 blind face restoration 결과를 입력으로 넣어봤는데요. 완벽해 보이지는 않지만 흥미로운 결과들이 나오네요 :)
안녕하세요 캐글코리아!! 올해 1월부터 매달 열리는 playground 대회인 Tabular Playground Series - 2월 대회가 끝이 났습니다. 1433팀 중 6위를 해서 기쁜 마음에 공유해봅니다! (나름 한국 1등이네요 ㅎㅎ) 이 대회는 간단한 tabular data를 이용해서 예측하는 regression 문제입니다. 주로 LGBM같은 GBDT 모델들을 사용합니다. 저도 LGBM 모델을 사용했습니다. 높은 점수의 핵심은 semi-supervised learning의 일종인 pseudo labelling을 사용한 것이었습니다. test data를 최대한 잘 학습시킨 이후에, 그 학습시킨 데이터까지 포함하여 다시 train을 시키는 방법입니다. 보통 train data가 부족할 때 사용하지만 이 대회에서는 성능 향상에 매우 적합했습니다. 그래서 ensemble 없이 하나의 LGBM 모델만으로 높은 순위를 달성할 수 있었습니다. 제 코드입니다. https://www.kaggle.com/vkehfdl1/6th-place-solution-pseudo-labelling-lgbm 더불어서 이번 대회 1,2,3등은 DAE를 사용했습니다. DAE는 Denoising Auto Encoder로 노이즈를 포함한 feature를 반복적으로 학습시키는 것인데요. 이 auto encoder 뉴럴 넷의 hidden layer의 weight들을 feature로 사용하는 방식입니다. Tabular data에서는 보통 GBDT 모델이 성능이 잘 나오는데, 이 DAE 방식으로 활용으로 도저히 GBDT 모델로는 상상도 못하는 성능이 나오더라고요. 1위 분의 코드와 설명을 보며 저도 열심히 공부 중입니다. 한국 캐글러 분들 항상 응원합니다! 더 노력하는 캐글러가 되어야 겠습니다.
축하드려요! 참고로 1등은 DAE를 사용했는데, 2등은 보통 GBM+NN 앙상블을 사용했습니다. Bojan이 자신의 8등 솔루션을 공유하면서 1/2/3등이 DAE를 사용했을 것이다...라고 언급을 했었는데, 실제 2등인 Dave E (지난 1월 TPS 4등)이 자신은 DAE 사용할 시간이 없었다고 했죠. DAE가 두 달 연속 TPS 대회에서 1등을 한 것을 보니 다음 대회에서는 DAE 기반 솔루션이 많이 나올 것으로 보입니다. 다음 달에도 좋은 성적 거두시길 바랍니다!
#kerasexamples #모든예제 https://keras.io/examples/ 에 가보니 정말 많은 예제들이 만들어져 있네요. Knowledge Distillation 그리고 최근에 나온 VIT, Switch Transformer까지 있네요. (며칠전에 허깅페이스에서 switch transfoemer 구현해달라는 issue를 본듯한데요. 3번째 이미지). 이 예제들은 한번씩 읽어 보시기에 너무 좋을듯 합니다.
https://youtu.be/Y2K13XDqwiM 을 보니 이런 코드를 하나씩 골라서 설명을 하는데 저희 TF-KR 의 PR12 처럼 10여명 함께 팀으로 KR12 (Keras example Reading) 만들어서 예제 하나씩 설명해보고 또 이 예제를 어디 사용할수 있는지 응용한두게 찾아서 적용해보는것을 해볼까요? 요즈음 AI교육을 많이 하시던데 좋은 교제일듯 합니다.
KR12 관심있으신분들 아래 댓글로 남겨주시면 teaming 해서 PR12처럼 KR12 한번 달려보도록 하겠습니다. (12분이 Zoom으로 모여서 한주에 예제 2~3개 설명하고 토론하고 그 영상을 공개하는 모임입니다.)
The best machine learning course I have worked on till now is the Andrew Ng's machine learning course in Coursera. You will find the link to the working examples of almost all the machine learning method of his course in this article. It's a free machine learning course. #machinelearning #datascience #python
[ TF Everywhere 행사 영상 및 메이킹 영상 공유] 안녕하세요! 어제 날짜로 TF Everywhere 텐플마을에 오신것을 환영합니다 행사가 성공적으로 마무리 되었습니다. 와-아! 게더타운부터 유튜브 스트리밍까지 700🔥이 넘는 뷰를 달성하며 많은 분들께서 관심을 가져주셨는데요. 👾게더 타운에서 사과찾기, 9와 3/4 공간 찾기👾등 팝업이벤트도 너무 빠르게 성공 해주셔서 역시 개발자 컨퍼런스 답다~ 싶게 열정이 뿜뿜!! 저도 많이 배워간 행사였습니다. (본론) 유튜브 스트리밍으로 각 세션을 참관하셨지만 안타깝게 게더 타운 티켓을 겟하지 못하신 분들을 위해! 이 행사에 대해 짤막하게 메이킹 영상을 만들어보았습니다! 더불어 병렬적으로 진행된 네가지 세션에 대한 업로드 영상도 함께 공유하니 현장에서 멀티 세션을 모두 보지 못해 아쉬웠던 분들 역시 보시면 좋을 것 같네요 :)
모든 스피커분들 감사드리고, 행사에 큰 도움 주신 권순선, 김나연 님 너무 감사드립니다! 좋은 주말 되세요!
안녕하세요! 카사바 잎 질병 분류 대회(Cassava Leaf Disease Classification Competition)가 끝나고 개인적으로 코드 정리하고 있는데 같이 공유하면 좋을 것 같아 영상을 제작하고 있습니다. (Pytorch로 작성하고 있지만 도움이 되는 부분들이 있을 것 같아 염치불구하고 공유드립니다.ㅎㅎ)
영상에서는 학습(Training) 파이프라인과 추론(Inference)에 대한 내용을 주로 다룹니다. 비어있는 코드를 처음부터 하나하나 채워가는 형식으로 만들고 있어서 공부하고 싶으신 분들에게 도움이 되지 않을까 합니다! (고수 분들은 재미가 없으실 겁니다.ㅎㅎ) 파이프라인 작성이 끝나면, 최근에 핫한 Vision Transformer (ViT) 사용법과 대회에서 공유된 상위권 솔루션들도 가볍게 이야기를 해볼까 하는데, 관심 있으신 분들에게 도움이 되길 바랍니다! Intro https://www.youtube.com/watch?v=7wdqASYZBls&t=5s 개요 및 데이터 설명 https://www.youtube.com/watch?v=pWhA7V0L1SE 데이터 로드 및 기본 설정 https://www.youtube.com/watch?v=wp3cUKEM5Xk&t=1065s Cross-Validation (CV) Split https://www.youtube.com/watch?v=pWhA7V0L1SE 이후 추가 예정! p.s. 영상 제작이 처음이라 부족한 점이 많네요. orz
요즘 컴퓨터 비전계를 뜨겁게 달구고 있는 모델이 있습니다. 바로 자연어 처리에서 이제는 대세로 자리잡은 Transformer 입니다. 지금까지는 거의 모든 모델이 Convolutional Neural Network 기반의 Architecture가 주를 이뤘는데 작년부터 점점 성능 격차가 줄어들기 시작하면서 빠르게 성장하고 있어서 최근 저도 Transformer 기반 연구들을 공부하고 있는데요,
보통 낯선 분야에 대해 공부를 할때 저는 잘 정리가 된 Survey Paper를 하나 잡아서 진득하게 파는 편입니다. 운 좋게도 올해 1월에 "Transformers in Vision: A Survey"라는 제목의 Survey 논문이 공개되어서 이를 읽고 차근 차근 정리해보았습니다.
논문 링크: https://arxiv.org/abs/2101.01169 블로그 글: https://hoya012.github.io/blog/Vision-Transformer-1/
논문 자체의 분량이 많아서 한편에 정리하려다 여러 편으로 나누게 되었으며, 이번 편에서는 Transformer에 대해 간략하게 정리하고, CNN과 대비해서 어떠한 장,단점을 갖는지 살펴본 뒤, Image Classification에 Self-Attention과 Transformer가 적용된 주요 연구들을 정리했습니다. 공부하시는데 도움이 되었으면 좋겠습니다.
P. S. 이번 글을 작성하면서 공부하는데 PR-12 스터디의 발표 영상들이 큰 도움이 되었는데요, 현재 PR-12 스터디 신규 인원 모집 중이니 많은 관심 부탁드립니다!
Poor smartphone photo scans are really annoying and these researchers finally figured out how to fix the quality! (Checkout code implementation inside link) https://www.catalyzex.com/paper/arxiv:2102.06120
👇 Free extension to get code for ML papers (❤️' by Andrew Ng) Chrome: https://chrome.google.com/webstore/detail/find-code-for-research-pa/aikkeehnlfpamidigaffhfmgbkdeheil Firefox: https://addons.mozilla.org/en-US/firefox/addon/code-finder-catalyzex
Finally a dataset for virtual hair editing and hairstyle classification! https://www.catalyzex.com/paper/arxiv:2102.06288
👇 Free extension to get code for ML papers (❤️' by Andrew Ng) Chrome: https://chrome.google.com/webstore/detail/find-code-for-research-pa/aikkeehnlfpamidigaffhfmgbkdeheil Firefox: https://addons.mozilla.org/en-US/firefox/addon/code-finder-catalyzex
State of the art in image manipulation (stylegan) https://www.catalyzex.com/paper/arxiv:2102.02766
👇 Free extension to get code for ML papers (❤️' by Andrew Ng) Chrome: https://chrome.google.com/webstore/detail/find-code-for-research-pa/aikkeehnlfpamidigaffhfmgbkdeheil Firefox: https://addons.mozilla.org/en-US/firefox/addon/code-finder-catalyzex
안녕하세요! 질문이 있습니다. 노트북 쓰다보면 패키지를 인스톨해서 쓰는 경우가 있는데, 매번 패키지를 인스톨하는걸 피할 수 있는 방법이 있나요?
예를들어 현재 작업하고 있는 노트북에 설치된 패키지들을 저장해서 다음 새로운 노트북을 열었을때 똑같은 환경이 열리도록 만드는 방법을 알고 싶습니다!
Issac Lee 캐글 노트북에서 !wget 깃헙에있는파일주소 하시면 되는데요. https://towardsdatascience.com/4-awesome-ways-of-loading-ml-data-in-google-colab-9a5264c61966 여기서 2번 하시면 똑같이 돼요.
그러니까 깃헙에 관련 패키지 인스톨 파일을 .py형태로 잘 정리해서 올리시고, 그 url을 가져오셔서 캐글노트북에 저 블로그 2번처럼 하시면 완성!