'분류 전체보기'에 해당되는 글 1027건

  1. 2020.07.13 State of the art in single image super resolution! For project and code/API/exp
  2. 2020.07.10 Latest from Purdue and Chicago researchers: Low-Power Object Counting! For proj
  3. 2020.07.09 오늘은 논문대신 프로젝트를 하나 짧게 소개드립니다. 회사에서 OCR엔진을 만들기에는 너무 인력이 많이 필요하고 클라우드 OCR를 쓰기엔 제약이
  4. 2020.07.08 Latest from Adobe and UC Berkeley researchers: State of the art in deep image ma
  5. 2020.07.08 Deep single image manipulation using conditional adversarial generators! For pro
  6. 2020.07.08 Amazon에서 MXNet 기반으로 작성한 유명한 텍스트북 Dive Into Deep Learning 에 PyTorch 버전의 코드들이 수록된
  7. 2020.07.07 PyTorch3D 입문 강좌(영어) PyTorch3D를 간략하게 소개하는 영상입니다. PyTorch3D는 올해 2월에 3차원 대상을 다루기
  8. 2020.07.07 Using [#ComputerVision](https://twitter.com/hashtag/ComputerVision?src=hashtag_c
  9. 2020.07.06 Deep Learning with Keras Series By Ali Masri 1. Deep Learning with Keras Tutoria
  10. 2020.07.03 안녕하세요 lidar slam 공부중인 김기섭입니다. LeGO-LOAM 저자의 신작이 공개되었습니다 늘 코드와 데이터를 공개해줘서 공부에
  11. 2020.06.30 오늘 많은 분들이 공유해주신 @Sebastian Raschka 님의 80여개가 넘는 기본 뉴럴넷과 CNN, RNN, GNN들 멋진 모델을 보고
  12. 2020.06.30 안녕하세요, cognex deep learning lab의 이호성입니다. PyTorch를 사용하여 실험 코드를 작성하고 돌려서 결과를 얻는데
  13. 2020.06.29 오늘 소개드릴 논문은 볼수록 여러 BIZ에 적용할 만한 사업 아이디어가 많이 떠올랐던 재미있는 논문이었습니다. [동영상1]은 드라마에서 캡쳐한
  14. 2020.06.26 #tensorflow2.0 #machinelearning 텐서플로우 2.0 free course 를 소개 드립니다. https://www 1
  15. 2020.06.24 【자기주도온라인평생학습 】기초 탈출 파이썬 판다스(Python Pandas) 무료 온라인 강의 리스트 – 8개 교육과정 컴퓨터 프로그래밍에서
  16. 2020.06.22 #3분슬램 안녕하세요, lidar slam 공부중인 김기섭입니다. SLAM을 몰라도 한번 돌려보면 재밌어진다! 라고 평소에 생각하는데요.
  17. 2020.06.22 안녕하세요 PR12에 새로 합류한 이윤성이라고 합니다. 지난 주 제가 발표했던 PR254 -SFNet: Learning Object-awar
  18. 2020.06.22 여러분, 안녕하세요. 간만에 인사드립니다. 아실 만한 분들은 아시겠지만 ratsgo라는 필명으로 블로그를 운영하고 있는 이기창이라고 합니다. s
  19. 2020.06.22 #3분슬램 안녕하세요 좋은 일요일입니다! visual slam 에서 현재 가장 큰 축으로 ORB-SLAM 와 DSO가 있는데요, DSO
  20. 2020.06.19 [YouTube channel: Yannic Klicher] 연구자 분들께 유용할 것 같은 유튜브 채널을 하나 공유합니다. Yannic Klic
  21. 2020.06.17 A Neural Rendering Framework for Free-Viewpoint Relighting 중국 상하이에서 나온 뉴럴 렌더링 논
  22. 2020.06.17 Faces à la Carte: Text-to-Face Generation via Attribute Disentanglement 얼굴을 묘사한
  23. 2020.06.17 #CVPR2020 딥러닝 기반의 피쳐 추출 알고리즘인 Superpoint와 딥러닝 기반의 대응점 탐색 알고리즘인 Superglue를 소개하
  24. 2020.06.15 안녕하세요 FAIR에서 일하고 있는 주한별입니다. 이번에 CVPR oral에 발표될 PIFuHD라는 논문을 소개해드립니다. 이미지 한장으로 사람
  25. 2020.06.15 Latest from Microsoft researchers: Recovering the 3D geometry of human head from
  26. 2020.06.15 Interesting Research!!! S2IGAN — Speech-to-Image Generation via Adversarial Lea
  27. 2020.06.15 TF와 keras를 통해 supervised learning을 해보고있는 머린이입니다. 혹시 A라벨의 데이터와 B라벨의 데이터로 학습을 시킨다
  28. 2020.06.15 이미지 classification를 수행하는 네트워크의 최신 동향은 어떻게 되나요? 이미지 Detection관련 네트워크나 기술 설명은 많이
  29. 2020.06.12 텐서플로 코리아 친구들, GitHub를 탐색하다가 우연찮게 Aymeric Damien 라는 사람의 깃허브에서 보석을 발견했습니다 :) 머신러닝
  30. 2020.06.12 From SIGGRAPH 2020: Method reconstructs the geometry of complex 3D thin structur

State of the art in single image super resolution!

For project and code/API/expert requests: https://www.catalyzex.com/paper/arxiv:2007.04344

Excessive amounts of convolutions and parameters usually consume high computational cost and more memory storage for training a Super Resolution model, which limits their applications to Super Resolution with resource constrained devices in real world. To resolve these problems, researchers propose a lightweight enhanced Super Resolution convolutional neural network

Posted by uniqueone
,

Latest from Purdue and Chicago researchers: Low-Power Object Counting!
For project and code/API/dataset requests: https://www.catalyzex.com/paper/arxiv:2007.01369
By using a few small DNNs to process each image, this method reduces the memory requirement, inference time, energy consumption, and number of operations with negligible accuracy loss when compared with the existing object counters.

Posted by uniqueone
,


https://www.facebook.com/groups/KerasKorea/permalink/3716139575068647/

이상훈

오늘은 논문대신 프로젝트를 하나 짧게 소개드립니다. 회사에서 OCR엔진을 만들기에는 너무 인력이 많이 필요하고 클라우드 OCR를 쓰기엔 제약이 있거나 공짜로 쓰고 싶을때 도움이 될만한 OCR 오

www.facebook.com



오늘은 논문대신 프로젝트를 하나 짧게 소개드립니다.

회사에서 OCR엔진을 만들기에는 너무 인력이 많이 필요하고 클라우드 OCR를 쓰기엔 제약이 있거나 공짜로 쓰고 싶을때 도움이 될만한 OCR 오픈소스입니다. (https://github.com/JaidedAI/EasyOCR)

아쉽게도 TF는 아니고 Pytorch로 되어있지만 딥러닝은 아예 몰라도되고 Python만 학생수준으로 쓸 수 있으면 전혀 상관없습니다.

이제는 많은 모델들이 나와서 상대적으로 인기가 식었지만 예전에 OCR 오픈소스로 항상 거론되던 구글이 후원한 Tesseract보다 더 높은 정확도를 보이고 다양한 언어를 제공합니다. 물론 Tesseract도 최근에는 LSTM을 도입하는 등 다양한 시도를 하고 있습니다.

EasyOCR은 네이버의 CRAFT를 Detection 모델로 사용하고 있고 CRNN을 기반으로 Recognition을 합니다.(Restnet-LSTM-CTC) 그리고 오타보정을 위한 greedy, beamsearch, wordbeamsearch도 옵션으로 제공합니다.

또한, 특이하게도 한국어, 중국어, 태국어 등을 지원하고 프리트레이닝 모델도 같이 제공합니다. 사용법도 매우 간단해서 모델개념을 알 필요 없이 자동으로 다운받아서 수행합니다. 랭귀지 모델도 업데이트를 예고하고 있고 지속적으로 업그레이드 예정이라 OCR을 심플하게 비즈니스에 적용하기에 좋은(특히 무료고 기반지식이 전무해도 되니) 오픈소스로 보입니다.

Posted by uniqueone
,

Latest from Adobe and UC Berkeley researchers: State of the art in deep image manipulation.
For project and code/API/dataset requests: https://www.catalyzex.com/paper/arxiv:2007.00653
The key idea is to encode an image into two independent components and enforce that any swapped combination maps to a realistic image.

Posted by uniqueone
,

Deep single image manipulation using conditional adversarial generators!
For project and code/API/dataset requests: https://www.catalyzex.com/paper/arxiv:2007.01289
Their network learns to map between a primitive representation of the image (e.g. edges) to the image itself. At manipulation time, their generator allows for making general image changes by modifying the primitive input representation and mapping it through the network.

Posted by uniqueone
,

Amazon에서 MXNet 기반으로 작성한 유명한 텍스트북 Dive Into Deep Learning 에 PyTorch 버전의 코드들이 수록된 것이 얼마 지나지 않아서, 이번에는 TensorFlow 버전의 코드들이 빠르게 추가되고 있습니다.

오늘부로 7장까지의 내용에 대하여 TensorFlow 코드가 수록되었다는 소식입니다. 따라서, MXNet 을 제외하고, PyTorch 기반으로 작성된 부분까지를 TensorFlow로 동일하게 커버하게 된 것이군요.

7장까지의 내용이 아주 Advanced 된 것은 아니지만, 기본을 다지는데는 좋은 내용으로 구성된 것으로 보여집니다. 대충 보자면 아래와 같은 챕터로 구성되어 있군요
Introduction
Preliminaries
Linear Neural Network
Multilayer Perceptrons
Deep Learning Computation
Convolutional Neural Networks
Modern Convolutional Neural Networks

8장부터 후반부의 내용은 RNN을 포함하여, Attention, BERT 등을 포함한 NLP 모델에 대한 내용과 최적화 알고리즘, GAN 등 다른분야 및 좀 더 심화된 내용이 포함됩니다.

이 정도 속도로 추가된다고 볼 때, 연말 내로는 MXNet / PyTorch / TensorFlow 메인스트림 프레임워크를 모두 커버하는 최초의 책이 탄생하지 않을까 기대해 봅니다.

책 사이트: http://d2l.ai/index.html


좋은 정보 감사합니다! 이 책 번역본도 워낙 유명해서 아실텐데요!
https://ko.d2l.ai/

Posted by uniqueone
,

PyTorch3D 입문 강좌(영어)

PyTorch3D를 간략하게 소개하는 영상입니다.

PyTorch3D는 올해 2월에 3차원 대상을 다루기 위한 PyTorch의 공식 라이브러리로 발표되었지요.

PyTorch3D 공식홈 https://pytorch3d.org/

https://www.youtube.com/watch?v=Pph1r-x9nyY

Posted by uniqueone
,

https://www.facebook.com/groups/computervisionandimageprocessing/permalink/3083736145029353/

Using [#ComputerVision](https://twitter.com/hashtag/ComputerVision?src=hashtag_click) to control a teddy [#robot](https://twitter.com/hashtag/robot?src=hashtag_click) avatar

[#AI](https://twitter.com/hashtag/AI?src=hashtag_click) [#Robotics](https://twitter.com/hashtag/Robotics?src=hashtag_click) [#ML](https://twitter.com/hashtag/ML?src=hashtag_click) [#MachineLearning](https://twitter.com/hashtag/MachineLearning?src=hashtag_click)

Posted by uniqueone
,

Deep Learning with Keras Series By Ali Masri
1. Deep Learning with Keras Tutorial https://www.marktechpost.com/2019/06/11/deep-learning-with-keras-tutorial-part-1/
2. Data Pre-processing for Deep Learning models https://www.marktechpost.com/2019/06/14/data-pre-processing-for-deep-learning-models-deep-learning-with-keras-part-2/
3. Regression with Keras https://www.marktechpost.com/2019/06/17/regression-with-keras-deep-learning-with-keras-part-3/
4. Classification https://www.marktechpost.com/2019/06/24/deep-learning-with-keras-part-4-classification/
5. Convolutional Neural Networks https://www.marktechpost.com/2019/07/04/deep-learning-with-keras-part-5-convolutional-neural-networks/
6. Textual Data Preprocessing https://www.marktechpost.com/2019/09/13/deep-learning-with-keras-part-6-textual-data-preprocessing/
7. Recurrent Neural Networks https://www.marktechpost.com/2019/10/01/deep-learning-with-keras-part-7-recurrent-neural-networks/

Posted by uniqueone
,

안녕하세요 lidar slam 공부중인 김기섭입니다.

LeGO-LOAM 저자의 신작이 공개되었습니다

늘 코드와 데이터를 공개해줘서 공부에 큰 도움이 되는 분입니다 ㅎㅎ

IROS 2020 이라고 합니다. MIT에 포닥간 동안 한거같네요

LOAM + IMU + GPS 다섞고

실전 라이다 매핑용 논문인듯합니다

실험이 엄청 많네요

논문: https://arxiv.org/abs/2007.00258

코드: https://github.com/TixiaoShan/LIO-SAM

동영상: https://www.youtube.com/watch?v=A0H8CoORZJU&t=245s

감사합니다

Posted by uniqueone
,

오늘 많은 분들이 공유해주신 @Sebastian Raschka 님의 80여개가 넘는 기본 뉴럴넷과 CNN, RNN, GNN들 멋진 모델을 보고 놀랐는데요. 딥러닝 입문에 너무 좋을듯 하여 여기 모델 구조와 tensor shape을 뿌려주는 hiddenlayer 모듈을 사용하여 그림을 추가 해보았습니다.

Fork한 https://github.com/DeepSE/deeplearning-models/ 에 *Colab with Model Graph* 라는 링크가 있으면 모델 그래프를 추가한 것입니다.

아래 첨부한 그림처럼 구조를 한눈에 볼수 있습니다.

일부만 추가 했는데 나머지는 천천히 생각날때 하나씩 해보도록 하겠습니다. PR을 주셔도 좋습니다.

대략 기본적인 모델은 그래프를 넣어 보았는데요. 아직 attention 관련 transformer 관련 모델은 없는데 이런 부분 원 repos https://github.com/rasbt/deeplearning-models 에 PR보내 주시면 좋아 하실듯 합니다.

Posted by uniqueone
,

안녕하세요, cognex deep learning lab의 이호성입니다.

PyTorch를 사용하여 실험 코드를 작성하고 돌려서 결과를 얻는데, 매번 같은 코드를 돌려도 다른 실험 결과가 나오는 것을 다들 경험해보셨을 텐데요,

아무리 random seed를 고정해도 학습 결과가 달라져서, 이 부분을 한번 파봤습니다. PyTorch의 공식 문서(https://pytorch.org/docs/stable/notes/randomness.html)와 PyTorch의 Issue를 기반으로 한번 CIFAR-10 ResNet에 대해 실험을 해보고, 이를 글로 작성하여 정리하였습니다.

블로그 글: https://hoya012.github.io/blog/reproducible_pytorch/
실험 코드(colab): https://colab.research.google.com/drive/1zoEgSwQ40uXBys83X7ajW2oInve91S4w?usp=sharing

저는 torch.manual_seed 와 numpy.random.seed 정도만 사용했었는데 고려해야할 것들이 더 많은 점에 놀랐습니다. ㅎㅎ 공부하시는데 도움이 되었으면 좋겠습니다. 감사합니다!

Posted by uniqueone
,

오늘 소개드릴 논문은 볼수록 여러 BIZ에 적용할 만한 사업 아이디어가 많이 떠올랐던 재미있는 논문이었습니다.
[동영상1]은 드라마에서 캡쳐한 '김치싸대기'를 100번 반복해놓은 영상( https://www.youtube.com/watch?v=1fdtnml--Nc )이 정말 100번 반복을 잘했는지 확인해본 영상이고 정말 100번이 맞았습니다. 물론 직접 카운트 한 것이 아니라 아래 소개드릴 논문을 기반으로 한 코드가 카운트 해주었습니다.(참고로 영상의 숫자는 원본에 없었고 프로그램으로 넣었습니다.)

Counting Out Time: Class Agnostic Video Repetition Counting in the Wild (CVPR 2020)
심장박동, 스쿼트, 지구 자전, 공장제조라인, 연탄나르기, 교통 등의 공통점은 특정 행동이나 현상이 반복적으로 발생한 다는 것입니다.
이러한 현상이 얼마나 자주 어떻게 발생하는지 자동으로 분석할 수 있으면 여러가지 분야에서(공장, CCTV, 헬스케어 등) 활용할 수 있을 것입니다.
문제는 이런 반복현상(action unit)이 아주 똑같이 반복한다면 template 기반으로 쉽게 구현할 수 있을것 같은데 조명, 불필요한 움직임, 변화하는 속도 등 여러 noise에 의해서 난이도가 매우 높아집니다. 이러한 문제를 해결하기 위해서 DeepMind에서 새로운 논문을 냈습니다.
이 논문은 반복적으로 도구를 사용하는 사람, 날개를 펄럭이는 새, 진자 등의 다양한 분야의 반복적인 행위를 캐치할 수 있는 RepNet를 제시합니다.
RepNet architecture
논문을 보기전에 Periodicity Estimation, Temporal Self-similarity Matrix 두 가지에 대해서는 미리 보시면 좋을 것 같습니다.
RepNet은 첫 번째 그림과 같이 하나의 비디오로부터 이미지를 뽑아내고 각 이미지에 대하여 self-similarity를 구한 후 반복의 주기와 길이를 예측 후 반복 장면을 Count를 하는 논문입니다.
[그림2]을 보시면 각 단계에 대해서 자세히 나와있습니다. 우선 Video 파일을 encoder를 거쳐서 각 프레임을 임베딩합니다. 그 다음 Temporal Self_simliarity Matrix를 구하게 되는데 이 simiarity는 각 장면을 가로와 세로로 배치한 후 유사도를 구합니다. 그럼 같은 프레임끼리는 일치하게되므로 대각선으로 노란선이 명확히 생길 것이고 중요하게 봐야할 부분이 그 옆에 노란+초록색 대각선들입니다. [그림1]에서 처럼 이렇게 반복되는 것의 길이를 구할 수 있고 그 카운트도 셀 수 있습니다. 물론 네모 외곽들이 흐린 이유는 반복의 시작과 마지막 부분이라 겹치는 부분이 적어서 입니다.
여기까지는 이전에도 유사한 시도들은 많았지만 [그림3]의 c-d와 같이 속도가 변화하거나 2가지 동작이 섞여 있을때 자동으로 인지하는 것은 어렵습니다. 그래서 Prediod Predictor 부분을 TSM을 업샘플링하여 2D 라인을 32채널로 만들고 (64*32) 각 단계를 Transformer를 통해 Preriod Length Predictor와 Periodicity Predictor로 보내서 최종 loss를 최적화하는 쪽으로 트레이닝을 시켰습니다.
트레이닝을 위해서 오픈된 데이터셋과 임의의 반복 영상을 넣고 Camera Motion Augment도 사용했습니다.
One Model, Many Domains and applications
예전에 일반적인 비전 모델들과 달리 이 모델은 Repetition Counting, Periodicity Detection, Change Inspection, Speed Change Detection, Cross-Period Retrieval 영역에서 모두 활용 할 수 있습니다. 여기서 좀 더 소설을 써보자면 Repetition Counting와 Speed Change Detection을 통해 집에서 카메라로 AI로 부터 PT를 받거나("푸쉬업 30번중에 15번 남았습니다. 속도가 점점 떨어지니 다음 rep은 20번만 하겠습니다."와 같은 것을 스스로 측정 후 가이드), Change Inspection를 이용해서 특정 공정중에 발생하는 예상치못한 문제 확인 등을 해볼 수 있지 않을까 합니다.
그래서 아래 첨부한 영상외에 여러가지를 테스트 해보았는데 추후 이 팀에서 나오는 논문이 매우 기대됩니다. 참고로 작년에 나온 Temporal Cycle-Consistency Learning(CVPR 2019)도 재미있게 봤었는데 올해는 단일 비디오에서 더 다양한 영역이 가능하다는 점에서 많은 발전이 있었습니다.

Posted by uniqueone
,

#tensorflow2.0 #machinelearning


텐서플로우 2.0 free course 를 소개 드립니다.

https://www.freecodecamp.org/news/massive-tensorflow-2-0-free-course/

Posted by uniqueone
,

【자기주도온라인평생학습 】기초 탈출 파이썬 판다스(Python Pandas) 무료 온라인 강의 리스트 – 8개 교육과정

컴퓨터 프로그래밍에서 pandas는 데이터 조작 및 분석을 위해 Python 프로그래밍 언어로 작성된 소프트웨어 라이브러리입니다. 특히, 숫자 테이블 및 시계열 조작을위한 데이터 구조 및 조작을 제공합니다. 3 절 BSD 라이센스에 따라 공개 된 무료 소프트웨어입니다. 위키백과(영어)

Pandas 튜토리얼 1 – 데이콘 (YouTube)
: http://bitly.kr/gxleF15yLk

Pandas 팬더스 강의 기초 실습 – Minsuk Heo 허민석 (YouTube)
: http://bitly.kr/CUDIQ7q3z0E

토크ON 44차. Pandas로 하는 시계열 데이터분석 | T아카데미 – SKplanet Tacademy (YouTube)
: http://bitly.kr/Pjg0hLuDTJ

파이썬 판다스로 데이터 분석하고 엑셀로 뽑기 – Kyeongrok Kim (YouTube)
: http://bitly.kr/tzB9dPbQOJB

데이터분석/판다스 강의 – NeoWizard (YouTube)
: http://bitly.kr/EIPbWyAadFK

Python을 활용한 데이터분석 기초 | T아카데미 – SKplanet Tacademy (YouTube)
: http://bitly.kr/XXjLP2C0n6

판다스 – Sungchul Lee (YouTube)
: http://bitly.kr/aPAoUoVOPg

빅데이터 프로그래밍 - 건국대학교 이정환교수 (KOCW)
: http://bitly.kr/tmI1VuiDMA

출처 : http://bitly.kr/XMGZ6Ntol3

【자기주도온라인평생학습】 http://withmooc.com/courses/

Posted by uniqueone
,

#3분슬램

안녕하세요, lidar slam 공부중인 김기섭입니다.

SLAM을 몰라도 한번 돌려보면 재밌어진다! 라고 평소에 생각하는데요.

3분이면 (녹화하는데는 16분 걸렸지만...)

따라해볼수 있는 A-LOAM 실습 영상을 찍어보았습니다.

https://youtu.be/Ea2sDqXf6ZY

특히 A-LOAM 원래 깃헙 리포에서는 velodyen lidar 에 대해서만 launch 파일이 준비되어 있어서

다른 lidar 에 대해 사용하고 싶을 때 어떻게 해야하는지 다뤄보았습니다.

MulRan dataset 에 있는 Ouster lidar 에 대해 사용해보았습니다.

이상입니다!

Posted by uniqueone
,

안녕하세요

PR12에 새로 합류한 이윤성이라고 합니다.

지난 주 제가 발표했던 PR254 -SFNet: Learning Object-aware Semantic Correspondence 영상을 유튜브에 업로드 하여 공유드립니다.

이번 발표는 SIFT, HOG 같은 알고리즘으로 알려진 Dense Correspondence Task의 Deep Learning 이후 연구들에 대하여 다루며, 작년 CVPR Oral 페이퍼였던 SFNet에 집중하였습니다.


Posted by uniqueone
,

여러분, 안녕하세요. 간만에 인사드립니다. 아실 만한 분들은 아시겠지만 ratsgo라는 필명으로 블로그를 운영하고 있는 이기창이라고 합니다. speechbook이라는 페이지를 여러분들께 소개해 드리려고 이 야심한 시각에 키보드를 두드립니다.

지난 6개월동안 회사에서 Spoken Language Understanding이라는 태스크를 수행하고 있었습니다. 음성 입력이 주어졌을 때 해당 음성의 의도(intent)를 분류(classification)하는 모델을 구축하는 작업입니다.

음성에는 문외한이라 공부하면서 모델 만들고 모델 만들다 막히면 다시 공부하고 그런 과정을 겪었습니다. 맨땅에 헤딩하듯이 시행착오를 겪다보니 어느덧 6개월이라는 시간이 지나있더군요.

공부하면서 느낀 것인데요. 음성 인식 내지 음성 신호 처리와 관련한 한국어 자료가 정말 없더라고요. 주변 분들을 많이 괴롭히는 방식으로 지적 목마름을 채웠습니다(다시 한번 여러분들께, 특히 모두의연구소 음성 풀잎스쿨 분들께 감사를!).

그래서 다짐했습니다. 많이 부족하지만 음성 인식 관련한 한국어 자료를 만들어보자고요. 이 결심에는 오픈소스 생태계의 힘을 빌려보자는 알량한 생각도 좀 있었습니다. 제가 먼저 스타트를 끊으면 무림고수 분들이 누더기 같은 자료의 질을 높여줄 것이라는 기대 말이죠.

컨텐츠를 만들고 공유하는 방식에 대한 고민도 좀 있었습니다. 기존 ratsgo 블로그는 아티클 단위의 소비가 이뤄지고 있습니다. 특정 키워드 검색으로 인입된 트래픽이 해당 아티클만 보고 떠나는 경향이 있습니다.

ratsgo 블로그 독자 가운데는 "블로그 공부 순서를 알려주셨으면 좋겠다"고 하시는 분들도 있습니다. 하지만 기존 블로그는 처음부터 아티클 단위로 기획된 블로그이기 때문에 순서를 정해 알려드리기가 쉽지 않더라고요. 음악 앨범이나 신문 지면이 그렇게 하고 있는 것처럼 아티클 배치 순서나 아티클과 아티클 사이 공백을 채워야겠다는 생각이 들었습니다.

썰이 길었는데요. speechbook은 이러한 배경에서 탄생한 페이지입니다. '음성 인식 관련 한국어 자료' 컨셉으로 만들었고요. Hidden Markov Model 같은 기존 음성 인식 시스템 관련한 내용은 스탠포드 대학의 'Speech and Language Processing'을 중심으로 정리했습니다. 딥러닝 계열 모델들은 최신 논문을 많이 포함했습니다. 목차대로 읽으면 이해가 될 수 있도록 목차와 아티클 배치에 신경을 썼습니다.

많이 부족하지만 speechbook을 여러분들께 소개드리는 이유는 한국어 ML 컨텐츠가 좀 더 많이 유통되었으면 바람에서입니다. 질문이나 의견, 오류 신고 등을 격하게 환영합니다. 기존 블로그와 달리 본문/목차의 수정/보완/삭제/추가 관련 Pull Request를 적극적으로 받고자 합니다. 모든 페이지에 의견을 남길 수 있으며 모두 github issue와 연동됩니다.

무림고수 분들께서 도와주시면 좀 더 양질의 지식을 많은 분들께 공유할 수 있지 않을까 싶습니다. 그만큼 우리 지식의 수준이 높아질 것이라 기대합니다. 그럼 앞으로 잘 부탁드리겠습니다.

Posted by uniqueone
,

https://m.youtube.com/watch?feature=youtu.be&v=YPkSXTaGACA


#3분슬램

안녕하세요 좋은 일요일입니다!

visual slam 에서 현재 가장 큰 축으로 ORB-SLAM 와 DSO가 있는데요,

DSO 를 ros 에 물리는 과정이 리드미에서 크게 친절하지 않아서

한번 영상으로 찍어보았습니다.

https://youtu.be/YPkSXTaGACA

사실 돌려보는데 3분보다는 오래 걸리지만...

그만큼 쉽게 DSO도 한번 돌려보시면

SLAM이 재밌어질거라 믿습니다 !

감사합니다

Posted by uniqueone
,

[YouTube channel: Yannic Klicher]
연구자 분들께 유용할 것 같은 유튜브 채널을 하나 공유합니다. Yannic Klicher 의 채널인데요, 이미 많은 분들이 구독하고 계실 것 같습니다.
주로 딥러닝 최신 논문들에 대한 리뷰가 올라오는 채널입니다. 기존에는 몇 주에 하나씩 동영상을 올리다가, 약 2달 전부터 (트위터에서) 큰 주목을 받은 논문이 공개되면 하루도 지나지 않아 바로 리뷰 비디오를 업로드하는 엄청난 속도를 보여주고 있습니다. 더불어서 구독자 수도 빠르게 증가하고 있습니다.
사실 논문 리뷰 컨텐츠를 올리는 채널은 Yannic 이외에도 많지만, 개인적으로 차별화된다고 생각하는 점이 몇 가지 있습니다.
디테일한 부분은 넘기고 메인 아이디어에 대해서 바로 설명을 합니다. 별도의 프레젠테이션 자료 준비 없이 논문 위에서 필기를 하며 설명을 하는데, 많은 연구자들이 논문을 처음 스킴하는 방식과 비슷해서 쉽게 논문의 핵심을 이해할 수 있습니다.
다양한 분야를 다루면서도 배경 및 메인 아이디어에 대한 이해도가 깊습니다. 논문의 주장 외에도 자신이 생각한 약점 등에 대해 코멘트를 해 주기 때문에 영상을 보는 사람은 여기에 대해서 또 생각해 보면서 능동적으로 논문을 읽을 수 있습니다.
논문 리뷰속도가 굉장히 빠르고, 영상 업데이트 주기도 갈수록 빨라지고 있습니다.
개인적으로 지금까지 봤던 딥러닝 관련 채널들 중에서 가장 마음에 듭니다. 앞으로도 지속적인 활동을 해 주면 좋겠네요 :)
YouTube: youtube.com/c/yannickilcher
Twitter: twitter.com/ykilcher

Posted by uniqueone
,

A Neural Rendering Framework for Free-Viewpoint Relighting

중국 상하이에서 나온 뉴럴 렌더링 논문입니다.

여러 뷰에서 잡은 이미지로 학습하면 임의의 뷰에서 본 렌더링 영상을 조명상태까지 바꾸면서 생성할 수 있답니다.

PyTorch로 구현한 소스코드도 깃허브에 함께 공개되었네요. 요즘 연구분야의 인공지능 프레임웍은 PyTorch가 완전 대세인 듯합니다.

논문
pdf: [https://arxiv.org/pdf/1911.11530.pdf](https://l.facebook.com/l.php?u=https%3A%2F%2Farxiv.org%2Fpdf%2F1911.11530.pdf%3Ffbclid%3DIwAR204MKI_b3-LADBmc6-sFA648X8s-1DE96uboQQrU-4AB-9FQ52P17LRRA&h=AT2Iky7XUG6KjOxvcofYIJQCGp4bhx1x2OqPbYx5Kre8YQTvEEcYNaEcqqGTIRwiZkACVc26Ds9LpJZASUxSweh8sxWdsfZ-Rpn2R7rH9vsneHd7UZgaPHaNUgMtLAMI5EyfLFpYeQA5KyZigpdS5DyvWmQw2ZOnFH_J)
abs: [https://arxiv.org/abs/1911.11530](https://l.facebook.com/l.php?u=https%3A%2F%2Farxiv.org%2Fabs%2F1911.11530%3Ffbclid%3DIwAR2IbAM_XVMoTd_GHUxoUwx4q__ECjW14lTC0VfA1AbVGL3PAWdp1ZEEmWk&h=AT1Unl6kuXEO2NGD7DG7pBJS_B-vfjYTVGXIk3xlbtWBFLeSJY5aYf1N4S9tjoNIOTntmWl4ZZCRYKxqW7ZKcIoXzBobCRuweSP6hh5NYAqrrazoPUp-6uBSN2AGuJWW49I05Gman77rR5dOd8OMUxxOZ086Jfm8MXo8)

PyTorch 소스코드
github: [https://github.com/LansburyCH/relightable-nr](https://l.facebook.com/l.php?u=https%3A%2F%2Fgithub.com%2FLansburyCH%2Frelightable-nr%3Ffbclid%3DIwAR3N9jfs1VAEnO75j4P7mhT0xCLF2m5Mag4TwU2jWAJPfcsU6dj4g23Um90&h=AT0dlocS6x5AzhZUs9jZ9Rk19ojKxI9WnTLJrOEETBcieZurG04t4b40wgLZhLpPrQaQSPqK96Zdn6ILlpuTw30tkjvFMt58YThbTUirytLUkjXUpLK2Pbex7SvCwDiyjioazp5TjtvRT0-UvQGRUCFjh5toM_SC-Hmw)

Posted by uniqueone
,

Faces à la Carte: Text-to-Face Generation via Attribute Disentanglement

얼굴을 묘사한 텍스트를 입력받아 얼굴 이미지를 생성하는 신경망입니다.

이름하여 TTF(Text To Face)라는 흥미로운 연구네요.

pdf: https://arxiv.org/pdf/2006.07606.pdf
abs: https://arxiv.org/abs/2006.07606

Posted by uniqueone
,

#CVPR2020

딥러닝 기반의 피쳐 추출 알고리즘인 Superpoint와

딥러닝 기반의 대응점 탐색 알고리즘인 Superglue를 소개하고 있습니다 ㅎ

Visual SLAM 분야에도 딥러닝이 많이 활용되고 놀랍도록 좋은 결과를 보이고 있네요 ㅎ

Posted by uniqueone
,

안녕하세요 FAIR에서 일하고 있는 주한별입니다. 이번에 CVPR oral에 발표될 PIFuHD라는 논문을 소개해드립니다. 이미지 한장으로 사람의 3D를 복원하는 연구인데, 제가 진행해봤던 연구중에 결과가 가장 신기(?)했던 연구라서 shamelessly 공유합니다. 뒷모습도 복원이 됩니다. 공유하는 동영상은 각 frame을 따로 processing한 결과입니다.

Paper: https://arxiv.org/pdf/2004.00452.pdf

Code: https://github.com/facebookresearch/pifuhd

Project page: https://shunsukesaito.github.io/PIFuHD/

Colab demo: https://colab.research.google.com/drive/11z58bl3meSzo6kFqkahMa35G5jmh2Wgt

Colab demo를 통해 직접 사진을 업로드 하고 3D복원 결과를 볼수 있습니다. 혹시 재미있는 결과를 얻으셨다면 FB이나 Twitter로 공유해주시면 (#pifuhd) 다음 연구진행할때 적극 참고하겠습니다...!

Posted by uniqueone
,

Latest from Microsoft researchers: Recovering the 3D geometry of human head from a single portrait image

For project and code/API/expert requests: https://www.catalyzex.com/paper/arxiv:2004.11598

method is learned in an unsupervised manner without any ground-truth 3D data.

Posted by uniqueone
,

Interesting Research!!!
S2IGAN — Speech-to-Image Generation via Adversarial Learning

Authors present a framework that translates speech to images bypassing text information, thus allowing unwritten languages to potentially benefit from this technology.

ArXiV: https://arxiv.org/abs/2005.06968
Project: https://xinshengwang.github.io/project/s2igan/

Posted by uniqueone
,

TF와 keras를 통해 supervised learning을 해보고있는 머린이입니다.

혹시 A라벨의 데이터와 B라벨의 데이터로 학습을 시킨다음 두 라벨의 데이가 아닌 C라벨의 데이터를 넣으면 A또는 B가 아님! 으로 만들수있는 방법이 존재할까요?

예를들어 개 / 고양이를 판단할 수 있게 학습된 네트워크에 개미를 집어넣으면 개/고양이가 아닌 무언가 라고 판단을 시키고싶습니다.!


헉.. 제 레포를 추천해주셔서 감사합니다!! 위에 적어주신 내용이 딱 Out-of-distribution detection 문제이며, 이 문제에 대해 자세히 정리한 글이 있는데, 이 글을 참고하시면 좋을 것 같습니다.

https://hoya012.github.io/blog/anomaly-detection-overview-2/

Posted by uniqueone
,

이미지 classification를 수행하는 네트워크의 최신 동향은 어떻게 되나요?

이미지 Detection관련 네트워크나 기술 설명은 많이 나오는데 분류 문제는 잘 연구가 안되고(=끝났는지) 있는지 정보가 별로 없네요.

추천할만한 또는 최근에 나온 이미지 분류 네트워크 아시면 알려 주세요.


EfficientNet이 최근 연구중에 가장 괄목할만한 성능을 보여주었고, 그 뒤로 RegNet, TResNet 등 간헐적으로 architecture 연구가 진행이 되고 있는데, 이제 거의 끝물인것 같네요. 성능을 올리기 위해 architecture를 쥐어짜내는 시기는 지난 것 같고, 이제는 어떻게 대용량의 데이터를 잘 처리할지, 어떻게 무수히 많은 unlabeled 데이터셋을 활용하여 성능을 높일지 등을 풀고 있다고 보면 될 것 같습니다.

Posted by uniqueone
,

텐서플로 코리아 친구들, GitHub를 탐색하다가 우연찮게 Aymeric Damien 라는 사람의 깃허브에서 보석을 발견했습니다 :) 머신러닝 초보 개발자를 위해 직접 실습해 볼 수 있는 예제들을 발견하게 되었는데, 이를 간단히 블로그로 정리해 보았습니다.

텐서플로2 개발자라면, [https://brunch.co.kr/@synabreu/78](https://brunch.co.kr/@synabreu/78)

텐서플로1 개발자라면, [https://brunch.co.kr/@synabreu/79](https://brunch.co.kr/@synabreu/79)

보시고 따라해 보시면 됩니다.

참고로 아나콘다에서 텐서플로 1.X 또는 2.X 설치하고 가상환경 실행 환경법 부터 "Hello, World" 부터 기본 선형 회귀 분석과 로지스틱 분석, K-Means 및 Nearest Neighbor, Random Forest, GBDT 알고리즘과 Word2Vec 모델을 작성해 볼 수 있습니다.

Posted by uniqueone
,

From SIGGRAPH 2020: Method reconstructs the geometry of complex 3D thin structures in high quality from a color video captured by a handheld camera

For project and code/API/expert request: [https://www.catalyzex.com/paper/arxiv:2005.03372](https://www.catalyzex.com/paper/arxiv:2005.03372)

Method achieves accurate camera pose estimation and faithful reconstruction of 3D thin structures with complex shape and topology at a level that has not been attained by other existing reconstruction methods.

Posted by uniqueone
,