'Deep Learning'에 해당되는 글 593건

  1. 2020.06.15 TF와 keras를 통해 supervised learning을 해보고있는 머린이입니다. 혹시 A라벨의 데이터와 B라벨의 데이터로 학습을 시킨다
  2. 2020.06.15 이미지 classification를 수행하는 네트워크의 최신 동향은 어떻게 되나요? 이미지 Detection관련 네트워크나 기술 설명은 많이
  3. 2020.06.12 텐서플로 코리아 친구들, GitHub를 탐색하다가 우연찮게 Aymeric Damien 라는 사람의 깃허브에서 보석을 발견했습니다 :) 머신러닝
  4. 2020.06.12 From SIGGRAPH 2020: Method reconstructs the geometry of complex 3D thin structur
  5. 2020.06.11 Reconstruct 3D human body shapes based on a sparse set of RGBD frames using a si
  6. 2020.06.09 Recapture your portrait photos with desired posture/view, figure, and clothing s
  7. 2020.06.05 https://lambdalabs.com (한국에 판매를 하는지는 모르겠지만..) 이 사이트에서 여러가지 구성 만들어보고 대략적인 가격도 확인
  8. 2020.06.04 Latest from Samsung researchers: State of the art in photo editing (Harmonizatio
  9. 2020.06.04 DeepFaceDrawing: Deep Generation of Face Images from Sketches Paper: http://geom
  10. 2020.06.03 היי חברים, אני מעביר הרצאות בנושא של מידול תלת מימדי מתמונה בעזרת רשתות ניורנים.
  11. 2020.06.03 Hi, I was told that pytorch is for research purpose and tensorflow for developme
  12. 2020.06.03 Latest from Apple researchers: Deep learning approach for driving animated faces
  13. 2020.05.31 Extracting editable 3D objects directly from a single photograph. For project an
  14. 2020.05.31 [오픈소스+젯슨보드] AIoT: 생각에 대한 인공 지능 #PyTorch #JetsonNano #Autoencoder #kmeans #ml #뇌
  15. 2020.05.29 From Adobe researchers: State of the art in High-Resolution Image Inpainting For
  16. 2020.05.26 Kaggle 얘기가 나와서 캐글러 두 분의 글 읽어보시길 추천드립니다. Ask Me Anything session with a Kaggle G
  17. 2020.05.22 Semantic Segmentation from Image Labels For project and code or API request: htt
  18. 2020.05.21 전 세계 100만 명 참여한 ‘캐글’ 대회… 국내 단 3명뿐인 그랜드마스터를 달성하다, AI팀 김상훈(이베이코리아 AI팀 김상훈 매니저 / 이베
  19. 2020.05.20 We've just open-sourced our implementation of TransformerTTS 🤖💬: a Text-to-Spe
  20. 2020.05.20 Adversarial Colorization of Icons Based on Structure and Color ConditionsAuthors: Tsai-Ho Sun, Chien-Hsun Lai, Sai-Keung Wong, and Yu-Shuen WangAbstract: We present a system to help #designers create icons that are widely used in banners, signboards, bi..
  21. 2020.05.18 My Shortlist of AI & ML Stuff: Books, Courses and More
  22. 2020.05.18 Separate a target speaker's speech from a mixture of two speakers For project
  23. 2020.05.15 State of the art in lane detection! For project and code or API request: [https:
  24. 2020.05.15 NVIDIA Research Unveils Flowtron, an Expressive and Natural Speech Synthesis Mod
  25. 2020.05.15 LandCover.ai: Dataset for Automatic Mapping of Buildings, Woodlands and Water fr
  26. 2020.05.15 오늘 소개드릴 논문은 흥미로운 응용사례와 같이 설명드리겠습니다. 최근에 보고있는 논문들이 ICLR이나 CVPR 최근 논문 + 실사례 적용을 하는
  27. 2020.05.12 Latest from MIT researchers: A new methodology for lidar super-resolution with g
  28. 2020.05.12 AWS, Facebook, Microsoft가 캐글 역사상 총상금 규모 세 번째인 100만 달러(약 12억원)를 걸고 개최한 DFDC(Deepf
  29. 2020.05.12 자기주도온라인학습센터 신규 강의 목록(2020.05.11) - 연구데이터분석 – R실습 (E-Koreatech) : http://bitly.k
  30. 2020.05.07 Great dataset recently released for the autonomous vehicle industry: Audi Autono

TF와 keras를 통해 supervised learning을 해보고있는 머린이입니다.

혹시 A라벨의 데이터와 B라벨의 데이터로 학습을 시킨다음 두 라벨의 데이가 아닌 C라벨의 데이터를 넣으면 A또는 B가 아님! 으로 만들수있는 방법이 존재할까요?

예를들어 개 / 고양이를 판단할 수 있게 학습된 네트워크에 개미를 집어넣으면 개/고양이가 아닌 무언가 라고 판단을 시키고싶습니다.!


헉.. 제 레포를 추천해주셔서 감사합니다!! 위에 적어주신 내용이 딱 Out-of-distribution detection 문제이며, 이 문제에 대해 자세히 정리한 글이 있는데, 이 글을 참고하시면 좋을 것 같습니다.

https://hoya012.github.io/blog/anomaly-detection-overview-2/

Posted by uniqueone
,

이미지 classification를 수행하는 네트워크의 최신 동향은 어떻게 되나요?

이미지 Detection관련 네트워크나 기술 설명은 많이 나오는데 분류 문제는 잘 연구가 안되고(=끝났는지) 있는지 정보가 별로 없네요.

추천할만한 또는 최근에 나온 이미지 분류 네트워크 아시면 알려 주세요.


EfficientNet이 최근 연구중에 가장 괄목할만한 성능을 보여주었고, 그 뒤로 RegNet, TResNet 등 간헐적으로 architecture 연구가 진행이 되고 있는데, 이제 거의 끝물인것 같네요. 성능을 올리기 위해 architecture를 쥐어짜내는 시기는 지난 것 같고, 이제는 어떻게 대용량의 데이터를 잘 처리할지, 어떻게 무수히 많은 unlabeled 데이터셋을 활용하여 성능을 높일지 등을 풀고 있다고 보면 될 것 같습니다.

Posted by uniqueone
,

텐서플로 코리아 친구들, GitHub를 탐색하다가 우연찮게 Aymeric Damien 라는 사람의 깃허브에서 보석을 발견했습니다 :) 머신러닝 초보 개발자를 위해 직접 실습해 볼 수 있는 예제들을 발견하게 되었는데, 이를 간단히 블로그로 정리해 보았습니다.

텐서플로2 개발자라면, [https://brunch.co.kr/@synabreu/78](https://brunch.co.kr/@synabreu/78)

텐서플로1 개발자라면, [https://brunch.co.kr/@synabreu/79](https://brunch.co.kr/@synabreu/79)

보시고 따라해 보시면 됩니다.

참고로 아나콘다에서 텐서플로 1.X 또는 2.X 설치하고 가상환경 실행 환경법 부터 "Hello, World" 부터 기본 선형 회귀 분석과 로지스틱 분석, K-Means 및 Nearest Neighbor, Random Forest, GBDT 알고리즘과 Word2Vec 모델을 작성해 볼 수 있습니다.

Posted by uniqueone
,

From SIGGRAPH 2020: Method reconstructs the geometry of complex 3D thin structures in high quality from a color video captured by a handheld camera

For project and code/API/expert request: [https://www.catalyzex.com/paper/arxiv:2005.03372](https://www.catalyzex.com/paper/arxiv:2005.03372)

Method achieves accurate camera pose estimation and faithful reconstruction of 3D thin structures with complex shape and topology at a level that has not been attained by other existing reconstruction methods.

Posted by uniqueone
,

Reconstruct 3D human body shapes based on a sparse set of RGBD frames using a single RGBD camera

For project or code/API/expert requests: https://www.catalyzex.com/paper/arxiv:2006.03630

Empirical evaluations on synthetic and real datasets demonstrate both quantitatively and qualitatively the superior performance of our framework in reconstructing complete 3D human models with high fidelity.

Posted by uniqueone
,

Recapture your portrait photos with desired posture/view, figure, and clothing style!

For project and API or code request: https://www.catalyzex.com/paper/arxiv:2006.01435

It can properly infer invisible body parts and clothes in original portraits, e.g. the lower body, and meanwhile guarantee global coherency of different regions in recaptured portraits.

Posted by uniqueone
,

https://www.facebook.com/groups/TensorFlowKR/permalink/1215140582160331/

곽영철

텐서플로우 코리아 분들 안녕하세요! 이번에 딥러닝 컴퓨터 셋업 구축을 하는데 여러분들의 도움을 얻고 싶습니다. 약 5천만원 가량의 셋업을 연구실에서 구축하려고 하는데, 이 정도 규모의 셋

www.facebook.com

텐서플로우 코리아 분들 안녕하세요!

이번에 딥러닝 컴퓨터 셋업 구축을 하는데 여러분들의 도움을 얻고 싶습니다.
약 5천만원 가량의 셋업을 연구실에서 구축하려고 하는데, 이 정도 규모의 셋업을 어떻게 구축해야 할 지 조언을 주시면 감사하겠습니다!

https://lambdalabs.com

(한국에 판매를 하는지는 모르겠지만..) 이 사이트에서 여러가지 구성 만들어보고 대략적인 가격도 확인할 수 있습니다.

사실 네 분이 각자 데스크탑급 GPU 4장 정도를 탑재한 컴퓨터를 사셔도 되는 예산이긴 한데, 한 대를 사셔야 한다면 테슬라 4개나 타이탄RTX 8개로 구성하실 수 있을 것 같습니다.



Posted by uniqueone
,

Latest from Samsung researchers: State of the art in photo editing (Harmonization)

For project and code or API request: https://www.catalyzex.com/paper/arxiv:2006.00809

They create the models as a combination of existing encoder-decoder architectures and a pre-trained foreground-aware deep high-resolution network.

Posted by uniqueone
,

DeepFaceDrawing: Deep Generation of Face Images from Sketches
Paper: http://geometrylearning.com/paper/DeepFaceDrawing.pdf
Video: https://www.youtube.com/watch?v=HSunooUTwKs

Posted by uniqueone
,

היי חברים,
אני מעביר הרצאות בנושא של מידול תלת מימדי מתמונה בעזרת רשתות ניורנים. בשבועות האחרונים התחלתי להעביר את זה בזום והייתה היענות גבוה (בעיקר מהקהילה החדשה שנוצרה לנו ברדיט https://www.reddit.com/r/2D3DAI/ ), לכן החלטתי לפתוח עוד 4 הרצאות השבוע, המעוניינים מוזמנים להצטרף:

(technical) - June 5th 09:30
https://www.reddit.com/r/2D3DAI/comments/gu06j6/from_2d_to_3d_using_artificial_intelligence_east/

(technical) - June 5th 20:30
https://www.reddit.com/r/2D3DAI/comments/gu097x/from_2d_to_3d_using_artificial_intelligence_west/

(semi-technical) - June 4th 09:30
https://www.reddit.com/r/2D3DAI/comments/gu072a/from_2d_to_3d_using_artificial_intelligence_east/

(semi-technical) - June 4th 20:30
https://www.reddit.com/r/2D3DAI/comments/gu07uq/from_2d_to_3d_using_artificial_intelligence_west/

הרצאות technical דורשות היכרות בסיסית עם רשתות ניורנוים CNN, ResNet. הsemi-technical זה תוכן דומה עם הקדמה על מה זה CNN וResNet וקצת פחות צלילה לפרטים.
כל ההרצאות יהיו באנגלית.

Posted by uniqueone
,

https://www.facebook.com/groups/ComputerVisionGroup/permalink/2045159488961575/

John Pokhrel

Hi, I was told that pytorch is for research purpose and tensorflow for development. Need some clarrification because I have seen people using pytorch too in development. Can't we do all tasks in...

www.facebook.com


Hi,
I was told that pytorch is for research purpose and tensorflow for development. Need some clarrification because I have seen people using pytorch too in development. Can't we do all tasks in pytorch which can be done in tensorflow? Give your views

When it comes to deployment in embedded devices, you need to convert pytorch model to tensorflow using third party software.
So, you can do all tasks in pytorch but tensorflow is needed when it comes to deployment in devices like android, raspberry pie, etc

This used to be more true than it is now.

Tensorflow didn't have "eager mode" which made it hard to interactively debug research (it does have an eager mode now).

Pytorch didn't have static graphs or a c++ or mobile api which made it harder to deploy in production in some cases (it does now have static "jit" graphs and c++ and mobile APIs).

There are still some differences, eg some researchers prefer the numpy-like api of pytorch. I think Tensorflow has a Javascript api.

The differences are much smaller today and a lot of it comes down to personal preference.



Posted by uniqueone
,

Latest from Apple researchers: Deep learning approach for driving animated faces using both acoustic and visual information

For project and code or API requests: https://www.catalyzex.com/paper/arxiv:2005.13616

To ensure that the model exploits both modalities during training, batches are generated that contain audio-only, video-only, and audiovisual input features

Posted by uniqueone
,

Extracting editable 3D objects directly from a single photograph.
For project and code or API request: [https://www.catalyzex.com/paper/arxiv:2005.13312](https://www.catalyzex.com/paper/arxiv:2005.13312)

They simultaneously identify profile-body relations and recover 3D parts by sweeping the recognized profile along their body contour and jointly optimize the geometry to align with the recovered masks. Qualitative and quantitative experiments show that our algorithm can recover high quality 3D models and outperforms existing methods in both instance segmentation and 3D reconstruction

Posted by uniqueone
,

[오픈소스+젯슨보드] AIoT: 생각에 대한 인공 지능
#PyTorch #JetsonNano #Autoencoder #kmeans #ml #뇌파탐지예측 #EEG #GitHub #기계학습 #IoT
뇌파를 읽고 신호 처리하는 방법, Autoencoder를 구축 및 훈련하여 EEG 데이터를 잠재적 인 표현으로 압축하는 방법, 뇌 상태를 결정하기 위해 데이터를 분류하는 k-means 기계 학습 알고리즘 및 물리적 하드웨어를 제어하기 위한 정보! 그리고 그 과정에서 파이썬으로 GUI와 실시간 그래픽을 만드는 방법에 대한 팁을 얻으십시오.
공헌자: David Ng
GitHub: https://github.com/dnhkng/AIoT
Hackster.io: https://www.hackster.io/dnhkng/aiot-artificial-intelligence-on-thoughts-f62249

Posted by uniqueone
,

From Adobe researchers: State of the art in High-Resolution Image Inpainting For project and code or API request: https://www.catalyzex.com/paper/arxiv:2005.11742

To mimic real object removal scenarios, they collect a large object mask dataset and synthesize more realistic training data that better simulates user inputs

Posted by uniqueone
,

Kaggle 얘기가 나와서 캐글러 두 분의 글 읽어보시길 추천드립니다.

Ask Me Anything session with a Kaggle Grandmaster Vladimir I. Iglovikov
https://towardsdatascience.com/ask-me-anything-session-with-a-kaggle-grandmaster-vladimir-i-iglovikov-942ad6a06acd

First-time Competitor to Kaggle Grandmaster Within a Year | A Winner’s Interview with Limerobot
https://medium.com/kaggle-blog/zero-to-grandmaster-in-a-year-a-winners-interview-with-limerobot-18ddb3a1aae1

Posted by uniqueone
,

Semantic Segmentation from Image Labels
For project and code or API request: https://www.catalyzex.com/paper/arxiv:2005.08104

They develop a segmentation-based network model and a self-supervised training scheme to train for semantic masks from image-level annotations in a single-stage

Posted by uniqueone
,

전 세계 100만 명 참여한 ‘캐글’ 대회… 국내 단 3명뿐인 그랜드마스터를 달성하다, AI팀 김상훈(이베이코리아 AI팀 김상훈 매니저 / 이베이 블로그)

이베이코리아에서는 물류 센터의 효율적인 운영과 자동화, 소비 행동 패턴 기반의 소비자 성향 추정, 판매 제품과 광고 상품의 연관성 증대 및 이상 거래 탐지 등 다양한 분야에서 폭넓게 인공지능(AI)을 활용하고 있다.

최근 이베이코리아 AI팀 김상훈 매니저가 구글이 소유하고 있는 세계 최대 온라인 AI 경진 플랫폼, ‘캐글(Kaggle)’에서 1년이라는 짧은 기간 안에 최상위 연구자(그랜드마스터)로 선정됐다.

김상훈 매니저를 만나 대회 준비 과정과 최근 AI 트렌드에 관한 다양한 이야기들을 들어 보자!

* 10년 전부터 머신러닝에 관심…다양한 연구, 개발에 참여

안녕하세요. 저는 이베이코리아 AI Lab실의 AI Platform팀에서 근무하는 김상훈입니다. 저는 전자공학부를 전공하고, 10년 전 대학원 시절부터 중점적으로 머신러닝(Machine Learning)을 접하여 연구하기 시작했습니다. 컴퓨터 비전(Computer Vision) 분야의 얼굴인식(Face Recognition)이 연구 주제였지만, 회사 생활을 하면서 자연어 처리(Natural Language Processing) 같은 다른 분야에도 관심을 가지게 되었어요. 이베이코리아 직전 회사에서는 딥러닝(Deep Learning) 기술로 (구글 번역기 같은) 기계 번역기를 만드는 일이나 어울리는 옷을 찾아주는 패션 아이템 추천 기술 등을 개발해 온 데이터과학자(Data Scientist)이기도 합니다.

* 후배 개발자들…개발 역량뿐 아니라 비즈니스에 대한 이해 키우길!

데이터 과학자는 고유 업무인 데이터 모델링, POC(Proof of Concept, 개념 증명)를 위한 클라이언트 개발 능력이 물론 중요하지만, 비즈니스에 대한 전반적인 이해도를 높이기 위해 노력하는 자세가 중요하다고 봐요. 회사 차원에서 프로젝트를 진행하려면 다른 부서와의 협업 능력, 설득력 있는 커뮤니케이션 역량 등이 많이 요구되는 것 같습니다.

* 출처 : http://blog.ebaykorea.com/archives/15516

* 자기주도온라인학습센터 : http://withmooc.com

Posted by uniqueone
,

We've just open-sourced our implementation of TransformerTTS 🤖💬: a Text-to-Speech Transformer. It's based on a Microsoft paper: Neural Speech Synthesis with Transformer Network. It's written in TensorFlow 2 and uses all its cool features.

The best thing on our implementation though is that you can easily use the WaveRNN Vocoder to generate human-level synthesis. We also provide samples and a Colab notebook. Make sure to check it out and please star ⭐️ the repo and share it! We're already working on the Forward version of TransformerTTS and we'll release it soon as well.

🎧 Samples: https://as-ideas.github.io/TransformerTTS/

🔤 Github: https://github.com/as-ideas/TransformerTTS

📕 Colab notebook: https://colab.research.google.com/github/as-ideas/TransformerTTS/blob/master/notebooks/synthesize.ipynb

Posted by uniqueone
,

https://www.facebook.com/deeplearning101/posts/3637994496216575

 

Adversarial Colorization of Icons Based... - Deep Learning London | Facebook

Adversarial Colorization of Icons Based on Structure and Color Conditions Authors: Tsai-Ho Sun, Chien-Hsun Lai, Sai-Keung Wong, and Yu-Shuen Wang Abstract: We present a system to help #designers create icons that are widely used in banners, signboards, bil

www.facebook.com

 

Adversarial Colorization of Icons Based on Structure and Color Conditions

Authors: Tsai-Ho Sun, Chien-Hsun Lai, Sai-Keung Wong, and Yu-Shuen Wang

Abstract: We present a system to help #designers create icons that are widely used in banners, signboards, billboards, homepages, and #mobile apps. Designers are tasked with drawing contours, whereas our system colorizes contours in different styles. This goal is achieved by training a dual conditional generative adversarial network (GAN) on our collected icon dataset.

Source:

Pdf: https://t.co/6tIoJZiXye

Abs: https://t.co/2LakM2d1bk

Github: https://t.co/hV7v3wlzvU

Posted by uniqueone
,

My Shortlist of AI & ML Stuff: Books, Courses and More

Never stop learning new things…



Oleksii Kharkovyna

Oct 11, 2019 · 9 min read





Artificial Intelligence it’s a journey, not a destination.

This means only one thing; you need to be prepared for constant learning.
Is it a tough path? With all the abundance of abstract terms and an almost infinite number of details, the AI and ML learning curve can indeed be steep for many. But, getting started with anything new is hard, isn’t it? Moreover, I believe everyone can learn it if only there is a strong desire.
Besides, there is an effective approach that will facilitate your learning. Like for example, you don’t need to rush, just start with small moves. Imagine a picture of everything you have learned. Every day you should add new elements to this picture, make it bigger and more detailed.
Today you can make your picture even bigger by dint of lots of tools out there that allow anyone to get started learning Machine Learning. No excuses! And you have not to be an AI wizard or mathematician. You just need to learn how to teach machines that work in ones and zeros to reach their conclusions about the world. You’re teaching them how to think!
Wanna learn how to do so? Here are the best books, courses and more that will help you do it more effectively without being confused.

Bes AI & ML Online Courses





If you want to know more about Artificial Intelligence and Machine learning, online course is a great opportunity to study theoretical aspects and solve practical problems. If you have a sufficient amount of time for this, use this chance. Here are a few courses that I will undoubtedly recommend:

#1 Introduction to Machine Learning with R by DataCamp

This intensive course provides an in-depth introduction to AI and Machine Learning, it helps understand statistical modeling and discusses best practices for applying Machine Learning. Here you can learn everything about training and assessing models performing common tasks such as classification, regression, and clustering. All this is just in fifteen videos and 81 exercises with an estimated timeline of six hours.
By the end of this course, you’ll have a basic understanding of all the main principles. Consequently, it will equip you to transition into a role as a machine learning engineer.

#2 Machine Learning Offered by Stanford

Totally legendary and the most basic machine learning course from Andrew Ng, one of Coursera’s co-founders. Highly recommend this one. Why so? It provides an in-depth introduction and helps you understand statistical modeling and discusses best practices for applying. This is a really good course, after which many things in machine learning become clear.
In total, the course lasts 11 weeks. Each week involves 1–2 hours of video lectures, a test of knowledge of the theory and a practical task on the application of specific machine learning methods. In total, it took me 4–6 hours to complete all the material and complete all the tasks of one week.
It is important to complete practical tasks, you need to be able to program at least at the most basic level. Personally, I recommend that you complete all the tasks yourself. Nevertheless, if you do not strive to get a follow-up of course, you can not do them. As a last resort, GitHub is full of repositories with various ready-made solutions to practical problems.
In my opinion, the course has exactly one disadvantage — the code will need to be written in MATLAB. If this does not bother you, then don’t hesitate to take it.

#3 Deep Learning Specialization offered by deeplearning.ai

Another one creation from Andrew Ng. I especially liked the third course, where Andrew talks about how to conduct research in the field of deep learning. But his advice can come in handy in classic ML. What background knowledge is necessary? Basic programming skills (understanding of for loops, if/else statements, data structures such as lists and dictionaries) and that’s all.

#4 Understanding Machine Learning with Python from Pluralsight

If you’re looking for a short yet concise online course that gives a great summarization to your already existing ML knowledge, this is the best choice for you. This course on Machine Learning with Python will equip you to understand the concepts of using data to predict future events.
Here you will learn to build predictive models and use Python to perform Supervised learning with scikit-learn, the most powerful ML library used by every Machine Learning Engineer and Data Scientist.

#5 Machine Learning A-Z: Hands-On Python & R In Data Science (Udemy)

Last but not the least, this course will help you master ML on Python and R, make accurate predictions, build a great intuition of many machine learning models, handle specific tools like reinforcement learning, NLP and Deep Learning. In other words, here is everything you need to master!
And one more suggestion concerning statistics. Where would we be without statistics?
In order to set up experiments and correctly calculate correlations, you need to know the statistics. There is an excellent course that I recommend. And if you are completely lazy, then use the book Head First Statistics. Small, with visual pictures — you can read it in just a couple of hours.

AI and Machine Learning Books

Well, then…if you want to dig a little deeper and figure out what’s what, there is no other way than reading good books! This approach can not boast of relevance, but this can be a source of information for a limited period of time and give you a fundamental understanding of technology and how it can be implemented for your tasks.

#1 Machine Learning: The Art and Science of Algorithms that Make Sense of Data by Peter Flach





Nice book for everyone! The author reveals the methods of constructing models and machine learning algorithms. Here are carefully selected examples, accompanied by illustrations, which are gradually becoming more complicated. At the end of each part are links to additional literature with comments by the author.

#2 Machine Learning in Action by Peter Harrington





This one is simpler and easier to read and also it has lots of practical examples. In general, this book will not make you a specialist in machine learning, but will introduce you to the basics in “human language” and show examples of use. Very suitable for the first acquaintance with the topic, especially when you have a background in programming.

#3 Machine Learning: a Probabilistic Perspective by Kevin Murphy





One more great book I would recommend for everyone! It makes it clear why we need to study math and probability theory.

#4 Deep Learning by Ian Goodfellow, Yoshua Bengio, Aaron Courville





Must-read! This book is one of the most advanced in deep learning and machine learning. It also covers the mathematical and conceptual background, deep learning techniques used in industry, and research perspectives.

#5 Make Your Own Neural Network by Tariq Rashid





The book is a bestseller in the Artificial Intelligence section. A huge benefit of this book is the underestimated requirements for the reader’s knowledge. The book is a step-by-step journey through the mathematics of neural networks to create your own neural network using Python.
After reading, you can do the main thing: write code in Python, create your own neural networks, teaching them how to recognize various images, and even create solutions based on the Raspberry Pi. But this is not all, because there is also mathematics in the book, but it will not make you scream from horror and misunderstanding ;)

#6 Speech and Language Processing by Dan Jurafsky, James H. Martin





It’s hard for me to call this book a must-read, cause most experts usually get acquainted with this content in practice. However, this book can save you time on the invention of some bicycles and introduce you to the classical methods of speech recognition, language processing, and information retrieval. Whether this is necessary for the era of dominance of neural networks is up to you.

#7 Hands-on Machine Learning with Scikit-Learn and TensorFlow by Aurelien Geron





Through a minimal theory, application of concrete examples, and two pre-built Python production infrastructures — scikit-learn and TensorFlow — the author will help you to achieve an intuitive understanding of tools and concepts for building intelligent systems. Thanks to this book, you will learn a wide range of techniques, from simple linear regression and progression to deep neural networks. Totally recommend this book!

#8 Bayesian Reasoning and Machine Learning by David Barber





The book is intended for graduate students and is intended for those who have basic knowledge in the field of machine learning. I liked the emphasis on missing values of some of the chapters. Would recommend the middle part of the book as a good, but slightly unorthodox introduction to machine learning.

#9 What to Think About Machines That Think: Today’s Leading Thinkers on the Age of Machine Intelligence by Brockman John





And the last book on this list that I can’t ignore. It is a fascinating series of essays that ponder the effect that the development of artificial intelligence might have in all the circles of our life. I am still reading it and it is an intellectual feast.

Additional Information and Useful Links

Wanna learn more? Have no time for reading books, or taking a course? Read articles or find needed stuff on GitHub. Here are some must-visited places for this:

How to Get Started as a Developer in AI — Dream about a job connected to AI? This guide is your must-read.

Beginner’s Guide to Machine Learning with Python

The A-Z of AI and Machine Learning: Comprehensive Glossary — Ultimate Terminology You Need to Know

An Intro to Deep Learning for Face Recognition — an ultimate explanation for newbies with relevant links.

Rolling in the Deep Learning: Basic Concepts for Everyone — simple learning adventure in under 11 minutes.

Top 10 Great Sites with Free Data Sets — Places to find free, interesting datasets and leverage insights from.

Github Machine Learning Repository

Open Source Society University’s Data Science course — this is a solid path for those of you who want to complete a Data Science course on your own time, for free, with courses from the best universities in the World

51 ideas for training tasks (toy data problem) in Data Science

Dive into Machine Learning (repo on GitHub) with Python Jupyter notebook and scikit-learn

100 Best Azure Machine Learning Videos

machine-learning-for-software-engineers — a daily training plan in order to become a specialist in machine learning

Top Artificial Intelligence Interview Questions and Answers — a huge list of questions for preparing for an interview for an Artificial Intelligence job

Wrapping it up..





You don’t have to be great to start, but you have to start to be great ― Zig Ziglar.

That’s how I wanna end this post.
And the last thing, learn AI an ML, cause this is a super exciting time to be involved in this field. And you probably won’t regret it if you start this journey to new knowledge and spend your time on this. If believing the predictions of futurists, these technologies are our future!
As always, if you do anything cool with this information, leave a response in the comments below or reach out at any time on my Instagram and Medium blog.
Thanks for reading!

Machine Learning

Artificial Intelligence

Data Science

Deep Learning

383claps



WRITTEN BY

Oleksii Kharkovyna

Bits and pieces about AI, ML, and Data Science https://www.instagram.com/miallez/

Follow



Towards Data Science

A Medium publication sharing concepts, ideas, and codes.

Follow

See responses (2)

More From Medium

More from Towards Data Science

Sorry, Online Courses Won’t Make you a Data Scientist


Posted by uniqueone
,

Separate a target speaker's speech from a mixture of two speakers

For project and code or API request: https://www.catalyzex.com/paper/arxiv:2005.07074

(FaceFilter: Audio-visual speech separation using still images)

Done using a deep audio-visual speech separation network. Unlike previous works that used lip movement on video clips or pre-enrolled speaker information as an auxiliary conditional feature, we use a single face image of the target speaker

Posted by uniqueone
,

State of the art in lane detection!
For project and code or API request:
[https://www.catalyzex.com/paper/arxiv:2004.10924](https://www.catalyzex.com/paper/arxiv:2004.10924)

Novel method for lane detection that uses as input an image from a forward-looking camera mounted in the vehicle and outputs polynomials representing each lane marking in the image, via deep polynomial regression

Posted by uniqueone
,

NVIDIA Research Unveils Flowtron, an Expressive and Natural Speech Synthesis Model

Nvidia가 Flowtron 이라는 새로운 TTS 를 공개했습니다.

이번 GTC 2020 키노트 영상의 나레이션도 이 Flowtron으로 생성한 목소리랍니다.

Github에 PyTorch 소스도 함께 공개되었습니다.

https://github.com/NVIDIA/flowtron

생성된 음성 샘플들은 여기서...

https://nv-adlr.github.io/Flowtron

논문은 여기서...

https://arxiv.org/abs/2005.05957

https://news.developer.nvidia.com/flowtron-speech-synthesis-model/

Posted by uniqueone
,

LandCover.ai: Dataset for Automatic Mapping of Buildings, Woodlands and Water from Aerial Imagery

For project and dataset: https://www.catalyzex.com/paper/arxiv:2005.02264

They collected images of 216.27 sq. km lands across Poland, a country in Central Europe, 39.51 sq. km with resolution 50 cm per pixel and 176.76 sq. km with resolution 25 cm per pixel and manually fine annotated three following classes of objects: buildings, woodlands, and water.

Posted by uniqueone
,

오늘 소개드릴 논문은 흥미로운 응용사례와 같이 설명드리겠습니다. 최근에 보고있는 논문들이 ICLR이나 CVPR 최근 논문 + 실사례 적용을 하는 것 위주로 보고 있는데 이 사례도 꽤나 재미있었습니다.
[응용 사례 - AR-Cut Paste]
우선 첫 번째 동영상을 보시면 얼핏보면 한 10년전에도 하던 ARTag를 인식한 후 사전에 저장해놓은 이미지를 불러와서 맥북과 연동한 것처럼 보입니다. 그런데 실제로는 ARTag가 아니라 saliency maps(관심영역)을 구하고 그 영역을 세밀하게 segmentation하여 그 그림을 맥북으로 전송한 것입니다.
Code : https://github.com/cyrildiagne/ar-cutpaste/tree/clipboard
[U^2-Net: Going Deeper with Nested U-Structure for Salient Object Detection]
위 사례에서 메인 물체의 백그라운드를 제거하는 기술은(saliency object detetion -> segmentation) U^2-Net이라는 논문을 베이스로 만들었습니다. 그런데 아쉽게도 해당 논문은 accept 승인중이라 아직 공개가 안되었고 개념도만 오픈되어 있습니다.
그 대신 코드가 미리 공개되어있는데 해당 코드를 통해 아래 첨부된 총, 글씨, 사람을 찾고 깔끔하게 분리해냈습니다. 저자가 조만간 논문을 공개한다고하니 추후 확인해봐야겠지만 공개한 주요 알고리즘별 성능표를 보면 아래 그림과 같이 (아마도) SOTA 성능을 내는 것으로 보입니다. 총 6개 데이터셋을 비교했는데 PASCAL-S를 제외하고 가장 압도적인 성능을 보입니다.
네트워크 구조도 오픈되어있는데 그림만 보면 U-Net들을 모아서 또 하나의 U-Net을 만들어서 나온 결과물을 fuse하여 최종 결과물로 쓰는것으로 보입니다. (U-Net 논문은 이 글 맨 아래에 언급됩니다.)
[BASNet: Boundary-Aware Salient Object Detection]
이전에 해당 저자의 Basenet(CVPR '19) 논문을 보면(9번째 사진) Predict Module에서 1차로 coarse map을 뽑고 Residual Refinement Module에서 refined된 map을 뽑도록 되어있습니다. Predict Module은 U-Net의 아이디어를 많이 쓴것으로 보이는데 Resnet-34를 베이스로 하지만 일부 res-block을 수정했고, RRM 단계에서도 좀 더 하이레벨의 refine값을 얻기위해 더 깊은 모델을 만들어서 적용했습니다. RRM 에 관련해서는 엄청 유명한 논문인 Large kernel matters : improve semantic segmen-tation by global convolutional network. (CVPR '17) 을 참고해보시면 좋습니다.
[추가 논문]
Silency Object Segmetation(Detection) 분야를 이해하기 위해서는 사전에 중요한 논문 2가지를 추가로 보는 것이 좋습니다. 해당 분야는 나온지 꽤 되긴했는데(저도 석사때 관련 논문을 썼습니다;)
Fully Convolutional Networks for Semantic Segmentation (CVPR '15)
Segmentation을 위해서 만든 네트워크에 마지막 dense 부분에 FC-Layer 대신 Conv-Layer로 교체하고 Skip architechture를 제안하여 segmentation에 새로운 방향을 제시한 논문으로 무려 15000회 이상 인용되었습니다. 교체한 이유는 Segmentation시 위치 정보와 이미지 사이즈 등이 중요한데 FC Layer는 위치 정보 유실이나 사이즈 고정등의 이슈가 있어서 이것을 개선하고자 제안했습니다. Receptive Field 개념도 같이 봐두시면 좋습니다.
U-Net: Convolutional Networks for Biomedical Image Segmentation (MICCAI 2015)
특이하게(?) 메디컬 영상 학회에 실렸던 논문입니다. 이 논문도 13800회 이상 인용될 정도로 중요합니다. 맨 마지막 그림을 보시면 왜 U^2-Net 설명할때 언급했는지 아실것 입니다. 이렇게 특이한 네트워크 구조를 가지는 이유는 U자 모양에 왼쪽은 Contracting Path라고해서 입력 이미지를 Down-sampling을 하며 context caption 역할을 합니다.(VGG based). 오른쪽은 Expanding Path로 Up-sampling을 하며 정교한 Localization을 목적으로 합니다. 그리고 Contracting Path에서 Max-Pooling전의 feature map을 Crop 하여 concat을 하여 각 정보를 연결합니다. 그외에도 Augment 등의 공헌이 있었습니다.
혼자 보는용으로 정리해둔건 많은데 공유하려고 정리해서 다시 요약하는데 생각보다 시간이 오래걸리네요. 곧 출근시간이 다가와서 여기에서 마무리하고 또 1-2주 후에 새로운 논문 공유하겠습니다.

Posted by uniqueone
,

Latest from MIT researchers: A new methodology for lidar super-resolution with ground vehicles

For project and code or API request: https://www.catalyzex.com/paper/arxiv:2004.05242

To increase the resolution of the point cloud captured by a sparse 3D lidar, they convert this problem from 3D Euclidean space into an image super-resolution problem in 2D image space, which is solved using a deep convolutional neural network

Posted by uniqueone
,

https://www.facebook.com/groups/KaggleKoreaOpenGroup/permalink/652171618848274/

AWS, Facebook, Microsoft가 캐글 역사상 총상금 규모 세 번째인 100만 달러(약 12억원)를 걸고 개최한 DFDC(Deepfake Detection Challenge)에서 상위 1.3% (30/2265)를 달성했습니다. Public leaderboard에서는 2위로 마무리했던만큼 기대했던 금메달권에는 들지 못했지만 제 경험을 공유해드리고자 글을 작성하게 되었습니다.
들어가기에 앞서 캐글 discussion에도 대회에 참여한 여정과 솔루션을 올려 놓았으니, 궁금하신 분들은 한번 구경해보세요. (감사하게도 전체 캐글 discussion 중 upvote 20위권에 들었네요!) https://www.kaggle.com/c/deepfake-detection-challenge/discussion/140236

저는 2019년 1년동안 다양한 캐글 대회에 참여하고 간단한 토이 프로젝트들을 하면서 정형/이미지/텍스트/음성 데이터를 다루는 법과 모델의 성능과 generalizability를 향상시키는 방법을 배웠고, 다양한 종류의 tree 기반 모델, cnn, segmentation model, rnn, transformer, bert 등을 사용해보았습니다.
그러던 차에 이번 대회가 개최된다는 소식을 듣고 캐글을 통해 익힌 테크닉들을 본격적으로 활용해보고자 참여하게 되었습니다. 작년 12월~올해 3월까지 무려 4개월 동안 진행된 대회였는데 마침 시간도 나서 3개월 간은 이 대회에 메달렸던 것 같습니다.

팀을 처음으로 구성해보았는데 각자 사정 때문에 결국은 제가 대부분의 작업을 하게 되었네요 ㅎㅎ.. 캐글에서 모르는 사람들과 팀을 맺을 땐 캐글티어와 관계 없이 각별히 조심해야한다는 점을 깨달았습니다.

이제 제가 느낀 이 대회의 주요 과제들과 이에 대한 제 솔루션들을 말씀드리겠습니다.

1. 대규모 데이터: 10만개가 넘는 동영상들로 이루어진 데이터로, 500gb가량 됩니다. 한정된 컴퓨팅 자원 하에서 빠르고 효율적으로 여러 실험들을 진행하기 위한 파이프라인 구축이 필수적이었습니다.
-> 동영상에서 프레임을 n개 읽어 얼굴부분만 자르고 추출된 다른 메타데이터와 함께 compressed joblib file로 저장한 뒤, 훈련 시 multiprocessing이 적용된 dataloader에서 읽어들여 cpu-gpu bottleneck을 없앴습니다. 또한 Apex fp16을 활용하여 batch size를 두 배 가량 늘려 한 epoch의 소요 시간을 50% 가량 단축했습니다.

2. 동영상 데이터: 단순히 이미지 여러개로 보고 접근할 것인지, 프레임 간의 관계와 오디오를 활용할 것인지, 활용한다면 어떻게 활용할지에 대한 고민이 필요했습니다.
-> 프레임 간의 관계를 모델링 하기 위해 cnn-lstm을 활용해봤지만, 결과가 좋지 않았고, 3d cnn 등은 pretrained weight가 부족하고, 무거워서 시도하지 않았습니다. 오디오는 전체에서 8%밖에 조작되지 않았고, 파이프라인을 복잡하게 만들어 사용하지 않았습니다. 결국 프레임 예측값의 평균을 사용했습니다.

3. 얼굴: 결국 deepfake는 사람의 얼굴에 적용되는 것이기 때문에 얼굴과 관련된 vision 연구들을 활용해야 했습니다. Face detection은 필수로 사용해야 했고, validation split을 위한 face recognition + clustering, encoder로서 vggface2 pretrained 모델도 고려했습니다.
-> WiderFace dataset에서 좋은 성능을 보여준 Retinaface를 face detection model로 사용했습니다. 같은 사람이 train set과 validation set에 함께 등장하지 않도록 하기 위해 face recognition으로 얼굴을 encoding하고, kmeans 또는 pca+tsne+dbscan 으로 동영상들을 clustering 해봤으나, folder 기반 split보다 못했습니다. FaceNet Pytorch에서 제공한 vggface 2 pretrained inceptionresnetv1을 사용해보았으나, efficientnet보다 성능이 좋지 않았습니다.

4. train-test 차이: validation 점수와 test 점수의 상관관계가 적거나, 그 격차가 큰 경우는 캐글에서 종종 볼 수 있습니다. 이번 대회는 이러한 train-test 차이가 두드러졌습니다. private leaderboard와 public leaderboard의 격차가 상당히 큰 것도 같은 맥락으로 볼 수 있을 것 같습니다. 이 문제를 어떻게 해결할지가 사실상 이 대회의 중심에 있었습니다.
-> 랜덤, 원본 기반, 사람 기반, 폴더 기반 등으로 validation split을 시도해보고, 그나마 public leaderboard와의 격차가 적었던 폴더 기반 split을 선택했습니다. 그러나 여전히 잘 맞지 않아서 결국에는 public leaderboard, 3 종류의 외부 dataset, local validation dataset 순서로 가중을 두어 모델의 성능을 검증했습니다. 또한 아래에서 설명하겠지만, 모델의 일반화에 신경을 썼습니다.

5. 일반화: Deepfake를 만드는 사람들은 detection model의 취약점을 활용하려 할 것입니다. 따라서 특정 데이터에 overfitting되는 것을 특히 조심하고 모델을 일반화시키는 것이 중요했습니다. 나아가 adversarial attack에 대한 고려도 할 수 있습니다.
-> albumentations을 이용해 사용 가능한 거의 모든 augmentation을 비교적 강도 높게 적용하였습니다.(public leaderboard 기준으로 fine tuning) 총 10개의 모델 예측값의 평균을 취해(앙상블) 최종 예측값을 안정적으로 만들었고, 이렇게 나온 최종 예측값을 보수적으로 하기 위해 logit에 1보다 작은 상수를 곱하고 sigmoid를 취해 예측의 일반화를 도모했습니다.

6. Postprocessing: 동영상 데이터이기 때문에 프레임 예측값 외에도 오디오, face confidence score 등 다양한 feature들을 활용하여 최종 예측값을 도출할 수 있는 가능성이 많았습니다.
-> lightgbm으로 메인 모델의 예측값과 다른 feature들을 stacking해 보았으나, public score이 좋아지지 않아, 결국은 train set에 overfitting되지 않도록 postprocessing은 최소화 했고, 프레임 예측값들의 평균을 최종 예측값으로 이용했습니다.

Public leaderboard 점수를 향상시킨 주요 테크닉들을 소개해드리겠습니다. 이번 대회의 특성상 이 테크닉들이 private set에 대해서는 어떻게 작용했는지 알 수는 없네요.

1. 조작된 픽셀을 1로 둔 mask를 segmentation part target으로 두고, encoder 끝에 classification branch를둔 UNet 모델 구조 (multi-task learning) (이미지 참고) -> 어느 부분이 조작됐는지의 정보를 모델에게 줌

2. 얼굴을 추출해낼 때 얼굴 주변부도 상당 부분 포함시킴 -> cnn이 조작된 부분과 그렇지 않은 부분의 차이를 학습하는 것을 도움

3. logit에 sigmoid를 취하기 전에 1보다 작은 상수를 곱하여 예측값이 극단으로 가지 않도록 조정 -> metric이 logloss였기 때문에 train-test 차이가 컸던 이번 대회에서 test logloss를 개선시킴

4. augmentation을 강하게 적용 -> 모델의 generalizability 향상

5. 앙상블 -> 최종 예측값의 성능과 generalizability 모두 향상

6. 적절한 하이퍼파라미터와 모델 사이즈, 충분한 프레임 개수

긴 글 읽어주셔서 감사합니다!

Posted by uniqueone
,

자기주도온라인학습센터 신규 강의 목록(2020.05.11)

- 연구데이터분석 – R실습 (E-Koreatech) : http://bitly.kr/Qb0OhyeYm

- 연구데이터분석 – 엑셀실습 (E-Koreatech) : http://bitly.kr/rFU2pGFwc

- 머신러닝기반데이터분석 (E-Koreatech) : http://bitly.kr/4Tr7Pt2Wo

- 데이터베이스 (E-Koreatech) : http://bitly.kr/5Oh7ouF38

- 웹 앱 개발을 위한 Javascript 기초_1 (E-Koreatech) : http://bitly.kr/CydpTvJ7q

- DataLit : 데이터다루기 (EDWITH) : http://bitly.kr/UMWgVDBJ5

- 머신러닝, 딥러닝 기초 with Python, Keras (EDWITH) : http://bitly.kr/56yw1m9xj

- Hands on Deep Learning (EDWITH) : http://bitly.kr/Ja7nKIc1J

- [부스트코스] 데이터를 활용한 디지털 마케팅 효과분석 (EDWITH) : http://bitly.kr/nuAkZc6jh

- 비전공자를 위한 자바프로그래밍 (EDWITH) : http://bitly.kr/PDf1siYxa

- SW사고기법 (EDWITH) : http://bitly.kr/1RArBF3WU

- 인공지능의 이해 (EDWITH) : http://bitly.kr/wJtXuRsdy

- 3분으로 익히는 머신러닝의 기본 원리 (EDWITH) : http://bitly.kr/CSRrCh40t

- 컴퓨터비전, 머신러닝, 딥러닝을 이용한 의료영상분석 (EDWITH) : http://bitly.kr/5i5Vz2aRB

- [부스트코스] Kaggle 실습으로 배우는 데이터 사이언스 (박조은 교수 / EDWITH) : http://bitly.kr/w7QRybytt

- 텍스트 데이터 분석 (E-Koreatech) : http://bitly.kr/Bo9ma9a8t

- 데이터 입출력 구현 (E-Koreatech) : http://bitly.kr/zEDd9JaHj

개별 사이트에서 “Go To Lecture Site” 버튼을 누르시면 개별 강의 페이지로 이동

* 자기주도온라인학습센터 : http://withmooc.com

Posted by uniqueone
,

Great dataset recently released for the autonomous vehicle industry: Audi Autonomous Driving Dataset (A2D2)!

Link for project and dataset: https://www.catalyzex.com/paper/arxiv:2004.06320

The dataset consists of simultaneously recorded images and 3D point clouds, together with 3D bounding boxes, semantic segmentation, instance segmentation, and data extracted from the automotive bus

Posted by uniqueone
,