[email protected]!
🤖 Este curso te permitirá adentrarte en el mundo de los
patrones, desde una mirada intuitiva, con guías paso a paso tanto
en la teoría como en la práctica.
💻 Es un curso práctico, orientado a que puedas desarrollarte como
Data Scientist Jr.
¿Cómo es la dinámica del curso?
El curso es de auto-aprendizaje, eso quiere decir que el/la estudiante irá tomando las lecciones según su disponibilidad horaria.
Tomando un ejemplo real con el tema clasificación, esto es lo que va a ver:
Paso 1:
Presentación con gráficos para adquirir la intuición detrás.
Paso 2:
Se lo baja a tierra.
Presentación a nivel funcional.
Paso 3:
Y finalizamos con una demostración con código.
🎤 Todos los videos anteriores, están narrados.
🔄 A medida se avanza en el curso, se irán interrelacionando todos los conceptos.
Temas concretos:
✔ Introducción a la estadística
✔ Introducción a la Ciencia de Datos e IA
✔ Análisis Exploratorio de Datos
✔ Preparación de Datos para ML
✔ Creación de modelos predictivos: clasificación, regresión, clustering, reducción de dimensionalidad
✔ Optimización, validación y selección de modelos
✔ Consideraciones para puesta en productivo
El curso no sigue un camino clásico, se irán introduciendo complejidades paso a paso, hasta llegar al nivel de dificultad que se observa en la práctica.
Clase abierta y presentación del curso Ciencia de Datos 360
Clustering
- K-means
- Jerárquico
- HDBSCAN
Clasificación / Regresión
- Decision tree
- XGBoost
- Random Forest
- Linear regression
- GLM
Reducción de dimensionalidad
- PCA
- t-SNE
- UMAP
A través de:
✅ Teoría explicada con presentaciones didácticas, paso a paso.
✅ Prácticas en R detalladas.
✅ Templates para aplicar con datos propios.
✅ Templates para aplicar con datos propios.
✅ Procedimientos probados en ambientes reales.
✅ Material disponibles para descargar.
✅ Videos teóricos cortos ~ 7min.
✅ Webinars exclusivos.
✅ +75 videos teorico-prácticos.
Todos los conceptos giran alrededor de crear un modelo predictivo.
Desde lo básico que es crear un modelo sin ningún tipo de preparación de datos, hasta la creación de un modelo optimizado con hyper-tunning y preparación de datos "inteligente".
¿R ó Python?
Esta es la versión con R, la cual comparte los mismo videos teóricos que Python.
La versión Ciencia de Datos 360 con Python ya está disponible.
Se puede adquirir las dos con un importante descuento acá.
Soluciónes de Educación
Capacitación para los integrantes de la empresa, y asesoramiento sobre como llevar lo aprendido a un proyecto concreto. El objetivo es reducir la fricción natural entre lo aprendido y la necesidad de negocio.
Este material ha sido escogido por varios docentes para su enseñanza. Ya sea que necesiten agregarlo como complemento a una clase, o para ofrecer un curso adicional, pueden consultar si se adecua a la institución
Contenido del curso:
- B.1 - Introducción, principales indicadores, y problemas! (3:53)
- B.2 - Percentiles - ¿Por qué son tan importantes? Y sus aplicaciones (6:54)
- B.3 - Caso de estudio de variables numéricas (7:29)
- B.4 - Caso de estudio de variables categóricas (3:54)
- R.B.4.1 - Práctica con datos del coronavirus (9:15)
- R.B.4.2 -Práctica con datos de marketing en finanzas (10:39)
- B.5 - Resumen y aspectos claves (1:57)
- PPTs de la unidad
- C.1 Correlación - Lineal (9:07)
- C.2 - Correlación - Causalidad y no linealidad (6:39)
- R.C.2.1 - Correlación positiva/negativa con R usando Pearson (11:26)
- R.C.2.2 - Correlación R2 para variables importantes (5:08)
- C.3 - Correlación - Variables categóricas y one hot encoding (5:27)
- R.C.3 - Correlación MIC (3:59)
- PPTs de la unidad
- D.1 - Tipos de datos en Machine Learning (7:20)
- D.2 - Análisis e imputación de nulos (6:11)
- D.3 - Discretización de variables, distintos criterios (7:07)
- R.D.3.1 - Preparación de datos general (7:55)
- R.D.3.2 - Anexo - Remplazo de nulos en var. categóricas (3:05)
- D.4 - Var. de alta cardinalidad y one hot encoding (6:56)
- PPTs de la unidad
- E.1 - Modelos ML - Árbol de decisión (5:00)
- E.2 - Modelos ML - Árbol de decision (6:43)
- E.3 - Modelos ML - Árbol de decisión (1:29)
- R.E.3.1 - Árbol de decisión (primer modelo) (6:56)
- R.E.3.2 - Árbol de decisión (caso de estudio) (5:43)
- E.4 - Modelos ML - Clasificación (Intuición) (5:14)
- PPTs de la unidad
- F.1 - Modelos ML - Clasificación (scoring) (5:35)
- F.2 - Modelos ML - Clasificación (Accuracy) (4:43)
- F.3 - Modelos ML - Introducción a optmización de modelos (hypertuning parameter) (3:21)
- R.F.3.1 - Introducción al framework caret (3:56)
- R.F.3.2 - Práctica creación de un modelo de clasificación (score) (11:58)
- R.F.3.3 - Modelo clasificación (Validación y accurarcy) (9:47)
- F.4 - Modelos ML - Curva ROC (8:39)
- R.F.4.1 - Modelo clasificación (Validación por ROC) (6:26)
- F.5 - Modelos ML - Regresión (8:10)
- F.6 - Modelos ML - Regresión (métricas de error) (4:02)
- R.F.6.1 - Modelo regresión (creación) (10:01)
- R.F.6.2 - Modelo regresión (calculo del error) (12:48)
- PPTs de la unidad
- G.1 - Detección de outliers en variables numéricas (7:18)
- R.G.1.1 - Práctica de outliers en variables numéricas (12:05)
- R.G.1.2 - Anexo preparación de datos para random forest con caret (6:37)
- R.G.1.3 - Análisis del efecto de winsorize (3:04)
- G.2 - Modelos ML - Clasificación multiclase y balanceo (4:10)
- G.3 - Modelos ML - Clasificación multiclase (error) (8:21)
- R.G.3 - Anexo - Cómo usar el case_when de dplyr (5:53)
- G.4 - Introducción al ejercicio de undersampling (2:13)
- R.G.4.1 - Clasifiación multiclase y cómo balancear las clases (8:18)
- R.G.4.2 - Práctica de clasificación multiclase y balanceo (7:50)
- PPTs de la unidad
- H.1 - Modelos ML - Clustering (8:26)
- H.2 - Modelos ML - Análisis de clustering (6:28)
- H.3 - Modelos ML - Métricas calidad en clustering (5:16)
- R.H.3.1 - AED - Caso de estudio Spotify (12:27)
- R.H.3.2 - Clustering con kmeans (12:43)
- R.H.3.3 - Análisis de resultados y calidad del modelo de kmeans (6:33)
- H.4 - Modelos ML - Clustering k-means vs hdbscan (2:22)
- R.H.4.1 - Creación de HDBSCAN (11:13)
- R.H.4.2 - Análisis de silhouette (10:35)
- H.5 - Preparación y normalización (cuándo y por qué) (5:42)
- H.6 - Anexo - ¿Qué es la matríz de distancia (2:01)
- PPTs de la unidad
- I.1 - Modelos ML - Intro a técnicas de reducción de dimensionalidad (7:46)
- I.2 - Modelos ML - Técnicas más populares de reducción de dimensionalidad (4:43)
- R.I.2 - UMAP con Spotify (12:32)
- I.3 - Intro a la selección de modelos de ML (6:18)
- I.4 - Selección de modelos - Bias vs variance tradeoff (3:52)
- PPTs de la unidad
"Quiero asesaría personalizada"
Podés agendar una sesión individual para que puedas aprovechar al máximo el proceso de aprendizaje.
Si sos de Argentina podés abonar con MercadoPago en pesos.
Ahorra 70% en la compra del 2do curso
Adquirí CDD360 en Python y R 💎
¿Qué incluye?
✅ Descarga de todas las diapositivas usadas
✅ Descarga de los scripts y datasets de R
✅ Acceso a los +75 videos en HD del curso
✅ Soporte directo por el instructor
✅ Acceso a webinars exclusivos
Suscribite al newsletter y descargate el Brochure PDF de CDD360 con R: Aquí ⏬.
🎥 Acceso exclusivo a webinars
☑️ Talleres de programación
☑️ Divulgación IA
☑️ Charlas interactivas con el instructor
Una manera de mantenerse actualizado y cubrir aspectos que ayuden a la formación integral de un Científico/a de Datos.
¿Algunos temas posibles? Trabajar como científico de datos, algoritmos genéticos, intro a deep learning y claro, sugerencias de los estudiantes!
🤔 Al terminar el curso, ¿qué voy a saber?
✔️ Identificar el tipo modelo según el problema planteado.
✔️ Comprender los modelos ML más usados en la industria.
✔️ Hacer una preparación de datos orientada a mejorar la precisión.
✔️ Realizar análisis exploratorio e identificar los problemas silenciosos que pueda surgir.
✔️ Conocer el detrás de escena de los modelos ML.
Una manera de mantenerse actualizado y cubrir aspectos que ayuden a la formación integral de un Científico/a de Datos.
¿Algunos temas posibles? Trabajar como científico de datos, algoritmos genéticos, intro a deep learning y claro, sugerencias de los estudiantes!
🗂 Datasets que se verán en el curso
✔️ Médicos, como ataque al corazón, diabetes y el coronavirus (Kaggle).
✔️ Encuestas/demográficos: Estimar el nivel de ingreso.
✔️ Campaña de marketing para vender un producto.
✔️ Datos de canciones de Spotify.
El objetivo de ver distintos datos es que el estudiante pueda generalizar y ver lo común a todos los proyectos.
Curso para formar a un Data Scientist Jr.
Complemento de los temas con webinars y soporte del instructor.
Trabajo remoto
Soporte para armado de portfolio, blog, Github, y otros.
Preguntas Frecuentes
Se pide que se tenga nociones básicas de R ó Python, tal como la manipulación de archivos, crear agrupaciones simples, aplicar funciones, etc.
Este curso es con R. R y Python tienen sus similitudes y diferencias. Ambos sirven para ambientes laborales y también para investigación.
En unas semanas se publicará la versión de “Ciencia de Datos 360 en Python”
Si, tener nociones básicas, y haber practicado, sobre todos los temas que se ve en Desembarcando en R > 2da Edición. Si no sabes nada de R, empeza por ahi, hay una versión gratuita y otra paga.
R base, tidyverse, funModeling, Hmisc, corrr, uwot, dbscan, caret, rmarkdown, DescTools, expss, minerva, DataExplorer, cluster, factoextra, rpart, rattle, pROC, randomForest, xgboost, plotly, skimr
Nota: no todas con el mismo nivel de profundidad, de algunas usaremos una o dos funciones necesarias para ese momento, así van a ir armandose su propio toolset.
El curso tiene un anexo con nociones básicas de estadística, y todos los temas se presentan de manera didáctica, empezando por la intuición, ejemplos funcionales, práctica en código y en algunos casos, las ecuaciones.
Totalmente! Todo está pensado de forma incremental hasta terminar en lo que pudieras llegar a enfrentarse en un trabajo. Te llega un set de datos de cero y tenes que crear un modelo predictivo estable.
Los ejemplos son templates para que uses con tus datos. Los scripts se presentan de manera generalizada. Por ejemplo, en reemplazo de nulos no se muestra cómo reemplazar una sola variable, sino una lista de ellas (trabajar con listas de variables es el escenario más común).
La parte práctica, los videos están explicados de manera genérica y cuando se necesita hacer una referencia al código se aclara para ambos lenguajes.
El costo de adquirir ambos cursos (en R y Python) será de un porcentaje mucho menor a adquirir los dos.
18 meses.
La duración es variable de acuerdo a la experticia y dedicación del alumno/a.
El total neto de horas es de ~ 10 hs (e irá creciendo)
La suma de estos valores no es ni siquiera la cota mínima. La experiencia indica que hay que ver cada video entre 2 y 3 veces para comprender bien el tema. Y luego dedicarle una cantidad de horas prudencial a probar aplicar lo aprendido a nuevos sets de datos.
Una de las mejores maneras de aprender es usar datos propios o tener un objetivo concreto.
Ejemplo: El video de curva ROC dura 8 min, pero asimilar el concepto y tomar decisiones con estos valores puede llevar al menos 3 proyectos. Dadas estas consideraciones la asimilación de todos los conceptos puede llevar aproximadamente 3 meses.
- Todas las slides usadas en los videos teóricos (+75)
- Todos los scripts usados en el laboratorio (+17)
Sí.
Si! Es una excelente manera de aprender. Hay un descuento del 70% en la 2da inscripción. Avisanos por https://escueladedatosvivos.ai/p/contacto
Si, complete este formulario.
Si, complete este formulario.
No hay problema, completa este formulario. con varias preguntas y te responderé a la brevedad. Se que es una inversión de dinero y si veo que no es para vos, no lo recomendaré.
Pablo Casas
Hay una manera genérica de ver y estudiar cada caso, ese método lo muestro en mis cursos con explicaciones que incluyen gráficos, objetos cotideanos, memes, alguna referencia matemática que no asuste, y código para aprender haciendo.
Publiqué el Libro Vivo de Ciencia de datos y la librería funModeling.
Me gusta explicar (y aprender) con ejemplos prácticos. Es lo que encontrarán en mis cursos y publicaciones." [Ver más]
Linkedin | Twitter