[email protected]!
🤖 Este curso te permitirá adentrarte en el mundo de los
patrones, desde una mirada intuitiva, con guías paso a paso tanto
en la teoría como en la práctica.
💻 Es un curso práctico, orientado a que puedas desarrollarte como
Data Scientist Jr.
¿Cómo es la dinámica del curso?
El curso es de auto-aprendizaje, eso quiere decir que el/la estudiante irá tomando las lecciones según su disponibilidad horaria.
Tomando un ejemplo real con el tema clasificación, esto es lo que va a ver:
Paso 1:
Presentación con gráficos para adquirir la intuición detrás.
Paso 2:
Se lo baja a tierra.
Presentación a nivel funcional.
Paso 3:
Y finalizamos con una demostración con código.
🎤 Todos los videos anteriores, están narrados.
🔄 A medida se avanza en el curso, se irán interrelacionando todos los conceptos.
Temas concretos:
✔ Introducción a la estadística
✔ Introducción a la Ciencia de Datos e IA
✔ Análisis Exploratorio de Datos
✔ Preparación de Datos para ML
✔ Creación de modelos predictivos: clasificación, regresión, clustering, reducción de dimensionalidad
✔ Optimización, validación y selección de modelos
✔ Consideraciones para puesta en productivo
El curso no sigue un camino clásico, se irán introduciendo complejidades paso a paso, hasta llegar al nivel de dificultad que se observa en la práctica.
Clustering
- K-means
- Jerárquico
- HDBSCAN
Clasificación / Regresión
- Decision tree
- XGBoost
- Random Forest
- Linear regression
- GLM
Reducción de dimensionalidad
- PCA
- t-SNE
- UMAP
A través de:
✅ Teoría explicada con presentaciones didácticas, paso a paso.
✅ Prácticas en Python detalladas.
✅ Templates para aplicar con datos propios.
✅ Procedimientos probados en ambientes reales.
✅ Material disponibles para descargar.
✅ Videos teóricos cortos ~ 7min.
✅ Webinars exclusivos.
✅ +85 videos teorico-prácticos.
Todos los conceptos giran alrededor de crear un modelo predictivo.
Desde lo básico que es crear un modelo sin ningún tipo de preparación de datos, hasta la creación de un modelo optimizado con hyper-tunning y preparación de datos "inteligente".
¿R ó Python? Ambos!
Esta es la versión con Python, la cual comparte los mismos videos teóricos que R.
En la escuela van a poder estar en contacto con ambos fácilmente, según su necesidad y especialidad.
Pueden adquirir las dos con un importante descuento.
El grupo slack exclusivo tiene canales para ambos lenguajes, y podrás conectar con profesionales de tu misma área.
Soluciones de Educación
Capacitación para los integrantes de la empresa, y asesoramiento sobre como llevar lo aprendido a un proyecto concreto. El objetivo es reducir la fricción natural entre lo aprendido y la necesidad de negocio.
Este material ha sido escogido por varios docentes para su enseñanza. Ya sea que necesiten agregarlo como complemento a una clase, o para ofrecer un curso adicional, pueden consultar si se adecua a la institución
Curriculum del Curso
- B.1 - Introducción, principales indicadores, y problemas! (3:53)
- B.2 - Percentiles - ¿Por qué son tan importantes? Y sus aplicaciones (6:54)
- B.3 - Caso de estudio de variables numéricas (7:29)
- B.4 - Caso de estudio de variables categóricas (3:54)
- P.B.4.1 - Status de los datos y análisis univariado (coronavirus) (9:03)
- P.B.4.2 - Análisis univariado de vars. categ (coronavirus) (8:10)
- P.B.4.3 - Usando pandas profiling para exploración rápida (coronavirus) (4:20)
- P.B.4.4 - Creación de nuevas métricas y análisis de ratios (coronavirus) (3:47)
- P.B.4.5 - Análisis de univariado de categóricas (cuantitativo y gráficos) (11:00)
- P.B.4.6 - Análisis bivariado de variables "categ vs. categ" y "num. vs categ." (8:51)
- P.B.4.7 - Gráficos del análisis bivariado (9:16)
- B.5 - Resumen y aspectos claves (1:57)
- PPTs de la unidad
- C.1 - Correlación - Lineal (9:07)
- C.2 - Correlación - Causalidad y no linealidad (6:39)
- C.3 - Correlación - Variables categóricas y one hot encoding (5:27)
- P.C.2.1 - Correlacion lineal con pearson, spearman, kendal y otros. Gráficos en pandas profiling. (6:40)
- P.C.2.2 - Correlaciones en vars. categ. One Hot Encoding vs. pandas dummy.R y R2. Correlaciones operativas con pairwaise. (10:20)
- P.C.2.3 - Correlación basada en teoría de la información (7:57)
- P.C.2.4 - Resumen de la unidad de correlación (2:19)
- PPTs de la unidad
- D.1 - Tipos de datos en Machine Learning (7:20)
- D.2 - Análisis e imputación de nulos (6:11)
- D.3 - Discretización de variables, distintos criterios (7:07)
- P.D.3.1 - Cómo usar get_dummies en producción (11:22)
- P.D.3.2 - Resumen get_dummies en producción (2:58)
- P.D.3.3 - Discretización de variables (9:19)
- P.D.3.4.1 - Preparación de datos: Los problemas a resolver (5:36)
- P.D.3.4.2 - ¿Cómo remplazar nulos en var. categ y num.? Pandas (7:06)
- P.D.3.4.3 - Resumen de preparación de datos (2:48)
- P.D.3.5 - Anexo - Generalizando el tratamiento de var. categ. (9:14)
- D.4 - Var. de alta cardinalidad y one hot encoding (6:56)
- PPTs de la unidad
- E.1 - Modelos ML - Árbol de decisión (5:00)
- E.2 - Modelos ML - Árbol de decision (6:43)
- E.3 - Modelos ML - Árbol de decisión (1:29)
- P.E.3.1 - Creación y análisis de un árbol de decisión (12:01)
- P.E.3.2 - Parametrización del árbol, muestra y tasa de acierto (7:19)
- E.4 - Modelos ML - Clasificación (Intuición) (5:14)
- PPTs de la unidad
- F.1 - Modelos ML - Clasificación (scoring) (5:35)
- F.2 - Modelos ML - Clasificación (Accuracy) (4:43)
- F.3 - Modelos ML - Introducción a optmización de modelos (hypertuning parameter) (3:21)
- F.4 - Modelos ML - Curva ROC (8:39)
- P.F.4.1 - Modelo de clasficiación. Matriz de confusión y elección del punto de corte (12:37)
- P.F.4.2 - Creación y análisis de la curva ROC (5:21)
- P.F.4.3 - Resumen matriz confusión, punto de corte y ROC (3:19)
- F.5 - Modelos ML - Regresión (8:10)
- P.F.5.1 - Intro al problema de regresión (6:01)
- P.F.5.2 - Hypertuning con grid search para regresión (9:30)
- F.6 - Modelos ML - Regresión (métricas de error) (4:02)
- P.F.6.1 - Calculo y gráficos del error en regresión (6:08)
- P.F.6.2 - Resumen de regresión (3:42)
- PPTs de la unidad
- G.1 - Detección de outliers en variables numéricas (7:18)
- P.G.1.1 - Introducción a los pipelines de sklearn (3:27)
- P.G.1.2 - Ejemplos de transformers (5:32)
- P.G.1.3 - Usando ColumnTransformer con los transformers de num y cat (8:01)
- P.G.1.4 - Creando logistic regresion, ROC en pipelines (5:52)
- P.G.1.5 - Resumen de construcción de pipelines (4:03)
- P.G.1.6.1 - Tratamiento de outliers en var. num. con winsorize (7:57)
- P.G.1.6.2 - Análisis de resultados con datos tratados (4:16)
- G.2 - Modelos ML - Clasificación multiclase y balanceo (4:10)
- G.3 - Modelos ML - Clasificación multiclase (error) (8:21)
- G.4 - Introducción al ejercicio de undersampling (2:13)
- P.G.4.1.1 - Modelo de clasificación multiclase. Validación micro/macro ROC. (7:51)
- P.G.4.1.2 - Validación multiclase con precision, recall y F1. (4:31)
- P.G.4.2 - Balanceo de clases para ahorrar dinero y tiempo (7:39)
- PPTs de la unidad
- H.1 - Modelos ML - Clustering (8:26)
- H.2 - Modelos ML - Análisis de clustering (6:28)
- H.3 - Modelos ML - Métricas calidad en clustering (5:16)
- P.H.3.1 - Análisis exploratorio para clustering de Spotify (8:38)
- P.H.3.2 - Análisis del modelo cluster con coord_plot (11:12)
- H.4 - Modelos ML - Clustering k-means vs hdbscan (2:22)
- P.H.4.1 - Clustering con HDBSCAN en spotify (7:09)
- P.H.4.2 - Parametrizacióntuning del modelo HDBSCAN (7:54)
- P.H.4.3 - Calidad del modelo clustering con Silhouette (8:35)
- H.5 - Preparación y normalización (cuándo y por qué) (5:42)
- H.6 - Anexo - ¿Qué es la matríz de distancia (2:01)
- PPTs de la unidad
- I.1 - Modelos ML - Intro a técnicas de reducción de dimensionalidad (7:46)
- I.2 - Modelos ML - Técnicas más populares de reducción de dimensionalidad (4:43)
- P.I.2.1 - Calculo de PCA en Spotify (7:49)
- P.I.2.2 - Visualización de PCA (5:32)
- P.I.2.3 - Visualizando la estructura de UMAP en Spotify (8:05)
- P.I.2.4 - Visualización interactiva UMAP y resumen de la unidad (4:47)
- I.3 - Intro a la selección de modelos de ML (6:18)
- I.4 - Selección de modelos - Bias vs variance tradeoff (3:52)
- PPTs de la unidad
"Quiero asesaría personalizada"
Podés agendar una sesión individual para que puedas aprovechar al máximo el proceso de aprendizaje.
Si sos de Argentina podés abonar con MercadoPago en pesos.
Ahorra 70% en la compra del 2do curso
Adquirí CDD360 en Python y R 💎
¿Qué incluye?
✅ Descarga de todas las diapositivas usadas
✅ Descarga de los scripts y datasets de Python
✅ Acceso a los +85 videos en HD del curso
✅ Soporte directo por el instructor
✅ Acceso a webinars exclusivos
✅ Acceso a la comunidad de Slack
Suscribite al newsletter y descargate el Brochure PDF de CDD360 con Python: Aquí ⏬.
🎥 Acceso exclusivo a webinars
☑️ Talleres de programación
☑️ Divulgación IA
☑️ Charlas interactivas con el instructor
Una manera de mantenerse actualizado y cubrir aspectos que ayuden a la formación integral de un Científico/a de Datos.
¿Algunos temas posibles? Trabajar como científico de datos, algoritmos genéticos, intro a deep learning y claro, sugerencias de los estudiantes!
🤔 Al terminar el curso, ¿qué voy a saber?
✔️ Identificar el tipo modelo según el problema planteado.
✔️ Comprender los modelos ML más usados en la industria.
✔️ Hacer una preparación de datos orientada a mejorar la precisión.
✔️ Realizar análisis exploratorio e identificar los problemas silenciosos que pueda surgir.
✔️ Conocer el detrás de escena de los modelos ML.
Una manera de mantenerse actualizado y cubrir aspectos que ayuden a la formación integral de un Científico/a de Datos.
¿Algunos temas posibles? Trabajar como científico de datos, algoritmos genéticos, intro a deep learning y claro, sugerencias de los estudiantes!
🗂 Datasets que se verán en el curso
✔️ Médicos, como ataque al corazón, diabetes y el coronavirus (Kaggle).
✔️ Encuestas/demográficos: Estimar el nivel de ingreso.
✔️ Campaña de marketing para vender un producto.
✔️ Datos de canciones de Spotify.
El objetivo de ver distintos datos es que el estudiante pueda generalizar y ver lo común a todos los proyectos.
Curso para formar a un Data Scientist Jr.
Complemento de los temas con webinars y soporte del instructor.
Trabajo remoto
Soporte para armado de portfolio, blog, Github, y otros.
Preguntas Frecuentes
Se pide que se tenga nociones básicas de R ó Python, tal como la manipulación de archivos, crear agrupaciones simples, aplicar funciones, etc.
Este curso es con Python. R y Python tienen sus similitudes y diferencias. Ambos sirven para ambientes laborales y también para investigación.
Lo importante es que se le brindará la asesoría al alumno/a para que aprenda uno o los dos según su conveniencia y necesidad.
Si, tener nociones básicas, y haber hecho algunas practicas. - Manejo básico sobre pandas, numpy. - Instalar y cargar librerías. - Conocer el IDE jupyter, jupyter lab (este último igualmente lo veremos en el curso). - Manejo de estructuras de datos: vector, lista, iteración. - Operar con pandas dataframes, operaciones de acceso a fila/columna. - Reemplazo de valores. - Uso de funciones if, for, iterar sobre lista. No hace falta conocer sklearn (se ve en el curso).
minepy, matplotlib, seaborn, pandas_profiling, pandas, numpy, sklearn, qgrid y ... funPyModeling!
Nota: no todas con el mismo nivel de profundidad, de algunas usaremos una o dos funciones necesarias para ese momento, así van a ir armandose su propio toolset.
El curso tiene un anexo con nociones básicas de estadística, y todos los temas se presentan de manera didáctica, empezando por la intuición, ejemplos funcionales, práctica en código y en algunos casos, las ecuaciones.
Totalmente! Todo está pensado de forma incremental hasta terminar en lo que pudieras llegar a enfrentarse en un trabajo. Te llega un set de datos de cero y tenes que crear un modelo predictivo estable.
Los ejemplos son templates para que uses con tus datos. Los scripts se presentan de manera generalizada. Por ejemplo, en reemplazo de nulos no se muestra cómo reemplazar una sola variable, sino una lista de ellas (trabajar con listas de variables es el escenario más común).
La parte práctica, los videos están explicados de manera genérica y cuando se necesita hacer una referencia al código se aclara para ambos lenguajes.
El costo de adquirir ambos cursos (en R y Python) será de un porcentaje mucho menor a adquirir los dos.
18 meses.
La duración es variable de acuerdo a la experticia y dedicación del alumno/a.
El total neto de horas es de ~ 10 hs (e irá creciendo)
La suma de estos valores no es ni siquiera la cota mínima. La experiencia indica que hay que ver cada video entre 2 y 3 veces para comprender bien el tema. Y luego dedicarle una cantidad de horas prudencial a probar aplicar lo aprendido a nuevos sets de datos.
Una de las mejores maneras de aprender es usar datos propios o tener un objetivo concreto.
Ejemplo: El video de curva ROC dura 8 min, pero asimilar el concepto y tomar decisiones con estos valores puede llevar al menos 3 proyectos. Dadas estas consideraciones la asimilación de todos los conceptos puede llevar aproximadamente 3 meses.
- Todas las slides usadas en los videos teóricos (+75)
- Todos los scripts usados en el laboratorio (+17)
Sí.
Si! Es una excelente manera de aprender. Hay un descuento si se adquieren CDD360 en R y en Python. Avisanos por https://escueladedatosvivos.ai/p/contacto
Si, complete este formulario.
Si, complete este formulario.
No hay problema, completa este formulario. con varias preguntas y te responderé a la brevedad. Se que es una inversión de dinero y si veo que no es para vos, no lo recomendaré.
Pablo Casas
Hay una manera genérica de ver y estudiar cada caso, ese método lo muestro en mis cursos con explicaciones que incluyen gráficos, objetos cotideanos, memes, alguna referencia matemática que no asuste, y código para aprender haciendo.
Publiqué el Libro Vivo de Ciencia de datos y la librería funModeling.
Me gusta explicar (y aprender) con ejemplos prácticos. Es lo que encontrarán en mis cursos y publicaciones." [Ver más]
Linkedin | Twitter