x
Curso de R

Presentación:

Este curso desarrolla capacidades para aplicar técnicas exploratorias de Data Wranling para manejo y reducción de variables y aplicar técnicas, inferenciales y visualización base para un acercamiento al uso de modelos predictivos de regresión.

Dirigido a:

Dirigido a personas interesados en ampliar sus conocimientos en herramientas de análisis de datos, profesionales que se desempeñen como investigadores, analistas de datos. Personal de procesamiento de Datos, Business Intelligence, Analistas de Datos, etc. Estudiantes de maestría y de pregrado.

Contenido:

Tema 1

* Raw Data. Tidy Data. Code Book. Instalación R. Entorno de trabajo. Entorno de R, instalación de paquetes, operaciones básicas y funciones básicas, objetos: vectores, matrices, dataframes y list.

 Tema 2:

* Lectura y obtención de datos – Excel, SPSS, STATA, SQL, MySQL. Data Wranling: Estudio de Caso 1-Venta de Seguros Médicos. Exploración gráfica. Gráficas en paquete base: barras, sectores, histogramas, densidad de probabilidad, cajas y vigotes. Simulación de medidas de tendencia central y dispersión. Estudio de caso 2. Reporte de Población Mundial (Naciones Unidas)

Tema 3:

* Derivación de variables (cálculo, recodificación). Visualización gráfica II. Estadística Paramétrica. Estudio de caso 3: “Hipertensión arterial y obesidad”. Comparación de Medias T Student, ANOVA, Verificación de supuestos y robustes, estadística para nomalidad, Test de Anderson Darling, Shapiro Wilks. Gráfico de Bandas, Barras con intervalos de confianza.

* Pruebas no paramétricas. Estudio de Caso 4: “Vitamin C on Tooth Growth in Guinea Pigs” Wilcoxon, U de Mann Whitney, Kruskal Wallis. Prueba Chi Cuadrado, McNemar. Estudio de caso 5: encuesta ENAHO- INEI.

Tema 4:

 Test de Correlación, Análisis de regresión simple y multiple, lineal y logística. Test de Grubbs. Bondad de Ajuste de los modelos, análisis de residuos. Interpretación de parámetros.

Expositor: Mg. Wilmer Fuentes Neira. Data Science Specialist.

 Número de Alumnos: 15 – 20.

Créditos académicos: 1.5 créditos (Auspicio – Univ. Ciencias y Humanidades – Unidad de Investigación)

Horas presenciales: 16 horas

Horas de aprendizaje no presencial: 26 horas

 
Grupo 1: Sábados 8:00 am – 1:00 pm
Inicio / Termino: 16  Enero /06  Febrero 2016

Grupo 2: Martes y Jueves 5:30 – 9:00 pm
Inicio / Termino:   4  Febrero /25  Febrero 2016

 Requerimientos:

  • Estadistica básica.
  • Cada alumno(a) debe tener portatil con puerto wifi habilitado.

Inversión: 400.00 soles – Interbank 376-3056309022  o Vía PayPal ($ 125.0)
Informes: Wilmer Fuentes. Teléfono: +51 997498295, analista@datascienceperu.com
Local : Av. Universitaria 5175, Los Olivos (cruce con Panamericana Norte)

PREINSCRIPCION – INSCRIPCIÓN

https://goo.gl/mv2IY4
 
LOGO OFICIAL UCH

PAGOS VIA PAYPAL CON TARJETA DE CREDITO


 

1
Leave a reply
    x
    Correlación & Causalidad

    CORRELACION VS CAUSALIDAD

    Original en:  http://www.bigdatalens.com/blog/2013/4/17/correlation-causality

    Revisamos una publicación del columnista David Brooks en Big Data. Lo puedes encontrar aquí. El tiene razón al señalar que los esfuerzos de los defensores de Big Data para romper el tradicional axioma de que “la correlación no es igual a la causalidad” en Data Science es un error.
    La frase  “correlación no es igual a la causalidad” nunca tuvo la intención de minimizar o de lavado de mano sobre cualquiera de las técnicas analíticas que pueden ser mal aplicadas para establecer causalidad. Más bien la frase tiene la intención de  asegurar a los Data Scientist la adición de una narración a las estadísticas. (more…)

    1
    Leave a reply
      x
      Estudios nacionales de factores de riesgo cardiovascular en el Perú

      Entérese cual son las enfermedades cardiovasculares más prevalentes del Perú en un Entorno web sencillo e Interactivo, por ejemplo en que ciudades existen más hipertensión, quienes son los más afectados según su grado de instrucción, nivel socio-económicos, entre otros factores.

      El estudio Tornasol I fue realizado el 2004 y el estudio Tornasol II el 2010

      https://datascienceperu.shinyapps.io/tornasol/





      1
      Leave a reply
        x
        Asesoría de Tesis en el Perú , 10 Mitos Urbanos más Frecuentes entre asesores-revisores de investigaciones cuantitativas

         Esta vez, no analizaremos los errores de los tesistas, que son muy trillados. Más bien trataremos de los prejuicios de los asesores, que pueden muchas veces afectar la calidad científica,
        esto se ocurre generalmente por el principio de autoridad; es un hecho que la experiencia va ligada a un exceso de autoconfianza, a saber y pensar que ya hemos logrado asesorar “exitosamente” a muchos tesistas y que los libros de textos que creemos clásicos son necesariamente básicos.

        No queriendo dar más prolegómenos y asumiendo que el asesor ya constató que los objetivos, hipótesis y que las definiciones de las variables tienen lógica consistentes:

        Mito 1:

        “Efectivamente tu estudio es de tipo causal . . . ”

         El abuso del término “causa”, “causales”, relaciones de causa – efecto, en realidad deterioran la noción de ciencia, ésta no investiga nunca las causas de “algo” en stric sensu, el alcance de los científicos sólo llega a evaluar la asociación de eventos o factores contribuyentes en concordacia a sus modelos teóricos, si la ciencia estudiara las causas, tendría que estudiar la causa de las causas, es decir a un Dios, fusionar la ciencia a teología. David Hume aclara la “causación” en el problema del conocimiento y la mayoría de enfoques epistemológicos, retiran a la “causalidad” como cuestión que pueda abordar la ciencia.

        Mito 2:

        “Para determinar el tamaño muestral emplea esta fórmula para medias o para proporciones, … pero te puede ayudar este software xyz

         Nos tienta  de visu  determinar el diseño de investigación, tamaño muestral (formula)para una tesis. Si bien los diseños clásicos de los libros y la experiencia son un buen aporte inicial, la manera óptima se alcanza al proceder como corresponde al paradigma o linea de investigación de nuestro tema, por ejemplo: plantear que una dieta favorece la condición del lupus, implica un tamaño muestral y diseño muy conocido entre los investigadores de dicha línea(dieta – lupus, leer artículos originales), luego de proceder como lo hacen estos investigadores, se podría pensar en implementar algunas mejoras, mayor o menor tamaño muestral, asignaciones aleatorias, etc.

        Mito 3:

        “ … tu estudio permite plantear varias hipótesis por ejemplo … si puedes acceder a la información no debes desaprovecharla”

         Al plantear muchas hipótesis y objetivos específicos, caemos en ser muy ambiciosos o genéricos ejemplo:

        “Identificar los factores de riesgo de macrosomía fetal en el Hospital Nacional Dos de Mayo”

        Este tipo de objetivo resulta en muchas dificultades metodológicas. Sabemos que el diseño investigación va a determinar un tamaño muestral y éste se limita a responder cuestiones muy especificas. Para este ejemplo de tesis, no se pudo corroborar que la diabetes materna es un factor de riesgo(que es conocido en la literatura) en el desarrollo de macrosomía, atribuimos que la prevalencia baja (ejemplo<4%) de diabetes no tenida en cuenta al plantear diseño de muestra y los “ruidos” del azar son los responsables de estos hallazgos . Los estudios multipropositos deben ser reservados para Tesis subvencionadas, ya que implican tamaños de muestra grande. Por otra parte algunas universidades peruanas consideran que un objetivo general inferencial debe corresponder con por lo menos tres objetivos específicos, es cual es “saludable” a nivel de pre-grado.

        Mito 4:

        “Se debe consignar en el título de tesis, la institución(hospital, empresa) y el año de realización del estudio”.

        Por la tradición secular se observa está praxis, pues la mayoría de tesis lo han hecho y desaguisadamente lo han consignado como importe. La cuestión de asignar la fecha e institución, implica que los resultados sólo tienen nivel de representatividad para dicha fecha e institución; decisión razonable cuando se aplica a la estimación de la intención voto político, prevalencia de una enfermedad, entre otros.Pero si estudiamos una propiedad física, química, biológica o fisiológica, éstas no dependen mucho la época o lugar en que se ejecute, por ejemplo: Asociación entre la carga de horas extras laborales y el síndrome Burn Out, Efecto de la atorvastatina en la dilatación del endotelio vascular, etc.

         Mito 5:

         “Las tablas de los resultados que presenten comparaciones deben ir acompañados de una prueba estadísticas.”

         La premisa más común de los asesores es: “… la asociación de esas dos variables, podría ser un hallazgo importante una contribución, un valor agregado a la tesis”.

        image001

        Realizar y presentar estadística inferencial(Chi cuadrado, T de Student, etc) para la mayoría de tablas y gráficas posibles es epistemológicamente objetable. La estadística inferencial sólo debe ser aplicada y presentada para contrastar las hipótesis de investigación, presentarla de modo exploratorio conlleva a cometer errores de tipo I y de tipo II. Incluso si una hipótesis se pueda contrastar de varios modos(modelo bivariante o multivariante), sólo se debe escoger un método para su presentación.

         Mito 6: “Hay que ingresar todas las variables posibles al modelo de regresión multiple

         La factibilidad de error tipo I, está alrededor del 5%, es decir que si “A” en realidad no se relaciona con otras “20” variables, las técnicas estadística encontrarán por lo menos que una(5% x 20) de estas 20 variables  se asocia significativamente, pero es el azar que nos juega malas pasadas, por ejemplo sería factible encontrar que el número de hijos se asocia con el habito de fumar.

        Mito 7:

         “La mayor parte de los cálculos de resultados estadísticos deben ser incluidos en la tesis.”

        Tenemos que derrumbar este mito. Si aplicamos una prueba no paramétrica para nuestra hipótesis, obviamente es porque los datos no soportan los supuestos necesarios para la pruebas inferenciales paramétricas, en este caso se consigna el tratamiento estadístico exploratorio de los datos en la sección de Metodología y los detalles exploratorios estadísticos (prueba kolmogorov para distribución normal, histogramas, etc) se pueden incluir en los anexos, no en la sección de Resultados, así se evita datos distractores al lector.

        normalMito 8 “ El buen investigador tiene que realizar todo el proceso investigativo, recoger las encuestas, limpiar los tubos de ensayos, realizar la estadísticas, etc. ”

        Casi nadie afirma esta sentencia, pero se da por entendida y el tesista tiene temor a afirmar que no ha participado totalmente en la parte operativa del proceso. Sin embargo, el investigador es un gestor/gerente de conocimiento científico, el diseñador de lo que debe hacerse. Así como la eficiencia de una economía de mercado se basa a la especialización, el ámbito del desarrollo de la investigación científica lo exigue. Consentir esta idea es simplemente plantar escollos, entre neófitos de la investigación, equivale a un bullying intelectual.

        Mito 9

        “Las Conclusiones deben guardar relación con tus objetivos y si hay otro hallazgo importante(fortuito- no planeado) lopuedes incluir”

         Muchas veces, el hecho de ver muchas conclusiones alegra a algunos revisores, pero epistemológicamente es incorrecto, no se debe concluir en base a hallazgos incidentales. La sección de Discusión es la única en que se nos puede permitirlanzar ciertas elucubraciones.

        Mito 10:

        “ Una buena tesis guarda relación estricta entre el Protocolo de Investigación y el Informe de Tesis”

        Hasta cierto punto es razonable y es justificable si se contara con un equipo de especialistas que haya participado de todo el proceso, pero nuestra realidad es muy diferente.

        Resolvamos el asunto haciendo la analogía entre un Presupuesto Económico y la ejecución presupuestal. La eficiencia se mide en el cumplimiento de los objetivos, tal razonamiento también es aplicable a cuestiones de tesis de grado. Si convenimos cambiar de marca de reactivos, adicionar alguna estrategia para seguimiento efectivo de voluntarios, si observamos que la estadística propuesta en el Protocolo no se adapta a la naturaleza de los datos obtenidos, debemos adoptar la medidas optimizadoras del caso, e informar como realmente se procedió, en el reporte de tesis.

        Colofón

        Así vemos que estos mitos son resultado de creer que sabemos, por lo cual, el gran reto es arrostrar al tesista y hacerle patente lo que no sabemos, lo cual precisamente es el próximo paso a dar, en otras palabras ser consecuente con Socrates, ser parteros del conocimiento.

        Referencias bibliográficas

        Armitage, P., Berry, G., & Matthews, J. N. S. (2008). Statistical Methods in Medical Research. John Wiley & Sons.

        Day, R. A., & Gastel, B. (2011). How to Write and Publish a Scientific Paper: Seventh Edition. ABC-CLIO.

        Ransanz, A. R. P. (1999). Kuhn y el Cambio Científico. Fondo de la Cultura Económica.
         

        `[paypal-donation]`

        1
        Leave a reply
          x
          Ejercicio de Cierre de Taller – Red Rimac – MINSA

          #En siguiente registro representa en la línea una actividad realizada en una visita domicialiria realizada por un conjunto de profesionales de salud.
          www.datascienceperu.com/registros_de_actividades_en_visitas_domiciliarias.xlsx
          #1.¿En que periodo están comprendidas las actividades?
          #2.¿Cuántas actividades se realizó?
          #3.¿Cuál es el total te personas beneficiarias?
          #4.¿Del total cuantas fueron gestantes y cuantos fueron los niños?
          #5.¿Cuál es la cantidad atendida de niños coberturados por trimestre/año?
           
          Ejemplo de MAPA

          Cierre del Curso – Taller

           

          0
          Leave a reply
            x
            Bienvenida – Curso para personal de reportes estadisticos del MINSA – UCH

            El presente de Mes de Julio 2014 tuvimos el agrado de participar todos los jueves con el equipo organizador UCH – Dirección de Salud del Rimac.
            La presentación que hemos estamos trabajando es la siguiente.

            http://www.datascienceperu.com/DIA_I.pptx

            Tarea para el Jueves 17, consiste en convertir la diapositiva 30 a un formato de excel , al estilo de “Data Ordenada”, invente 3 registros, recuerde el cuaderno de codigos y la lista de instrucciones.

            0
            Leave a reply
              x
              Que es el Data Science

              Que es el Data Science?

              Nueva disciplina Emergente

              90%

              De los datos mundiales  han sido producido en los dos últimos años.

              Explosión de datos

              Los datos son cada vez más accesible y ubicuos. Ahora estamos digitalizando contenidos analógicos que se ha creado durante siglos y recolectando innumerables y nuevos tipos de datos de registrados en la web, dispositivos móviles, sensores, instrumentos y transacciones. IBM estima que el 90 por ciento de los datos en el mundo de hoy se ha creado en los últimos dos años.

              Al mismo tiempo, las nuevas tecnologías están surgiendo para organizar y dar sentido a esta avalancha de datos. Ahora podemos identificar patrones y regularidades en los datos de todo tipo que nos permitan el avance de becas, mejorar la condición humana, crear valor comercial y social. El auge de la “Big data” tiene el potencial para profundizar nuestro entendimiento de los fenómenos que van desde los sistemas físicos, biológicos hasta el comportamiento social y económico.*

              (more…)

              0
              Leave a reply