Tag / data science

    Loading posts...
  • Implementing a data science process in your company

    A few days ago I began to think about how a company could implement a data science process, understanding that this type of implementation is transversal to all areas since it involves data collection to the delivery of results. For a process of this nature to be successful, it also implies a change in the mindset of managers and executives. Moreover, for that, we need to show what are the main benefits of making such a profound change in any company.
    It also involves looking for the appropriate profiles according to the type of company, so that they support the necessary daily tasks.

    This article deals with: what is data science, its benefits for a company, what a company needs to implement them and the necessary profiles.

  • Best practices organizing data science projects

    Managing the organization of a data project means evaluate what are the objetives of your organization system, how do you want to structure your data, the way that you want to have a backup system and a version control and finally how to document all your processes.

  • Black box: SVN – Support Vector Machines

    Idea Luego de analizar que significa SVN, vamos a ver la implementacion practica en un problema cotidiano: como funciona el reconocimiento de imagenes, y en particular vamos a intentar replicar el funcionamiento de los sistemas de OCR (Optical Character Recognition). Vamos a utilizar el dataset donado a la UCI Machine learning Data Reposity compuesto por…

  • Deep learning: Neural network

    Vamos a implementar una red neuronal utilizada para prediccion de valores. Idea Vamos a trabajar para poder predecir la fortaleza del concreto, si bien es un material amplisimamente utilizado, debido a que esta compuesto por una gran cantidad de materiales es dificil precedir su fortaleza en el producto final. El objetivo es predecir la fortaleza…

  • Multiple lineal regression (II) Improving the model

    En este post empezamos a trabajar con linear regression, en esta segunda parte vamos a trabajar para mejorar la performance de nuestro modelo, principalmente agregando relaciones entre variables. Mejorando el modelo Vamos a agregar tres nuevas relaciones a traves de la creacion de tres nuevas variables en nuestro dataset: Cambio de la variable edad de…

  • Multiple lineal regression (I)

    Cuando hablamos de modelos de regresion estamos hablando acerca de analizar relaciones entre variables numericas. Que es regresion? es entender las relaciones entre una variable dependiente (que sera el valor a ser predecido) y una o mas variables independientes (las variables predictoras). La forma mas simple de regresion asume una relacion lineal entre una variable…

  • Divide and conquer(II) : classification rules

    Classification rules representa conocimiento en forma de afirmaciones sencillas de si y no, de forma de poder asignarle una clase a ejemplos que no tienen una clasificacion (todavia). Rule learners son usados de forma similar a los arboles de desicion, de la misma forma que los arboles de desicion permiten ver como se estan estableciendo…

  • Divide and conquer(I) : classification using desicion trees

    En este post me gustaria desarrollar otros de los algoritmos necesarios para trabajar en problemas que impliquen clasificacion:  desicion trees y Rule Learners los cuales permiten transformar desiciones complejas en un set de opciones simples. Desicion trees Tal vez una de las tecnicas mas utilizada de machine learning, aplicable a casi cualquier tipo de datos…

  • Naive Bayes Algorithm

    Naive Bayes – a Not so Naive Algorithm Naive Bayes algorithm is called Naive because the algorithm makes a very strong assumption about the data having features independent of each other while in reality, they may be dependent in some way. Assumes that the presence of one feature in a class is completely unrelated to…

  • KNN algorithm

    Dime con quien andas y te dire quien eres KNN algorithm Definicion El algoritmo KNN es un algoritmo simple que almacena todos los casos disponibles y clasifica nuevos casos según una medida de similitud (por ejemplo, funciones de distancia). En este caso vamos a aplicar k-NN classification, donde nuestro output es poder clasificar a un objeto…