ATIVIDADE 1 - CDAS - VISUALIZAÇÃO DE DADOS - 53/2023
Segundo Vanderplas (2016), a análise e o processamento de dados desempenham um papel central na Ciência de Dados, permitindo a extração de insights valiosos a partir de conjuntos de dados complexos. Nesse contexto, as bibliotecas Numpy, Pandas e Matplotlib do Python são ferramentas essenciais, utilizadas por profissionais de Ciência de Dados para manipulação, análise e visualização de dados.
Fonte: VANDERPLAS, J. Manual de Ciência de Dados do Python: ferramentas essenciais para trabalhar com dados. [S. l.]: O'Reilly Media, Inc., 2016.
Numpy é uma biblioteca fundamental para o processamento numérico em Python, que oferece uma estrutura de array multidimensional eficiente, juntamente com funções e operações matemáticas que permitem realizar cálculos complexos em larga escala. Com o Numpy, é possível manipular e transformar dados de forma eficiente, facilitando a preparação dos dados para análise. Considere o código a seguir:
import numpy as np
import matplotlib.pyplot as plt
idades = np.array([25, 30, 35, 40, 45, 50, 55, 60])
salarios = np.array([5000, 6000, 5500, 7000, 6500, 7500, 8000, 9000])
media_salarios = np.mean(salarios)
desvio_padrao_salarios = np.std(salarios)
# Geração do gráfico com Matplotlib
plt.plot(idades, salarios, marker='o')
plt.xlabel('Idades')
plt.ylabel('Salários')
plt.title('Relação Idades-Salários')
plt.grid(True)
plt.show()
O Gráfico 1 produzido por esse código é um gráfico de linhas construído no Matplolib, uma biblioteca de visualização de dados que permite criar uma ampla variedade de gráficos. Com o Matplotlib, os cientistas de dados podem comunicar, de forma eficaz, os padrões e as tendências identificados durante a análise de dados, fornecendo compreensões visuais para os stakeholders.
Gráfico 1 - Tendência salarial hipotética com base em idades
Fonte: o autor.
Descrição da imagem: trata-se de um gráfico de linhas, com oito posições no eixo X, que representa as idades, variando de cinco em cinco, iniciando em 25 e terminando em 60. O eixo Y, que representa os salários, tem nove posições, iniciando em 5000 e variando em 500 até o último valor salarial de 9000.
Observe o código e a saída apresentada por ele. IMPLEMENTE uma solução semelhante utilizando a biblioteca Pandas do Python.