Estadistica Practica Para Ciencia De Datos Y Python High Quality Direct
Todo científico de datos conoce la frase "correlación no es causalidad". Pero en la práctica, caemos en la trampa.
# Probabilidad de tener exactamente 7 éxitos en 10 intentos con p=0.5
prob_exacta = stats.binom.pmf(k=7, n=10, p=0.5)
print(f"P(X=7) = prob_exacta:.3f")
sns.set_theme(style='whitegrid') np.random.seed(42) Todo científico de datos conoce la frase "correlación
Use a high-performance stack:
import pandas as pd import numpy as np import scipy.stats as stats import statsmodels.api as sm from statsmodels.stats import weightstats as ws import matplotlib.pyplot as plt import seaborn as sns from sklearn.linear_model import LinearRegression, LogisticRegression from sklearn.metrics import mean_squared_error, confusion_matrix
stat, p_valor = stats.shapiro(datos_normales) print(f"p-valor: p_valor:.4f") # Si p > 0.05, aceptamos normalidad.Use a high-performance stack: import pandas as pd
from scipy import stats
import matplotlib.pyplot as plt
import seaborn as sns
tiempos = [120, 122, 119, 121, 123, 118, 220] # El 220 parece outlier 3.0)
# p <
# Is average tip ≠ $3.00?
stats.ttest_1samp(df['tip'], 3.0)
# p < 0.05 → reject null (mean is different)