SciPy¶
- Baut auf NumPy auf
- Kann numerisch integrieren, DGLs lösen, optimieren, minimieren, …
- Enthält auch physikalische Konstanten und wichtige mathematische Funktionen
Überblick über (fast) alles weitere was SciPy kann gibt es hier:
%%javascript
$.getScript('https://kmahelona.github.io/ipython_notebook_goodies/ipython_notebook_toc.js')
Inhalt¶
Abrufen von Naturkonstanten¶
Wenn solche Konstanten genutzt werden, muss das korrekt mitgeteilt, also zitiert werden. Darauf gehen wir nächste Woche im LaTeX-Workshop ein :-)
(Quelle hier: scipy + version)
import numpy as np
# physical constants
import scipy.constants as const
const.epsilon_0
# a list of all included constants
# search the web for "scipy physical constants reference guide" to find the same list
# We don't print the full list in the html file, to keep the notebook more managable
# const.physical_constants
# Here are the keys for the availabel constants instead
const.physical_constants.keys()
# convert temperatures:
print(const.convert_temperature(100, "c", "K"))
print(const.convert_temperature(100, "kelvin", "Celsius"))
# convert angles:
print(np.rad2deg(np.pi))
print(np.deg2rad(90))
const.physical_constants["proton mass"]
# value, unit, error
Fitten¶
Oft möchte man eine Funktion mit freien Parametern, zum Beispiel eine Erwartung aus der Theorie, an die gemessenen Werte anpassen. Dies nennt man Fit.
Die Funktion scipy.optimize.curve_fit
nutzt die numerische Methode der kleinsten Quadrate, die arbiträre Funktionen fitten kann.
Für Funktionen, die eine Linearkombination von Einzelfunktionen sind, also
$$ f(x) = \sum_i^N a_i \cdot f_i(x) $$
existiert eine analytische Lösung. Deswegen sollten in solchen Fällen (z.B. alle Polynome) entsprechende Funktionen genutzt werden (z.B. np.polyfit
).
Lineare Regression bzw. Regression von Polynomen¶
Im folgenden wird eine lineare Regression mit np.polyfit
durchgeführt:
$$ f(x) = a + b \cdot x $$
# prepare plot
%matplotlib inline
import matplotlib.pyplot as plt
plt.rcParams["figure.figsize"] = (10, 8)
plt.rcParams["font.size"] = 16
# load data
x, y = np.genfromtxt("data/example_data_linear.txt", unpack=True)
fig, ax = plt.subplots(1, 1, layout="constrained")
ax.plot(x, y, "k.", label="example data");
# Fit a polynomial of degree 1, return covariance matrix
params, covariance_matrix = np.polyfit(x, y, deg=1, cov=True)
errors = np.sqrt(np.diag(covariance_matrix))
for name, value, error in zip("ab", params, errors):
print(f"{name} = {value:.3f} ± {error:.3f}")
x_plot = np.linspace(0, 10)
fig, ax = plt.subplots(1, 1, layout="constrained")
ax.plot(x, y, ".", label="Messwerte")
ax.plot(
x_plot,
params[0] * x_plot + params[1],
label="Lineare Regression",
linewidth=3,
)
ax.legend();
Nichtlineare Funktionen der Parameter¶
Wenn eine Funktion nicht linear bezüglich der freien Parameter ist, muss die Lösung numerisch gefunden werden.
Hierbei kann es sein, dass der Minimierungsalgorithmus in lokale Maxima hineinläuft und unsinnige Ergebnisse liefert, dies kann mit guten Startwerten meistens vermieden werden.
Als Beispiel einer komplexeren Funktion wird im Folgenden die Sigmoidfunktion
verwendet (Ähnlich zum tanh
):
$$ f(x; a, b, c) = \frac{a}{1 + \exp(-(x-b))} + c$$
def sigmoid(x, a, b, c):
return a / (1 + np.exp(-(x - b))) + c
x_plot = np.linspace(-50, 50, 1000)
ax.cla()
ax.set_xlabel("x")
ax.set_ylabel("y")
ax.plot(x_plot, sigmoid(x_plot, 1, 0, 0), label="Sigmoid")
ax.plot(x_plot, np.tanh(x_plot), label="tanh")
ax.legend()
fig
Die Messwerte aus einem Praktikumsversuch:
x, y = np.loadtxt("data/fit_data_with_init_values.txt", unpack=True)
ax.cla()
ax.plot(x, y, "o", label=r"Messwerte")
ax.set_xlabel("Temperatur / °C")
ax.set_ylabel("$GP$")
fig
Ein einfacher Fit wie oben funktioniert hier nicht so gut:
from scipy.optimize import curve_fit
params, covariance_matrix = curve_fit(sigmoid, x, y)
uncertainties = np.sqrt(np.diag(covariance_matrix))
for name, value, uncertainty in zip("abc", params, uncertainties):
print(f"{name} = {value:8.3f} ± {uncertainty:.3f}")
Schaut man sich die berechnete Ausgleichskurve an sieht man auch, dass das nicht stimmen kann:
ax.cla()
ax.set_xlabel("Temperatur / °C")
ax.set_ylabel("$GP$")
ax.plot(x, y, "o", label="Messdaten")
ax.plot(x_plot, sigmoid(x_plot, *params), "-", label=r"Sigmoid Fit")
ax.legend(loc="best")
fig
Was macht man jetzt?
Bei solchen Fragen hilft die Dokumentation der Pythonmodule (hier: scipy) oder Stack Overflow weiter.
Folgendes Google-Muster ist ein guter Anfang (beachte englische Sprache):
python <module-name> <function-name> <What went wrong?>
Also in diesem Fall: python scipy curve_fit fails
Damit dieser Fit funktioniert müssen die Startwerte für den internen Minimierungsalgorithmus angepasst werden.
Aus der Dokumentation/Stack Overflow wissen wir jetzt, dass man mit dem
keyword argument p0
(Standardwert is p0=(1,1,1)
) die Startwerte einstellt:
params, covariance_matrix = curve_fit(sigmoid, x, y, p0=(-1, 40, 1))
uncertainties = np.sqrt(np.diag(covariance_matrix))
for name, value, uncertainty in zip("abc", params, uncertainties):
print(f"{name} = {value:8.3f} ± {uncertainty:.3f}")
ax.cla()
ax.set_xlabel("Temperatur / °C")
ax.set_ylabel("$GP$")
x_plot = np.linspace(0, 50, 1000)
ax.plot(x, y, "o", label="Messwerte")
ax.plot(x_plot, sigmoid(x_plot, *params), "-", label="Sigmoid Fit")
ax.legend(loc="best")
fig
Zum Vergleich der beiden Anfangswerte (seeds) kann man sich die einmal ansehen und mit den angepassten Parametern vergleichen:
default_seed = (1, 1, 1)
good_seed = (-1, 40, 1)
parameter = [default_seed, good_seed, params]
x_plot = np.linspace(-80, 80, 1000)
ax.cla()
for a, b, c in parameter:
ax.plot(x_plot, sigmoid(x_plot, a, b, c), label=f"f(x; {a:0.3f}, {b:0.3f}, {c:0.3f})")
ax.legend()
fig
Die richtigen Startwerte findet man entweder durch
trial and error => einfach ausprobieren bis es klappt
nachdenken => siehe unten
Im obigen Beispiel musste nur der Parameter b
angepasst werden,
weil der für die Form der Kurve sehr wichtig ist.
$$ f(x; a, b, c) = \frac{a}{1 + \exp(-(x-b))} + c$$
bs = [0, 20, 40]
x_plot = np.linspace(-50, 50, 1000)
ax.cla()
ax.set_xlabel("x")
ax.set_ylabel("y")
for b in bs:
(line,) = ax.plot(x_plot, sigmoid(x_plot, 1, b, 0), label=f"f(x; 1, {b}, 0)")
ax.plot(
b,
sigmoid(b, 1, b, 0),
"o",
color=line.get_color(),
ms=20,
label=f"f(x={b}) = {sigmoid(b, 1, b, 0)}",
)
ax.legend()
fig
Der Parameter $b$ gibt den $x$-Wert an, bei dem die Funktion auf die Hälfte des Maximums abgefallen ist.
Bei den Messwerten oben ist die Stelle ungefähr bei $x=40$, also ist b = 40
ein guter Startwert.
Das lässt sich auch automatisieren:
ax.cla()
ax.plot(x, y, "o")
idx = np.argmin(np.abs(y - 0.5))
ax.plot(x[idx], y[idx], "o")
print(x[idx], y[idx])
fig
Weitere nützliche Funktionen für das Praktikum¶
Folgende Eigenschaften von Scipy sollen nur die Idee vermitteln, was noch alles möglich ist.
Statistische Verteilungen und Funktionen¶
Das scipy.stats
Modul enthält viele Wahrscheinlichkeitsverteilungen und -funktionen. Als Beispiel wird hier jedoch nur die Standardabweichung des Mittelwertes berechnet.
import numpy as np
x = np.array([2, 5, 7]) # create test array
from scipy.stats import sem
print(sem(x)) # standard error of the mean
Finden von Peaks¶
Das scipy.signal
Modul enthält Funktionen zur Signalverarbeitung. Das kann interessant sein zum automatischen Finden von Peaks, oder Bestimmung der Periodizität.
# example data
from scipy.datasets import electrocardiogram
x = electrocardiogram()[2000:4000]
# find peaks
from scipy.signal import find_peaks
peaks, _ = find_peaks(x, distance=150)
fig, ax = plt.subplots(1, 1, layout="constrained")
ax.plot(x, label="EKG")
ax.plot(peaks, x[peaks], "x", ms=10, label="peaks")
ax.legend();