地味に役立つPythonライブラリを紹介(随時追加予定)。派手に役立つもの(numpyとか)はいちいち紹介しない。
ydata_profiling
DataFrameの特徴をサクッと可視化するライブラリ。欠損値とか統計量とか散布図とかはこれで表現できるので、EDAに便利。
from ydata_profiling import ProfileReport profile = ProfileReport(df, title="Pandas Profiling Report")
networkx + pyvis
グラフネットワークの処理をするnetworkxと、それをインタラクティブに可視化するpyvisの組み合わせ。colab環境の場合コンソール上で可視化することはできず、一旦htmlに出力してダウンロードしなければならないのがちょっと不便か。
import networkx as nx from pyvis.network import Network G = nx.Graph() G.add_nodes_from([1, 2, 3, 4, 5, 6]) G.add_edges_from([(1, 4), (1, 5), (1, 6), (3, 5), (3, 6)]) net = Network(notebook=True, cdn_resources='remote') net.from_nx(G) net.show("example.html")
polars
Pandas互換。Pandasと比べて謎の仕様が少なく、またRustベースで書かれていて動作も高速らしい。qiitaの記事が有用そう。
import polars as pl df = pl.read_csv("train.csv")