cleanup by ruff

1afda9c2 · Florian Ziemen · e5f20a36 · 1afda9c2
Commit 1afda9c2 authored 2 months ago by Florian Ziemen
--- a/processing/create_yaml.ipynb
+++ b/processing/create_yaml.ipynb
@@ -11,7 +11,6 @@
    "from pathlib import Path\n",
    "import re\n",
    "import logging\n",
-    "from typing import Union\n",
    "import xarray as xr\n",
    "import warnings"
   ]
@@ -35,31 +34,54 @@
   "metadata": {},
   "outputs": [],
   "source": [
-    "def process_table_file (table_file: Path):\n",
-    "    df = read_table(table_file=table_file, )\n",
-    "    table_dir = Path (\"../catalog\") / table_file.stem\n",
+    "def process_table_file(table_file: Path):\n",
+    "    df = read_table(\n",
+    "        table_file=table_file,\n",
+    "    )\n",
+    "    table_dir = Path(\"../catalog\") / table_file.stem\n",
    "    table_dir.mkdir(exist_ok=True)\n",
    "    catalog = process_table(df, table_dir)\n",
-    "        \n",
-    "    with open (table_dir/Path(\"main.yaml\"), 'w') as outfile:\n",
+    "\n",
+    "    with open(table_dir / Path(\"main.yaml\"), \"w\") as outfile:\n",
    "        yaml.dump(catalog, outfile)\n",
    "\n",
+    "\n",
    "def read_table(table_file: Path) -> pd.DataFrame:\n",
-    "    names = ['garbage1', 'simulation_id' , \"experiment\", \"resolution\", 'start_date', 'end_date', 'path', 'contact', 'garbage2']\n",
-    "    usecols = [ x for x in names if 'garbage' not in x]\n",
-    "    converters = { x : lambda s: s.strip() for x in usecols if \"date not in x\"}\n",
-    "    df = pd.read_csv(table_file,  delimiter =  '|',  names = names , usecols=usecols, header=1, converters=converters)\n",
-    "    df.iloc[:,0] = df.iloc[:,0].str.replace(\"\\\\_\", \"_\").str.strip()\n",
-    "    df.iloc[:,-2] = df.iloc[:,-2].str.replace(\"\\\\_\", \"_\").str.strip()\n",
+    "    names = [\n",
+    "        \"garbage1\",\n",
+    "        \"simulation_id\",\n",
+    "        \"experiment\",\n",
+    "        \"resolution\",\n",
+    "        \"start_date\",\n",
+    "        \"end_date\",\n",
+    "        \"path\",\n",
+    "        \"contact\",\n",
+    "        \"garbage2\",\n",
+    "    ]\n",
+    "    usecols = [x for x in names if \"garbage\" not in x]\n",
+    "    converters = {x: lambda s: s.strip() for x in usecols if \"date not in x\"}\n",
+    "    df = pd.read_csv(\n",
+    "        table_file,\n",
+    "        delimiter=\"|\",\n",
+    "        names=names,\n",
+    "        usecols=usecols,\n",
+    "        header=1,\n",
+    "        converters=converters,\n",
+    "    )\n",
+    "    df.iloc[:, 0] = df.iloc[:, 0].str.replace(\"\\\\_\", \"_\").str.strip()\n",
+    "    df.iloc[:, -2] = df.iloc[:, -2].str.replace(\"\\\\_\", \"_\").str.strip()\n",
    "    df[\"path\"] = [Path(x) for x in df[\"path\"]]\n",
    "    logger.debug(df)\n",
-    "    return df    \n",
+    "    return df\n",
+    "\n",
    "\n",
    "def process_table(df: pd.DataFrame, table_dir: Path) -> dict:\n",
-    "    catalog = dict (sources = dict())\n",
-    "    \n",
+    "    catalog = dict(sources=dict())\n",
+    "\n",
    "    for _, row in df.iterrows():\n",
-    "        catalog['sources'] [row['simulation_id'] ]= create_entry (row, table_dir=table_dir)\n",
+    "        catalog[\"sources\"][row[\"simulation_id\"]] = create_entry(\n",
+    "            row, table_dir=table_dir\n",
+    "        )\n",
    "    return catalog"
   ]
  },
@@ -69,18 +91,25 @@
   "metadata": {},
   "outputs": [],
   "source": [
-    "def create_entry  ( experiment, table_dir: Path) :\n",
-    "    entry_filename = table_dir / Path (f\"{experiment['simulation_id']}.yaml\")\n",
-    "    entry_content = {'sources' : dict()}\n",
-    "    filegroups = analyze_dataset(experiment['simulation_id'], experiment['path'])\n",
+    "def create_entry(experiment, table_dir: Path):\n",
+    "    entry_filename = table_dir / Path(f\"{experiment['simulation_id']}.yaml\")\n",
+    "    entry_content = {\"sources\": dict()}\n",
+    "    filegroups = analyze_dataset(experiment[\"simulation_id\"], experiment[\"path\"])\n",
    "    for filegroup, files in filegroups.items():\n",
-    "        entry_content['sources'][filegroup] = create_stream (experiment, filegroup, files)\n",
-    "    with open (entry_filename, 'w') as outfile:\n",
+    "        entry_content[\"sources\"][filegroup] = create_stream(\n",
+    "            experiment, filegroup, files\n",
+    "        )\n",
+    "    with open(entry_filename, \"w\") as outfile:\n",
    "        yaml.dump(entry_content, outfile)\n",
    "\n",
-    "    return  dict ( driver = \"yaml_file_cat\", description= experiment[\"experiment\"],  args = dict (path = \"{{CATALOG_DIR}}/\" + f'{experiment[\"simulation_id\"]}.yaml'))\n",
+    "    return dict(\n",
+    "        driver=\"yaml_file_cat\",\n",
+    "        description=experiment[\"experiment\"],\n",
+    "        args=dict(path=\"{{CATALOG_DIR}}/\" + f'{experiment[\"simulation_id\"]}.yaml'),\n",
+    "    )\n",
+    "\n",
    "\n",
-    "def analyze_dataset (id, input_dir: Path):\n",
+    "def analyze_dataset(id, input_dir: Path):\n",
    "    files = gen_files(id, input_dir)\n",
    "    id, parts = split_filenamens(id, files)\n",
    "    patterns = get_patterns(parts)\n",
@@ -88,40 +117,54 @@
    "    filelist = gen_filelist(input_dir, id, patterns)\n",
    "    return filelist\n",
    "\n",
+    "\n",
    "def gen_files(id, input_dir):\n",
-    "    files = [str (x) for x in input_dir.glob(f\"{id}*.nc\")]\n",
-    "    files = [ x for x in files if \"restart\" not in x]\n",
-    "    return [ Path(x) for x in files ]\n",
+    "    files = [str(x) for x in input_dir.glob(f\"{id}*.nc\")]\n",
+    "    files = [x for x in files if \"restart\" not in x]\n",
+    "    return [Path(x) for x in files]\n",
    "\n",
    "\n",
    "def split_filenamens(id, files):\n",
-    "    stems = list (f.stem for f in files)\n",
-    "    parts = [ x[len(id):]for x in stems]\n",
+    "    stems = list(f.stem for f in files)\n",
+    "    parts = [x[len(id) :] for x in stems]\n",
    "    return id, parts\n",
    "\n",
-    "def gen_filelist (input_dir, id, patterns):\n",
-    "    return { pattern : list (input_dir.glob (f\"{id}*{pattern}*.nc\")) for pattern in patterns}\n",
+    "\n",
+    "def gen_filelist(input_dir, id, patterns):\n",
+    "    return {\n",
+    "        pattern: list(input_dir.glob(f\"{id}*{pattern}*.nc\")) for pattern in patterns\n",
+    "    }\n",
    "\n",
    "\n",
-    "def get_patterns (parts):\n",
-    "    patterns = { re.sub(r'\\d{4}-\\d{2}-\\d{2}_', \"\", x ) for x in parts} # r'\\\\d\\{4\\}-\\\\d\\{2\\}-\\\\d\\{2\\}'\n",
-    "    patterns = { re.sub(r'\\d{8}T\\d{6}Z', \"\", x) for x in patterns} # r'\\\\d\\{8\\}T\\\\d\\{6\\}Z'\n",
-    "    patterns = { re.sub (r'^_', '', x) for x in patterns }\n",
-    "    patterns = { re.sub (r'_$', '', x) for x in patterns }\n",
+    "def get_patterns(parts):\n",
+    "    patterns = {\n",
+    "        re.sub(r\"\\d{4}-\\d{2}-\\d{2}_\", \"\", x) for x in parts\n",
+    "    }  # r'\\\\d\\{4\\}-\\\\d\\{2\\}-\\\\d\\{2\\}'\n",
+    "    patterns = {\n",
+    "        re.sub(r\"\\d{8}T\\d{6}Z\", \"\", x) for x in patterns\n",
+    "    }  # r'\\\\d\\{8\\}T\\\\d\\{6\\}Z'\n",
+    "    patterns = {re.sub(r\"^_\", \"\", x) for x in patterns}\n",
+    "    patterns = {re.sub(r\"_$\", \"\", x) for x in patterns}\n",
    "    return patterns\n",
    "\n",
-    "def create_stream (experiment, filegroup, files):\n",
-    "    stream = dict (driver = \"netcdf\")\n",
-    "    stream [ \"args\" ] = dict (chunks = dict ( time= 1), xarray_kwargs = dict (use_cftime = True), urlpath = [ str(x) for x in files])\n",
-    "    stream [ \"metadata\"] = { k : v.strip() for k,v in experiment.items() if k != \"path\" }\n",
-    "    stream [\"metadata\"] |= get_variable_metadata(files)\n",
+    "\n",
+    "def create_stream(experiment, filegroup, files):\n",
+    "    stream = dict(driver=\"netcdf\")\n",
+    "    stream[\"args\"] = dict(\n",
+    "        chunks=dict(time=1),\n",
+    "        xarray_kwargs=dict(use_cftime=True),\n",
+    "        urlpath=[str(x) for x in files],\n",
+    "    )\n",
+    "    stream[\"metadata\"] = {k: v.strip() for k, v in experiment.items() if k != \"path\"}\n",
+    "    stream[\"metadata\"] |= get_variable_metadata(files)\n",
    "    return stream\n",
    "\n",
+    "\n",
    "def get_variable_metadata(files):\n",
    "    ds = xr.open_dataset(files[0])\n",
-    "    variables = sorted ( x for x in ds)\n",
-    "    long_names = [ ds[x].attrs.get(\"long_name\", x) for x in variables]\n",
-    "    return dict (variables = variables, variable_long_names = long_names)"
+    "    variables = sorted(x for x in ds)\n",
+    "    long_names = [ds[x].attrs.get(\"long_name\", x) for x in variables]\n",
+    "    return dict(variables=variables, variable_long_names=long_names)"
   ]
  },
  {
@@ -131,13 +174,16 @@
   "outputs": [],
   "source": [
    "table_files = sorted(Path(\"../inputs\").glob(\"*.md\"))\n",
-    "main_cat = dict (sources = dict())\n",
+    "main_cat = dict(sources=dict())\n",
    "for table_file in table_files:\n",
    "    table = table_file.stem\n",
    "    process_table_file(table_file)\n",
-    "    main_cat [\"sources\"][table] = dict ( driver = \"yaml_file_cat\",  args = dict (path = \"{{CATALOG_DIR}}/\" + f\"{table}/main.yaml\"))\n",
+    "    main_cat[\"sources\"][table] = dict(\n",
+    "        driver=\"yaml_file_cat\",\n",
+    "        args=dict(path=\"{{CATALOG_DIR}}/\" + f\"{table}/main.yaml\"),\n",
+    "    )\n",
    "\n",
-    "    with open (Path (\"../catalog/main.yaml\"), 'w') as outfile:\n",
+    "    with open(Path(\"../catalog/main.yaml\"), \"w\") as outfile:\n",
    "        yaml.dump(main_cat, outfile)"
   ]
  }

 %% Cell type:code id: tags:

 ``` python
 import yaml
 import pandas as pd
 from pathlib import Path
 import re
 import logging
-from typing import Union
 import xarray as xr
 import warnings
 ```

 %% Cell type:code id: tags:

 ``` python
 logging.basicConfig()
 logger = logging.getLogger("catalog_netcdf")
 logger.setLevel(logging.INFO)

 warnings.filterwarnings("ignore", category=xr.SerializationWarning)
 ```

 %% Cell type:code id: tags:

 ``` python
-def process_table_file (table_file: Path):
-    df = read_table(table_file=table_file, )
-    table_dir = Path ("../catalog") / table_file.stem
+def process_table_file(table_file: Path):
+    df = read_table(
+        table_file=table_file,
+    )
+    table_dir = Path("../catalog") / table_file.stem
    table_dir.mkdir(exist_ok=True)
    catalog = process_table(df, table_dir)

-    with open (table_dir/Path("main.yaml"), 'w') as outfile:
+    with open(table_dir / Path("main.yaml"), "w") as outfile:
        yaml.dump(catalog, outfile)

+
 def read_table(table_file: Path) -> pd.DataFrame:
-    names = ['garbage1', 'simulation_id' , "experiment", "resolution", 'start_date', 'end_date', 'path', 'contact', 'garbage2']
-    usecols = [ x for x in names if 'garbage' not in x]
-    converters = { x : lambda s: s.strip() for x in usecols if "date not in x"}
-    df = pd.read_csv(table_file,  delimiter =  '|',  names = names , usecols=usecols, header=1, converters=converters)
-    df.iloc[:,0] = df.iloc[:,0].str.replace("\\_", "_").str.strip()
-    df.iloc[:,-2] = df.iloc[:,-2].str.replace("\\_", "_").str.strip()
+    names = [
+        "garbage1",
+        "simulation_id",
+        "experiment",
+        "resolution",
+        "start_date",
+        "end_date",
+        "path",
+        "contact",
+        "garbage2",
+    ]
+    usecols = [x for x in names if "garbage" not in x]
+    converters = {x: lambda s: s.strip() for x in usecols if "date not in x"}
+    df = pd.read_csv(
+        table_file,
+        delimiter="|",
+        names=names,
+        usecols=usecols,
+        header=1,
+        converters=converters,
+    )
+    df.iloc[:, 0] = df.iloc[:, 0].str.replace("\\_", "_").str.strip()
+    df.iloc[:, -2] = df.iloc[:, -2].str.replace("\\_", "_").str.strip()
    df["path"] = [Path(x) for x in df["path"]]
    logger.debug(df)
    return df

+
 def process_table(df: pd.DataFrame, table_dir: Path) -> dict:
-    catalog = dict (sources = dict())
+    catalog = dict(sources=dict())

    for _, row in df.iterrows():
-        catalog['sources'] [row['simulation_id'] ]= create_entry (row, table_dir=table_dir)
+        catalog["sources"][row["simulation_id"]] = create_entry(
+            row, table_dir=table_dir
+        )
    return catalog
 ```

 %% Cell type:code id: tags:

 ``` python
-def create_entry  ( experiment, table_dir: Path) :
-    entry_filename = table_dir / Path (f"{experiment['simulation_id']}.yaml")
-    entry_content = {'sources' : dict()}
-    filegroups = analyze_dataset(experiment['simulation_id'], experiment['path'])
+def create_entry(experiment, table_dir: Path):
+    entry_filename = table_dir / Path(f"{experiment['simulation_id']}.yaml")
+    entry_content = {"sources": dict()}
+    filegroups = analyze_dataset(experiment["simulation_id"], experiment["path"])
    for filegroup, files in filegroups.items():
-        entry_content['sources'][filegroup] = create_stream (experiment, filegroup, files)
-    with open (entry_filename, 'w') as outfile:
+        entry_content["sources"][filegroup] = create_stream(
+            experiment, filegroup, files
+        )
+    with open(entry_filename, "w") as outfile:
        yaml.dump(entry_content, outfile)

-    return  dict ( driver = "yaml_file_cat", description= experiment["experiment"],  args = dict (path = "{{CATALOG_DIR}}/" + f'{experiment["simulation_id"]}.yaml'))
+    return dict(
+        driver="yaml_file_cat",
+        description=experiment["experiment"],
+        args=dict(path="{{CATALOG_DIR}}/" + f'{experiment["simulation_id"]}.yaml'),
+    )

-def analyze_dataset (id, input_dir: Path):
+
+def analyze_dataset(id, input_dir: Path):
    files = gen_files(id, input_dir)
    id, parts = split_filenamens(id, files)
    patterns = get_patterns(parts)
    logger.debug(f"{id=}  {patterns=}")
    filelist = gen_filelist(input_dir, id, patterns)
    return filelist

+
 def gen_files(id, input_dir):
-    files = [str (x) for x in input_dir.glob(f"{id}*.nc")]
-    files = [ x for x in files if "restart" not in x]
-    return [ Path(x) for x in files ]
+    files = [str(x) for x in input_dir.glob(f"{id}*.nc")]
+    files = [x for x in files if "restart" not in x]
+    return [Path(x) for x in files]


 def split_filenamens(id, files):
-    stems = list (f.stem for f in files)
-    parts = [ x[len(id):]for x in stems]
+    stems = list(f.stem for f in files)
+    parts = [x[len(id) :] for x in stems]
    return id, parts

-def gen_filelist (input_dir, id, patterns):
-    return { pattern : list (input_dir.glob (f"{id}*{pattern}*.nc")) for pattern in patterns}

+def gen_filelist(input_dir, id, patterns):
+    return {
+        pattern: list(input_dir.glob(f"{id}*{pattern}*.nc")) for pattern in patterns
+    }

-def get_patterns (parts):
-    patterns = { re.sub(r'\d{4}-\d{2}-\d{2}_', "", x ) for x in parts} # r'\\d\{4\}-\\d\{2\}-\\d\{2\}'
-    patterns = { re.sub(r'\d{8}T\d{6}Z', "", x) for x in patterns} # r'\\d\{8\}T\\d\{6\}Z'
-    patterns = { re.sub (r'^_', '', x) for x in patterns }
-    patterns = { re.sub (r'_$', '', x) for x in patterns }
+
+def get_patterns(parts):
+    patterns = {
+        re.sub(r"\d{4}-\d{2}-\d{2}_", "", x) for x in parts
+    }  # r'\\d\{4\}-\\d\{2\}-\\d\{2\}'
+    patterns = {
+        re.sub(r"\d{8}T\d{6}Z", "", x) for x in patterns
+    }  # r'\\d\{8\}T\\d\{6\}Z'
+    patterns = {re.sub(r"^_", "", x) for x in patterns}
+    patterns = {re.sub(r"_$", "", x) for x in patterns}
    return patterns

-def create_stream (experiment, filegroup, files):
-    stream = dict (driver = "netcdf")
-    stream [ "args" ] = dict (chunks = dict ( time= 1), xarray_kwargs = dict (use_cftime = True), urlpath = [ str(x) for x in files])
-    stream [ "metadata"] = { k : v.strip() for k,v in experiment.items() if k != "path" }
-    stream ["metadata"] |= get_variable_metadata(files)
+
+def create_stream(experiment, filegroup, files):
+    stream = dict(driver="netcdf")
+    stream["args"] = dict(
+        chunks=dict(time=1),
+        xarray_kwargs=dict(use_cftime=True),
+        urlpath=[str(x) for x in files],
+    )
+    stream["metadata"] = {k: v.strip() for k, v in experiment.items() if k != "path"}
+    stream["metadata"] |= get_variable_metadata(files)
    return stream

+
 def get_variable_metadata(files):
    ds = xr.open_dataset(files[0])
-    variables = sorted ( x for x in ds)
-    long_names = [ ds[x].attrs.get("long_name", x) for x in variables]
-    return dict (variables = variables, variable_long_names = long_names)
+    variables = sorted(x for x in ds)
+    long_names = [ds[x].attrs.get("long_name", x) for x in variables]
+    return dict(variables=variables, variable_long_names=long_names)
 ```

 %% Cell type:code id: tags:

 ``` python
 table_files = sorted(Path("../inputs").glob("*.md"))
-main_cat = dict (sources = dict())
+main_cat = dict(sources=dict())
 for table_file in table_files:
    table = table_file.stem
    process_table_file(table_file)
-    main_cat ["sources"][table] = dict ( driver = "yaml_file_cat",  args = dict (path = "{{CATALOG_DIR}}/" + f"{table}/main.yaml"))
+    main_cat["sources"][table] = dict(
+        driver="yaml_file_cat",
+        args=dict(path="{{CATALOG_DIR}}/" + f"{table}/main.yaml"),
+    )

-    with open (Path ("../catalog/main.yaml"), 'w') as outfile:
+    with open(Path("../catalog/main.yaml"), "w") as outfile:
        yaml.dump(main_cat, outfile)
 ```