generate_institution_rankings¶

`src.generators.generate_institution_rankings` ¶

Generate institution rankings by aggregating combined ranking data by affiliation. Creates JSON files for overall, systems, and security institution rankings.

`load_combined_ranking(path)` ¶

Load combined ranking JSON.

Source code in src/generators/generate_institution_rankings.py

def load_combined_ranking(path):
    """Load combined ranking JSON."""
    with open(path, "r", encoding="utf-8") as f:
        return json.load(f)

`aggregate_by_institution(combined_data)` ¶

Aggregate individual rankings by institution affiliation.

Source code in src/generators/generate_institution_rankings.py

def aggregate_by_institution(combined_data):
    """Aggregate individual rankings by institution affiliation."""
    inst_data = defaultdict(
        lambda: {
            "affiliation": "",
            "combined_score": 0,
            "artifact_score": 0,
            "artifact_citations": 0,
            "citation_score": 0,
            "ae_score": 0,
            "artifacts": 0,
            "badges_functional": 0,
            "badges_reproducible": 0,
            "ae_memberships": 0,
            "chair_count": 0,
            "total_papers": 0,
            "num_authors": 0,
            "conferences": set(),
            "years": defaultdict(int),
        }
    )

    for person in combined_data:
        affiliation = _normalize_affiliation(person.get("affiliation", "").strip())

        # Skip entries with no affiliation or placeholder affiliations
        if not affiliation or affiliation == "Unknown" or affiliation.startswith("_"):
            affiliation = "Unknown"

        inst = inst_data[affiliation]
        inst["affiliation"] = affiliation
        inst["combined_score"] += person.get("combined_score", 0)
        inst["artifact_score"] += person.get("artifact_score", 0)
        inst["artifact_citations"] += person.get("artifact_citations", 0)
        inst["citation_score"] += person.get("citation_score", 0)
        inst["ae_score"] += person.get("ae_score", 0)
        inst["artifacts"] += person.get("artifacts", 0)
        inst["badges_functional"] += person.get("badges_functional", 0)
        inst["badges_reproducible"] += person.get("badges_reproducible", 0)
        inst["ae_memberships"] += person.get("ae_memberships", 0)
        inst["chair_count"] += person.get("chair_count", 0)
        inst["total_papers"] += person.get("total_papers", 0)
        inst["num_authors"] += 1

        # Aggregate conferences
        if person.get("conferences"):
            inst["conferences"].update(person["conferences"])

        # Aggregate years
        if person.get("years"):
            for year, count in person["years"].items():
                inst["years"][year] += count

    # Convert to list and calculate derived fields
    institutions = []
    for affiliation, data in inst_data.items():
        if data["artifacts"] > data["total_papers"]:
            raise ValueError(
                f"Invariant violation for institution '{affiliation}': artifacts ({data['artifacts']}) > total_papers ({data['total_papers']})"
            )
        if data["badges_reproducible"] > data["artifacts"]:
            raise ValueError(
                f"Invariant violation for institution '{affiliation}': reproduced_badges ({data['badges_reproducible']}) > artifacts ({data['artifacts']})"
            )
        if data["badges_functional"] > data["artifacts"]:
            raise ValueError(
                f"Invariant violation for institution '{affiliation}': functional_badges ({data['badges_functional']}) > artifacts ({data['artifacts']})"
            )

        # Calculate artifact rate
        artifact_rate = 0
        if data["total_papers"] > 0:
            artifact_rate = round((data["artifacts"] / data["total_papers"]) * 100, 1)

        # Calculate A:E ratio
        ae_ratio = None
        if data["ae_score"] > 0:
            ae_ratio = round(data["artifact_score"] / data["ae_score"], 2)
        elif data["artifact_score"] > 0:
            ae_ratio = None  # Artifact-only, will display as ∞
        else:
            ae_ratio = 0.0  # Neither artifacts nor AE service

        # Classify institution role based on A:E ratio
        if ae_ratio is None:
            # Artifact-only (ae_score == 0, artifact_score > 0) → creator
            role = "Producer"
        elif ae_ratio == 0.0:
            # AE-only or neither (artifact_score == 0) → evaluator
            role = "Consumer"
        elif ae_ratio > 2.0:
            role = "Producer"
        elif ae_ratio < 0.5:
            role = "Consumer"
        else:
            role = "Balanced"

        # Only include institutions with meaningful contributions, excluding incomplete affiliations
        if data["combined_score"] >= 3 and affiliation.strip() not in ("Univ", "University", "Unknown", "_"):
            institutions.append(
                {
                    "affiliation": data["affiliation"],
                    "combined_score": data["combined_score"],
                    "artifact_score": data["artifact_score"],
                    "artifact_citations": data["artifact_citations"],
                    "citation_score": data["citation_score"],
                    "ae_score": data["ae_score"],
                    "ae_ratio": ae_ratio,
                    "role": role,
                    "artifacts": data["artifacts"],
                    "badges_functional": data["badges_functional"],
                    "badges_reproducible": data["badges_reproducible"],
                    "ae_memberships": data["ae_memberships"],
                    "chair_count": data["chair_count"],
                    "total_papers": data["total_papers"],
                    "artifact_rate": artifact_rate,
                    "num_authors": data["num_authors"],
                    "conferences": sorted(list(data["conferences"])),
                    "years": dict(data["years"]),
                }
            )

    # Sort by combined_score descending
    institutions.sort(key=lambda x: x["combined_score"], reverse=True)

    return institutions

`main()` ¶

Generate institution ranking JSON files.

Source code in src/generators/generate_institution_rankings.py

def main():
    """Generate institution ranking JSON files."""
    parser = argparse.ArgumentParser(description="Generate institution rankings")
    parser.add_argument("--data_dir", type=str, default=None, help="Path to website root (reprodb.github.io)")
    args = parser.parse_args()

    if args.data_dir:
        website_path = Path(args.data_dir)
    else:
        base_path = Path(__file__).parent
        website_path = base_path.parent.parent.parent / "reprodb.github.io"
    data_dir = website_path / "assets" / "data"

    # Process overall combined ranking
    logger.info("Processing overall combined ranking...")
    combined_path = data_dir / "combined_rankings.json"
    if combined_path.exists():
        combined_data = load_combined_ranking(combined_path)
        institutions = aggregate_by_institution(combined_data)

        output_path = data_dir / "institution_rankings.json"
        with open(output_path, "w", encoding="utf-8") as f:
            json.dump(institutions, f, indent=2, ensure_ascii=False)
        logger.info(f"  ✓ Generated {output_path} ({len(institutions)} institutions)")
    else:
        logger.info(f"  ✗ {combined_path} not found")

    # Process systems combined ranking
    logger.info("Processing systems combined ranking...")
    systems_path = data_dir / "systems_combined_rankings.json"
    if systems_path.exists():
        systems_data = load_combined_ranking(systems_path)
        systems_institutions = aggregate_by_institution(systems_data)

        output_path = data_dir / "systems_institution_rankings.json"
        with open(output_path, "w", encoding="utf-8") as f:
            json.dump(systems_institutions, f, indent=2, ensure_ascii=False)
        logger.info(f"  ✓ Generated {output_path} ({len(systems_institutions)} institutions)")
    else:
        logger.info(f"  ✗ {systems_path} not found")

    # Process security combined ranking
    logger.info("Processing security combined ranking...")
    security_path = data_dir / "security_combined_rankings.json"
    if security_path.exists():
        security_data = load_combined_ranking(security_path)
        security_institutions = aggregate_by_institution(security_data)

        output_path = data_dir / "security_institution_rankings.json"
        with open(output_path, "w", encoding="utf-8") as f:
            json.dump(security_institutions, f, indent=2, ensure_ascii=False)
        logger.info(f"  ✓ Generated {output_path} ({len(security_institutions)} institutions)")
    else:
        logger.info(f"  ✗ {security_path} not found")

    # Process per-conference combined rankings
    logger.info("Processing per-conference institution rankings...")
    for conf_path in sorted(data_dir.glob("*_combined_rankings.json")):
        stem = conf_path.stem  # e.g. "osdi_combined_rankings"
        prefix = stem.replace("_combined_rankings", "")
        # Skip overall/systems/security (already handled above)
        if prefix in ("combined", "systems", "security", "systems_combined", "security_combined"):
            continue
        conf_data = load_combined_ranking(conf_path)
        conf_institutions = aggregate_by_institution(conf_data)
        output_path = data_dir / f"{prefix}_institution_rankings.json"
        with open(output_path, "w", encoding="utf-8") as f:
            json.dump(conf_institutions, f, indent=2, ensure_ascii=False)
        logger.info(f"  ✓ Generated {output_path} ({len(conf_institutions)} institutions)")

generate_institution_rankings¶

src.generators.generate_institution_rankings ¶

load_combined_ranking(path) ¶

aggregate_by_institution(combined_data) ¶

main() ¶

`src.generators.generate_institution_rankings` ¶

`load_combined_ranking(path)` ¶

`aggregate_by_institution(combined_data)` ¶

`main()` ¶