はじめに
こんにちは。ネットワークグループの増田と林です。
先日、京都で開催された
JANOG55 Meeting
に参加してきました。

会場(写真は JANOG55ミーティング フォトアルバムより)
JANOG (Japan Network Operators' Group) は、日本のネットワーク技術者や運用者などが集まるコミュニティです。 年2回程度ミーティングが開催され、最新の技術動向や運用事例などが共有されています。
オフレコのプログラムもあるため全部については話せませんが、3日間のプログラムのなかで特に印象に残ったトピックをピックアップして感想を書きたいと思います!
AI/ML基盤におけるGPU間ネットワークの負荷と性能影響を探る
1日目には AI インフラに関する3つのプログラムが連続であり、ネットワーク業界の AI インフラに対する関心の高さを感じました。 最近、弊社の南場会長の「 DeNA は AI にオールインします 」という発言が話題になっていましたが、それ以前から社内で AI 活用が進んでおり、私も今回のセッションに興味津々でした。
このプログラムはその3連続のうち最初のもので、前半と後半に分かれていました。 前半は GPU 間通信に必要な帯域について、後半は長距離 Remote Direct Memory Access (RDMA)についての発表でした。
特に前半部分が印象的で、GPU 間通信に必要な帯域の導出方法が非常に参考になりました。 AI/ML モデルのパラメーター数・逆伝搬時間、GPU の分散数というわずか3つのパラメーターで必要帯域が推測できるというのは驚きでした。 また、発表者が所属する組織では「3歩歩けば AI エンジニアに当たる」とおっしゃっていて、AI エンジニアとネットワークエンジニアが密に連携している様子が素晴らしいと感じました。
Rethinking AI Infrastructure: LINEヤフーが描く、内製技術で切り拓くネットワークとエンジニアリングの新時代
これは AI インフラに関する3連続プログラムの最後を飾るものでした。(2つ目のプログラムはオフレコだったので、ブログでの紹介は割愛します。) 事前に 関連ブログ も拝見しており、その技術的詳細を JANOG で聴けるのを楽しみにしていました。
発表では、GPU 間通信の基礎知識から丁寧に説明してくれました。 説明はとても分かりやすく、AI インフラの情報をキャッチアップしたい人におすすめしたい発表でした。 その後は、検討したネットワーク構成と最終的な構成について、選択した理由とともに詳細に解説してくれました。 さらに、このインフラをアプリケーション開発者が簡単に利用できるよう、Kubernetes とどのように統合したかについても詳細に紹介してくださいました。 Kubernetes の Pod 内で GPU を扱う際に、GPU 間の通信速度を落とさないための技術的な工夫が面白かったです。
自ら手を動かし、新しい技術を試行錯誤しながら取り入れていく姿勢には、自分以外にも多くのエンジニアが共感と刺激を受けたことと思います。 技術的な課題解決が可能なエンジニアを育成するために、仕様がオープンな技術を選択したり、Kubernetes との連携のためにプラグインを自作した点にも感銘を受けました。
ネットワーク作業自動化の道: 信頼性と効率性の両立
本発表ではメインのツールとして Jupyter を採用されており、
実行可能な手順書として Jupyter を活用する方法についてのお話でした。
従来の手順をそのまま Jupyter 手順書に置き換えることで、簡単に操作できるようにしているそうです。
また、Jupyter で不足している機能、たとえば Notebook 間のパラメタ共有は AWS Parameter Store で、
バックグラウンド処理は Lambda でカバーするなど AWS も活用されていました。
自動化によりコードで管理されるようになるため、手順自体の差分もコンフィグの差分も見やすそうでした。
何より作業時間がかなり短縮されていました。
自動化にあたっての障壁の話もあり、陳腐化しないようにしたい、自動化前は1つ1つ手順書を作って対応など、共感できる点が多かったです。
ちょうど私達もネットワーク機器設定の構成管理を見直しているところで、Ansible を採用して自動化を進めているのですが、使い続けていくには工夫が必要だと感じています。
弊社ではひとまず全員が触るようにすることで属人化しない体制を目指していますが、
規模も人数も桁が違う本発表では、関わる人全員に使い方を広めてツールが廃れないように開発を続けていくことは本当に大変なことだと思います。
今後の運用等、また数年後に続きのお話も聞いてみたいです。
通信設備で発生する生物被害事例と対策について
屋外ケーブル等を多く管理する NTT さんならではの、様々な生物による通信障害等への対応についてのお話でした。
JANOG の発表で閲覧注意のアナウンスが入るのは新鮮でした (昆虫等が苦手な方への配慮)。
弊社にも一部屋外施設 (横浜スタジアム) があり、ネズミに齧られた疑惑のある配線箇所も存在するため、興味深く聞かせていただきました。
カラスに突かれる、ネズミに齧られるといったよく知られた生物による被害はもちろん、 イモムシ等もケーブルに入ってしまうということは知りませんでした。 また、通常の故障とは異なり、相手が生き物なので季節性があったり、原因を探るために故障箇所の噛み跡を分析したりなど、地道な努力で修繕されているそうです。
対策として、ケーブルそのものをステンレス等で保護された専用のものに交換する方法がありますが、部分的に上から覆うシートやテープのようなものだと安価に対策できるとのことでした。
弊社のように部分的な被害の場合は、テープ等が利用できそうです。
他にも対策したい生物毎にさまざまな対策方法、対策グッズが存在するようですが、とにかく侵入させない、接触させないということが基本になるとのことでした。
その他
現地のブースでは実物の展示も多く、珍しい機器等も見せていただきました。

展示で見せていただいた昔の Cisco ルータ
また、京都開催ということで会場の向かいには平安神宮、近くには鴨川という観光地の中で3日間を過ごすことができました。
平安神宮
会場の隣で売っていた八ツ橋
知恩院
おわりに
3日間にわたるJANOG55 Meetingでは、最新のネットワーク技術や運用事例に関する情報収集ができ、大変有意義な時間を過ごせました。 ここで得た知識や刺激は、今後の業務に役立てていきたいと思っています。
また、過去の JANOG Meeting の様子もブログにまとめております。興味のある方はぜひご覧ください。
最後まで読んでいただき、ありがとうございます!
この記事をシェアしていただける方はこちらからお願いします。