サイトリニューアルで「リンク切れ」（IPAの事例）

HTMLの強力な力の1つに、「リンク（ハイパーリンク）」があります。
ほかの情報と結びつけることができることです。

便利な反面、困るのが「リンク切れ」。

場所ではなくウェブページそのものをID管理するアイデアはいくつかありますが、今のところ普及していません。

1. サイトリニューアルとリンク切れ

現在のウェブページでは、他のウェブページへのリンクに、「URL」を使っています。
いわばページの「住所」ですね。

しかし、URLの仕組みには「根源的な問題」があります。
それが「リンク切れ」。

長く続いているサイトが内部構成などをリニューアルすると、リンク先の場所を見失ってしまうのです。

1.1. 【事例】IPAのサイトリニューアル

例えば、先日 IPA（情報処理推進機構）のサイトがリニューアルになり、ほかの資料などから参照されていた大量のページが「リンク切れ」になってしまうニュースがありました。

【IPAウェブサイトリニューアルのお知らせ】
3/31のウェブサイトのリニューアルに伴い各ページのURLを変更しました。ご不便をおかけしますが、ウェブリンクをブラウザの「お気に入り」などに登録されている場合は新しいURLに変更いただきますようお願いいたします。https://t.co/pu9HMoTFCi
続く→
— IPA（情報処理推進機構） (@IPAjp) March 31, 2023

リニューアルで移動したページは、検索結果からアクセスしても「404 Not Found」と表示されます。

独立行政法人情報処理推進機構（IPA）のWebサイトが3月31日、大幅にリニューアルされました。（…）
ところが、ユーザーからはブーイングの嵐……
答えはいたってシンプルで、過去記事のリンクが軒並み死んでいるからです。たとえば「情報処理安全確保支援士」について問い合わせたいと「Google」や「Bing」で検索しても――
「404 Not Found（お探しのページ・ファイルが見つかりませんでした。）」と表示されてしまいます。
情報処理推進機構（IPA）のサイトが刷新されるもあちこちリンク切れ、みんなガチギレ – やじうまの杜 – 窓の杜（2023年4月3日）

1.2. リダイレクトによる対処

代表的な対処策は、「リダイレクト」です。
サイトの設定で、元のページの「跡地」に移行先へのリンクをつけておけば、実用上は大丈夫。

IPAでも、サイト内の「主要なページ」はリダイレクト対象にしていたようです。
ただ、すでに公開されていた膨大な「資料」については、その対象になっていなかったのです。

リニューアルに際して「安定的なレスポンスの確保を考慮し、リダイレクト対象とするコンテンツを選定した」という。しかし、多くのユーザーがIPAのコンテンツを資料として使っており、その影響について認識が不足していたのが原因の一つとしている。
IPAのサイトリニューアルで「404エラー」多発、一体なぜ？　経緯を聞いた – ITmedia NEWS

ただ、これには無理からぬ部分もあります。リダイレクト処理には若干の負荷がありますし、
同じページが複数のアドレスを持つことになり、サイトがどんどん複雑化してしまうからです。

「一部のみリダイレクトするよう指示したのは予算の関係なのか」と聞くと「全部リダイレクトさせると、Webサイトへのアクセスが遅くなる懸念があると（ニッセイエブロから）聞いていて、適用するページを選定して合意した。予算というよりはパフォーマンスの関係」（IPA）との説明があった。
（…）今後は、「頂いた多くのご指摘を重く受け止め、ユーザーの皆さまのコンテンツへのアクセスを確保するため、リダイレクトの追加対応を早急に進める」としている。
IPAのサイトリニューアルで「404エラー」多発、一体なぜ？　経緯を聞いた – ITmedia NEWS

リダイレクトされたページは、「戻る」を押しても前のページに戻れないから、ちょっと不便だよね。

2. リンク切れとCMS

最近のウェブサイトは、CMS（コンテンツ管理システム）でページを管理しています。

「リンク切れ」の問題は、CMSが複雑化して、他のものに移行しにくくなっているのも要因になっています（サイロ化）。

というのも、時代の変化に合わせてCMSを変更するタイミングが訪れるのですが、そのときに CMSの管理するURLがバラバラになってしまうのです。そのため、本来は「permalink（パーマリンク：永続的なリンク）」のはずが、CMS移行時に維持できなくなるのです。

このような「リンク切れ」の問題を根本的に解決するには、CMSごとに違いがある URIスキームやAPI、データポータビリティなどを「標準化」していく必要があります。

サイロ化

内部のデータ構造が独自に複雑化して、他のシステムに移行しにくくなる性質を、「サイロ化」といいます。

システム側は利用者を囲い込むことができますが、利用者は自由にシステムが選べなくなります。

3. 資料としての情報

実際のところ、リンクで必要なのは「ページの保存場所」ではなく、「内容」であることも多いです。「資料」として、長く参照されるような情報の場合、ページそのものにリンクできると便利です。

3.1. ウェブサイトの複数の「顔」

ウェブサイトには、いくつかの役割が同時に求められます。

➤ 「組織の看板」としては
古いものを残しておくと混乱の元です。

➤ 「長期間運用するシステム」と捉えるならば、
将来的に別のシステムに移行することも考慮しておく必要があります。

➤ 「資料」として使うなら、
長期的な保管場所（図書館など）に移すのが正しいのかもしれません。

確かに、ちいラボでも「教室としてのお知らせ」と「スマホの操作のコツ」を同列に管理するのは、ちょっと無理がある気がするもんね。

「問い合わせページ」など、「内容」より「場所」が重要なリンクもありますね。

3.2. URLとURN（URI）

このような「情報を識別するID」を割り振る試みは、いくつか考えられています。

例えば、文献の場合は、「著者・出版社・出版年」で参照するのが一般的です。
しかし、それとは別に「ISBN」という識別番号もあります。

ウェブページでも、同様の仕組みとして「URN」というものが考えられています。

「URN（Unified Resource Name）」は、URLの対になるものです。
➤ URLは、情報へのアクセス方法を表すのに対して、
➤ URNは、情報に登録された識別名を表します。

URI

URLとURNをひっくるめて、「URI（Unified Resource Indicator）」といいます。

URI ⊇ URL , URN

URLでは、スキーム名、ホスト名、パス名を組合せて、ウェブサーバにアクセスします。

URLの例

https://ja.wikipedia.org/wiki/Wikipedia

意味：ja.wikipedia.org（ホスト名）というコンピュータに接続して、
HTTPS（スキーム名）の決まり事に従って
/wiki/Wikipedia（パス名）という名前のデータを要求すれば、目的の物が手に入る

一方、URNでは、「名前空間」と「固有文字列」を組合せて、情報を特定します。
「名前空間」では、ISBNやISANなどの番号規格を指定します。

URNの例

urn:ISBN:0451450523

意味：国際標準図書番号（ISBN）（名前空間識別子）に
「0451450523」（名前空間固有文字列）
で登録されている書籍を指す（The Last Unicorn）

urn:isan:0000-0000-9E59-0000-O-0000-0000-2

意味：国際標準視聴覚番号（ISAN）（名前空間識別子）で
「0000-0000-9E59-0000-O-0000-0000-2」（名前空間固有文字列）に
登録されている映画を指す（スパイダーマン）

ただし、URNだけではその情報を見ることはできません。
URNを「解決」するには、IDから実際のリンクへ誘導するシステムが必要です。

しかし、現状では機械的に解決できるわけではなく¹、人間があれこれ調べて情報の場所を特定している状態です。

URNで指す内容は、インターネット上にあるとも限らないもんね。

図書館や古本屋さん巡りみたいな、地道な「解決」方法が必要なんだね。

3.3. DOI

あるいは、DOI（Digital Object Identifier）などの導入も解決策に考えられます。
ウェブページに対して DOIを付与すれば、そこに新たなリンク先を指定すれば、外部からの参照は維持できるわけです。

DOI

「DOI（Digital Object Identifier）」は、有形・無形を問わずモノを登録する「永続的な識別子」です。例えば、論文や論文が掲載されている雑誌などのように、いろんな物に対しても付与できます。

3.4. 分散システムのCID

ウェブページに固有のIDを割り振る方法としては、分散システムでの「コンテンツID」があります。
これは、ファイルの中身を元に「ハッシュ値」という重複しにくい文字列を割り当てます。

こちらもどうぞ。

「IPFS」とは？

「IPFS」は、ファイルをネットワーク上に分散して保管する仕組みです。いわば、「でっかいファイル置き場」です。このファイルシステムの特徴は、インターネットに接続した人々が、一緒に情報を分け合うことで成り立っていることです。IPFS「IPFS」は「InterPlanetary File System」の略。元の意味は「惑星間ファイルシステム」です。分散型のファイルサーバです。自分のスマホも含めて、利用しているコンピュータで協力してファイルを管理します。「Web3」だね。「ipf...

政府機関の偽サイトにご用心【URLを読み取るコツ】

新型コロナウィルスの感染拡大のため、新しく申請や手続きが日々更新されています。このような手続きについての情報がメールで送られてきて、そのリンクからウェブページを見る、というケースも少なくありません。この記事では、「偽サイト」の見分けるためのURLのしくみを、今さら聞けない「基本のき」から学習してみましょう。あと、スマートフォンでのURLを表示する操作についてもご紹介します。注意喚起の意味インターネットニュースを見ていたところ、このような注意喚起がありました。【注意喚起】首相官...

[Instagram] ストーリーズからウェブページに行くには？【リンク】

インスタグラムの投稿を見ていると、「詳しくはストーリーズのリンクから」と書いてあることがあります。どうやって見たらいいのですか？インスタグラムの「ストーリーズ」にはウェブページへのリンクを挿入することができます。投稿して24時間以内ならウェブページにアクセスできるはずです。投稿者のアイコンをタップして、「ストーリーズ」を表示すると「リンク」があります。ただし、投稿から時間が経つと「ストーリーズ」は消えてしまいます。ストーリーズがないのに、投稿文はそのままだから混乱しますね。ス...

アドレスバーの読み方（ドメイン名）

ウェブサイトの信頼性を確認するには、アドレスバーに表示される「ドメイン名」を確認することが重要です。ドメイン名は管理会社による登録が必要で、特に企業サイトは厳格な審査があります。不自然なランダム文字列を含むドメイン名や、安易に取得できるトップレベルドメインを使用しているサイトは、フィッシングサイトの可能性も高いため注意が必要です。まずはアドレスバーを見てみようパスワードを入力する前に、「アドレスを確認すれば本物か偽サイトかわかる」って言われたんだけれど、どう見たらよいのかわか...

（参考）

（補足）

URNを構成するコンテンツの情報にはそういう枠組みが無い場合がほとんどというよりまったく無いのかもしれません。 – URNについての質問です。自力で調べてみてURIがURLとURNの総称で、… – Yahoo!知恵袋

QRコードを読み込むと、関連記事を確認できます。