HTMLの強力な力の1つに、「リンク(ハイパーリンク)」があります。
ほかの情報と結びつけることができることです。
便利な反面、困るのが「リンク切れ」。
場所ではなくウェブページそのものをID管理するアイデアはいくつかありますが、今のところ普及していません。
1. サイトリニューアルとリンク切れ
現在のウェブページでは、他のウェブページへのリンクに、「URL」を使っています。
いわば ページの「住所」ですね。
しかし、URLの仕組みには「根源的な問題」があります。
それが「リンク切れ」。
長く続いているサイトが内部構成などをリニューアルすると、リンク先の場所を見失ってしまうのです。
1-1. 【事例】IPAのサイトリニューアル
例えば、先日 IPA(情報処理推進機構)のサイトがリニューアルになり、ほかの資料などから参照されていた大量のページが「リンク切れ」になってしまうニュースがありました。
【IPAウェブサイトリニューアルのお知らせ】
— IPA(情報処理推進機構) (@IPAjp) March 31, 2023
3/31のウェブサイトのリニューアルに伴い各ページのURLを変更しました。ご不便をおかけしますが、ウェブリンクをブラウザの「お気に入り」などに登録されている場合は新しいURLに変更いただきますようお願いいたします。https://t.co/pu9HMoTFCi
続く→
リニューアルで移動したページは、検索結果からアクセスしても「404 Not Found」と表示されます。
独立行政法人 情報処理推進機構(IPA)のWebサイトが3月31日、大幅にリニューアルされました。(…)
ところが、ユーザーからはブーイングの嵐……
答えはいたってシンプルで、過去記事のリンクが軒並み死んでいるからです。たとえば「情報処理安全確保支援士」について問い合わせたいと「Google」や「Bing」で検索しても――「404 Not Found(お探しのページ・ファイルが見つかりませんでした。)」と表示されてしまいます。
情報処理推進機構(IPA)のサイトが刷新されるもあちこちリンク切れ、みんなガチギレ – やじうまの杜 – 窓の杜(2023年4月3日)
1-2. リダイレクトによる対処
代表的な対処策は、「リダイレクト」です。
サイトの設定で、元のページの「跡地」に移行先へのリンクをつけておけば、実用上は大丈夫。
IPAでも、サイト内の「主要なページ」はリダイレクト対象にしていたようです。
ただ、すでに公開されていた膨大な「資料」については、その対象になっていなかったのです。
リニューアルに際して「安定的なレスポンスの確保を考慮し、リダイレクト対象とするコンテンツを選定した」という。しかし、多くのユーザーがIPAのコンテンツを資料として使っており、その影響について認識が不足していたのが原因の一つとしている。
IPAのサイトリニューアルで「404エラー」多発、一体なぜ? 経緯を聞いた – ITmedia NEWS
ただ、これには無理からぬ部分もあります。リダイレクト処理には若干の負荷がありますし、
同じページが複数のアドレスを持つことになり、サイトがどんどん複雑化してしまうからです。
「一部のみリダイレクトするよう指示したのは予算の関係なのか」と聞くと「全部リダイレクトさせると、Webサイトへのアクセスが遅くなる懸念があると(ニッセイエブロから)聞いていて、適用するページを選定して合意した。予算というよりはパフォーマンスの関係」(IPA)との説明があった。
(…)今後は、「頂いた多くのご指摘を重く受け止め、ユーザーの皆さまのコンテンツへのアクセスを確保するため、リダイレクトの追加対応を早急に進める」としている。
IPAのサイトリニューアルで「404エラー」多発、一体なぜ? 経緯を聞いた – ITmedia NEWS
リダイレクトされたページは、「戻る」を押しても前のページに戻れないから、ちょっと不便だよね。
2. リンク切れとCMS
最近のウェブサイトは、CMS(コンテンツ管理システム)でページを管理しています。
「リンク切れ」の問題は、CMSが複雑化して、他のものに移行しにくくなっているのも要因になっています(サイロ化)。
というのも、時代の変化に合わせてCMSを変更するタイミングが訪れるのですが、そのときに CMSの管理するURLがバラバラになってしまうのです。そのため、本来は「permalink(パーマリンク:永続的なリンク)」のはずが、CMS移行時に維持できなくなるのです。
このような「リンク切れ」の問題を根本的に解決するには、CMSごとに違いがある URIスキームやAPI、データポータビリティなどを「標準化」していく必要があります。
内部のデータ構造が独自に複雑化して、他のシステムに移行しにくくなる性質を、「サイロ化」といいます。
システム側は利用者を囲い込むことができますが、利用者は自由にシステムが選べなくなります。
3. 資料としての情報
実際のところ、リンクで必要なのは「ページの保存場所」ではなく、「内容」であることも多いです。「資料」として、長く参照されるような情報の場合、ページそのものにリンクできると便利です。
3-1. ウェブサイトの複数の「顔」
ウェブサイトには、いくつかの役割が同時に求められます。
➤ 「組織の看板」としては
古いものを残しておくと混乱の元です。
➤ 「長期間運用するシステム」と捉えるならば、
将来的に別のシステムに移行することも考慮しておく必要があります。
➤ 「資料」として使うなら、
長期的な保管場所(図書館など)に移すのが正しいのかもしれません。
確かに、ちいラボでも「教室としてのお知らせ」と「スマホの操作のコツ」を同列に管理するのは、ちょっと無理がある気がするもんね。
「問い合わせページ」など、「内容」より「場所」が重要なリンクもありますね。
3-2. URLとURN(URI)
このような「情報を識別するID」を割り振る試みは、いくつか考えられています。
例えば、文献の場合は、「著者・出版社・出版年」で参照するのが一般的です。
しかし、それとは別に「ISBN」という識別番号もあります。
ウェブページでも、同様の仕組みとして「URN」というものが考えられています。
「URN(Unified Resource Name)」は、URLの対になるものです。
➤ URLは、情報へのアクセス方法を表すのに対して、
➤ URNは、情報に登録された識別名を表します。
URLとURNをひっくるめて、「URI(Unified Resource Indicator)」といいます。
URI ⊇ URL , URN
URLでは、スキーム名、ホスト名、パス名を組合せて、ウェブサーバにアクセスします。
https://ja.wikipedia.org/wiki/Wikipedia
意味:ja.wikipedia.org(ホスト名)というコンピュータに接続して、
HTTPS(スキーム名)の決まり事に従って
/wiki/Wikipedia(パス名)という名前のデータを要求すれば、目的の物が手に入る
一方、URNでは、「名前空間」と「固有文字列」を組合せて、情報を特定します。
「名前空間」では、ISBNやISANなどの番号規格を指定します。
urn:ISBN:0451450523
意味:国際標準図書番号(ISBN)(名前空間識別子)に
「0451450523」(名前空間固有文字列)
で登録されている書籍を指す(The Last Unicorn)
urn:isan:0000-0000-9E59-0000-O-0000-0000-2
意味:国際標準視聴覚番号(ISAN)(名前空間識別子)で
「0000-0000-9E59-0000-O-0000-0000-2」(名前空間固有文字列)に
登録されている映画を指す(スパイダーマン)
ただし、URNだけでは その情報を見ることはできません。
URNを「解決」するには、IDから実際のリンクへ誘導するシステムが必要です。
しかし、現状では機械的に解決できるわけではなく1、人間があれこれ調べて情報の場所を特定している状態です。
URNで指す内容は、インターネット上にあるとも限らないもんね。
図書館や古本屋さん巡りみたいな、地道な「解決」方法が必要なんだね。
3-3. DOI
あるいは、DOI(Digital Object Identifier)などの導入も解決策に考えられます。
ウェブページに対して DOIを付与すれば、そこに新たなリンク先を指定すれば、外部からの参照は維持できるわけです。
「DOI(Digital Object Identifier)」は、有形・無形を問わずモノを登録する「永続的な識別子」です。例えば、論文や論文が掲載されている雑誌などのように、いろんな物に対しても付与できます。
3-4. 分散システムのCID
ウェブページに固有のIDを割り振る方法としては、分散システムでの「コンテンツID」があります。
これは、ファイルの中身を元に「ハッシュ値」という重複しにくい文字列を割り当てます。
こちらもどうぞ。
(補足)
- URNを構成するコンテンツの情報にはそういう枠組みが無い場合がほとんどというよりまったく無いのかもしれません。 – URNについての質問です。自力で調べてみてURIがURLとURNの総称で、… – Yahoo!知恵袋