ちはろぐ: 日別日記 2005年5月 2日
« 2005年4月30日 | ちはろぐ | 2005年5月 3日 »
初めて「ちはろぐ」を閲覧するかたは「「ちはろぐ」について」に目を通してから本文をどうぞ。
※異常なWeb閲覧設定の環境では文字色やサイズやレイアウトが正常に表示されなかったり、画像が表示されないことがあります。
検索エンジンから辿り着いて話題が見つからないかたは、右上の「「ちはろぐ」内の検索」を使ってみて下さい。
2005年5月 2日(月)
「ちはろぐ」運用漢字コードをシフトJIS→UTF-8へ変更メンテ
エントリーID:1419 [ サイト関係 ] サイト関係
事前報告も無く長時間のメンテナンスになって、そして事後報告も遅れたけども、本日「ちはろぐ」の閲覧を完全に禁止してメンテナンスを行い、シフトJISだった運用漢字コードをUTF-8に変更したのです。
……漢字コードの設定を変更した程度で済めば良いんだけどそれだけでは済まないので……
詳しい話は続きで~
追伸:
やっと先月末に出てた宙出版のFF11アンソロジーコミックス「FINAL FANTASY11 CIRCLE OF ADVENTURES」や葉月 京さんの「Wネーム 1
」(リンク先はアマゾン)やその他のコミックスやマンガ雑誌を買えました(にあいこーる買いました?)
とりあえず漢字コードをシフトJISで運用していた理由。
「ちはろぐ」に初めて設置した「Movable Type」は標準設定の運用漢字コードUTF-8設定でした。
そして、以前の日記CGIのログデータから独自Perlスクリプトで「Movable Type」へ取り込める形式に変換したけども、それが日記CGIの運用文字コードのままのシフトJISコードのファイルだったりして……それが3年9ヶ月分=45ヶ月分で45ファイルもあってですね……
「Movable Type」の初期標準設定の運用漢字コードがUTF-8に設定されているということは、他の漢字コードも選べるけども(うちが運用してたシフトJIS)UTF-8の漢字コードで運用したほうが有利なんだろうなぁと思いました。
なので、常用してるテキストエディタ(あえて名前は出さない……)の保存文字コードをUTF-8に変更して、一気に45ファイルを開いて上書きと言う、みょうちくりんな方法でまとめてUTF-8に変換できた~!と思って取り込んでみたらまったく変換できてなくて、出来上がったエントリーはタイトルから内容まで文字化けの嵐。ほわ~い?
んで、うちはズボラなんだけども微妙に潔癖症な部分もありましてん。
文字化けしたエントリーを全て削除→漢字コードシフトJIS運用に設定して再度取り込みは嫌。
→理由:エントリー番号が大きな番号から始まりそうだから。
取り込みに失敗した「ちはろぐ」を「Movable Type」上で削除して「新しいウェブログの作成」で作り直して、漢字コードシフトJIS運用に設定して再度取り込みは嫌。
→内部IDが2とか3になるのがキライ。すでに初期設定後にあった「First Weblog」を「ウェブログの削除」で削除して、「新しいウェブログの作成」で「ちはろぐ」を作ったら内部IDが2になってしまって、「Movable Type」を完全初期化したことがあるし。
そいういことで、運用漢字コードはシフトJISでも良いや~って感じで、設定ファイルの運用漢字コードはシフトJIS設定にして「Movable Type」を完全初期化して「First Weblog」の名前や設定を変更して「ちはろぐ」を作りましてん。
そいで、これまでの操作で変換ログの取り込みには時間もかかるし、変換ログ取り込み中にはサーバー負荷も高そうってことで、数ファイルずつ転送しては取り込み操作をして転送してたファイルを消して同じことを繰り返しでやっとちゃんと読める状態で取り込めて、日記CGIに普通に書いたりしてる間にテスト運用して運用漢字コードがシフトJISでも今のところは問題は無い判断して、日記CGIから移行したんだけども……
……なんか漢字コードがUTF-8運用じゃなくてシフトJIS運用なのが引っかかるモノがあるんです。む~ん。
運用漢字コードがシフトJISなまま、まず同じ「さくらのレンタルサーバ」で運用漢字コードUTF-8の「ソニ☆モバ」さんちに、初トラックバックするも成功……というか色んなトラックバック実験場っぽいとこにも送ってテストもせずに初トラックバックでツッコミするなんて大胆……(苦笑)
「livedoor Blog PRO」で運用漢字コードEUC-JPの「- go -」のモナ研さんちにトラックバックするも成功。
……「人気ブログを作って、賞金ゲット アメーバブログ Ameba Blog(登録無料)」で運用漢字コードEUC-JPの「楓子パパのPSP★∴∵¨」さんちへのトラックバックは文字化け……まるで「Movable Type」の「ちはろぐ」で運用漢字コードUTF-8のまま、シフトJISのログを取り込んだときみたいな化け方……
文字化けトラックバック後にも「楓子パパのPSP★∴∵¨」さんちへ続けて文字化けトラックバックを送ったりしてたんだけども……
コメントにジョークで「PSPでのメモリースティックの速度関係ベンチへ同じ条件でベンチした結果を文字化けトラックバックで送る」と書いて、そして返事を貰ってから、引っかかってる胸のつっかえを解消する為にも、一気に運用漢字コードをUFT-8化しようと決定したんだけども。
バックアップ用の書き出し→「ちはろぐ」の初期化→書き出したバックアップのシフトJIS漢字コードのファイルをUFT-8に変換して読み込みってやると、話題(エントリー)や、カテゴリー過去ログ、そしてトラックバック用のURLが変わる可能性が高いんだけども、検索エンジンの検索結果以外で話題(エントリー)に直接リンクしてるのはトラックバックの文字化けのせいでわざわざエントリー内でリンクをしてくれた「楓子パパのPSP★∴∵¨」さんちしかないみたいだし……(アクセス解析で判ってる)
トラックバック用URLはその場で確認して入力するもんだと思うので多少の変更は関係ないしで……
そういう事で「ちはろぐ」の運用漢字コードをUTF-8化することが急遽決定しました!
んで、「ちはろぐ」に全てを制限するアクセス制限をかけて、アクセス制限エラーの表示をメンテナンス表示にして(うちまで制限されてびびった……)、バックアップ用の書き出し機能で話題を保存して、前記のテキストエディタで読み込んでUTF-8(後述するけどUTF-8Nでも良かったのかも)で保存しなおして、ファイルサイズが4.5MB→6.2MBのほぼ1.3倍強になっている=変換に成功しているということで開きなおして見たりして漢字コードがUTF-8になってるのを確認しましてん。
んで、このまま取り込めば良いのに取り込み時のサーバー負荷を下げようと、切り分け変換Perlスクリプトを作って、4000行程度ずつに切り分けてから少しずつ取り込んでみたり……
少しずつ取り込んで終わった結果をみたら1400近くあった話題が1200くらいになってるし!なんか切り分けミスしたのかも……(UTF-8じゃなくてUTF-8Nで変換したのを切り分けたら良かったっぽいんだけど……)
初期化初期化ああああぁぁぁ!(>_<)……そして細かい設定があるんだけども、ほとんどがIEのオートコンプリートで済んだと言う……便利と言うかなんと言うか。ねぇ?
運用漢字コードUTF-8化では最初と今回で2回設定し直したんだけども、設定画面のスクリーンショットも用意してたんだけど不必要とまでは行かなかったけども想像してるよりは設定が楽に済んでらっきー(それを見ながら、ちまちま打ち込むつもりだったけど確認用にするだけで済んだ)
……んで、取り込み時のサーバー負荷を監視しててみたら、小分けで取り込んでも一気にまとめて取り込んでも変わらないような感触が……
うちが使ってる「さくらのレンタルサーバ」でのほかのとこへのアクセスとかが多くなる時間さえ避ければ、UTF-8に変換したひとまとめのログを一気に取り込んでも問題がない感じでしてん。
うりゃ、小分けしてない書き出し→UTF-8変換したログを取り込み用フォルダに突っ込んで再度取り込み!
……サーバー負荷はそんなに高くない代わりに、「ちはろぐ」関連の操作が出来ない時間が凄いことに(さらに「ちはろぐ」を見てくれたヒトへ「メンテナンス中です」の表示も取り込み2回分……)
……えーと、「ちはろぐ」に日記CGIから取り込むログ変換済みファイルを作った時も、元が45ファイルあったのを45ファイルに出力せずに、まとめて1ファイルに出力するか、その場で45ファイル全部繋いで(コマンドプロンプトコマンドで出来る)1ファイルにすれば良かったよーな……その後1回UTF-8に変換して一気に取り込めば良かったんじゃ……過ぎたことはワスレヨー。ワスレロワスレロ……(@_@)
この「ちはろぐ」を操作出来ない時間の間に「Movable Type」の外部ファイルとのリンク機能でリンクして、テキストエディタで編集してアップロードして反映させているテンプレート(ちなみに『「ちはろぐ」について』や『「ちはろぐ」運営者について』もテンプレート化してHTMLタグと「Movable Type」のタグで書いてあります)や、モジュール化してるファイル、そしてSSIでINCLUDEするテキストやSSIでEXEC CGIするCGIスクリプトをUFT-8に変換しましてん(と言うかこれは1回目の取り込み時に……それにしてもUTF-8Nに変換すれば良かった……)
取り込んだだけでは「ちはろぐ」のデータとしては追加されるけども、ブラウザで見える部分に反映されないので「再構成」をやらなくてはいけないし……
……暇人のキレ病人がなんか出かけるのを待ってるんし(>_<)
「メンテナンス中」を表示するためののアクセス制限を解除して、「全てを再構成する」では再構成されないページや、一番開かれるトップや再構成に時間がかからない順に再構成をかけて一番時間がかかるとこの再構成を指示したまま、放置してお出かけ。
コミックスやらコミック雑誌を買ったものの家を出るのが遅くなった分、家に帰ってきたのも遅くてキレ病人の世話とかで読む暇が無く……(>_<)
……後日、読めたんだけど「Wネーム 1」はなんか微妙にえっちいというかかなりえっちいけども不思議なマンガでした。連載を読んでないのでどうなるんだろ……
宙出版のFF11アンソロジーコミックス「FINAL FANTASY11 CIRCLE OF ADVENTURES」は不快なマンガは1つも無かったけども、サブリガ系で判らない話題とかが……カラパスサブリガとかウィルサブリガとかフェミニーサブリガってナニ?(@_@)
……スカリーYってナンデスカ?(@_@)。ヒシモチで子ミスラとかタルタルってナンデスカ?(@_@)
宛先不明の「ガラコサージュ」……うちは自分でカッタヨー(>_<)
「ハチさんウマウマなのにゃ」ってナンディスカー(>_<)
ちなみに両方ともリンク先はアマゾンでいす。
それにしても、なんか妙に「らっきょう漬」が食べたかったんだけども、近所に新しく出来たスーパーで少量で100円のらっきょう漬が目に入って買って帰って確認したら、中国産らっきょう!
……プチ中国製品不買中(なんかムカツクので。MADE IN CHINA含む)なんでしょーーーーーーーっく!
……そして一気に食べたら、脳だか身体だかが求めてただけあって美味しかったのがだぶるしょーーーーーーっく!
「木走日記」さんちあたりでは、中国製品の不買活動は不毛だって書かれてるけども、うちの場合は活動じゃなくて個人的にムカツクだけなので許して……
夜中に少し手が空いてから「楓子パパのPSP★∴∵¨」さんちへのトラックバック済みのエントリーに再度トラックバックしたら、さすがに今度は文字化けせずに上手く行った模様。
でも変換したせいか判んないけども「~」が「〓」に化けてるような……「ちはろぐ」の話題管理画面でも化けてるし……
そう言えば「Movable Type」の情報を扱ってるところで、「L10N」(ナニソレ?)の仕様で「~」が化けたり他の文字で問題がでたり、エントリー名の作成で2バイト文字を取り除くのがどうとかって書いてたような……
そういえばUnicode=UTF-8=UTF-8Nじゃないそうです。
Unicodeは半角文字や全角文字の全ての文字を2バイトで表して(WindowsXPのレジストリエディタでエクスポートしたファイルはこの形式)、UTF-8やUTF-8Nはアスキー文字(大抵はアルファベットや記号)は1バイトで表して他の文字や全角文字は2~3バイトで表すとか(間違ってるかも)
さらにSSIでINCLUDEするファイルをUTF-8の漢字コードに変換してアップロードしてて、それを取り込んでるSHTMLファイルのソースを見たらゴミが付いてたり、全角文字を出力するSSI用CGIスクリプトをUTF-8の漢字コードのファイルに変換してたら動かなかったりしたので、バイナリエディタで見たらファイル先頭になんかゴミが付いてました。ソレジャウゴカナイヨー!
BOMって言うコードらしく……このコードが邪魔なときはUTF-8Nを使ったほうが良い模様。
……判んない話しばっかりで(@_@)です。
2005年5月 2日のこの話題だけを読む/Permlink
| [ サイト関係 ] サイト関係
| とらっくばっく(0)
|
« 2005年4月30日 | ちはろぐ | 2005年5月 3日 »
PlayOnline関連画像の権利:Copyright (C) 2002-2007 SQUARE ENIX CO., LTD. All Rights Reserved.


