狠狠撸
Submit Search
青空文庫テキストフォーマットについて (aozorahack)
3 likes
5,029 views
masayoshi takahashi
OSC 2017 Tokyo/Springのaozorahackセッションで発表した際の資料です。
Technology
Read more
1 of 45
Download now
Download to read offline
1
2
3
4
5
6
7
8
9
10
11
Most read
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
Most read
29
Most read
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
More Related Content
More from masayoshi takahashi
(20)
PDF
osc2019tokyospring
masayoshi takahashi
?
PDF
Ruby25: Rubyの1/4世紀
masayoshi takahashi
?
PDF
Code for 選挙とWikidata
masayoshi takahashi
?
PPTX
Aozorahack20161106
masayoshi takahashi
?
PDF
aozorahack hackathon #1
masayoshi takahashi
?
PDF
TdX#01 RubyKaigiの作り方
masayoshi takahashi
?
PDF
aozorahackと青空文庫の現状とこれから (OSC 2016 Tokyo/Spring)
masayoshi takahashi
?
PDF
オープンソースとプラットフォームとお金
masayoshi takahashi
?
PDF
奥别产と电子书籍の话
masayoshi takahashi
?
PDF
搁别:痴滨贰奥新パーサ现状确认(2015年2月版)
masayoshi takahashi
?
PDF
何となく勉强した気分になれるパーサ入门
masayoshi takahashi
?
PDF
How To Become A Rubyist
masayoshi takahashi
?
PDF
惭补谤办诲辞飞苍もはじめよう
masayoshi takahashi
?
PDF
新?搁别痴滨贰奥パーサについて
masayoshi takahashi
?
PDF
電子出版はどこを 目指すのか?技術書編
masayoshi takahashi
?
PDF
The History of Ruby; 20th Anniversary Ed.
masayoshi takahashi
?
PDF
lldecade2012
masayoshi takahashi
?
PDF
mruby for embedded systems
masayoshi takahashi
?
PDF
尘谤耻产测のすすめ
masayoshi takahashi
?
PDF
「执笔のためのエレベータピッチ」のテンプレート
masayoshi takahashi
?
osc2019tokyospring
masayoshi takahashi
?
Ruby25: Rubyの1/4世紀
masayoshi takahashi
?
Code for 選挙とWikidata
masayoshi takahashi
?
Aozorahack20161106
masayoshi takahashi
?
aozorahack hackathon #1
masayoshi takahashi
?
TdX#01 RubyKaigiの作り方
masayoshi takahashi
?
aozorahackと青空文庫の現状とこれから (OSC 2016 Tokyo/Spring)
masayoshi takahashi
?
オープンソースとプラットフォームとお金
masayoshi takahashi
?
奥别产と电子书籍の话
masayoshi takahashi
?
搁别:痴滨贰奥新パーサ现状确认(2015年2月版)
masayoshi takahashi
?
何となく勉强した気分になれるパーサ入门
masayoshi takahashi
?
How To Become A Rubyist
masayoshi takahashi
?
惭补谤办诲辞飞苍もはじめよう
masayoshi takahashi
?
新?搁别痴滨贰奥パーサについて
masayoshi takahashi
?
電子出版はどこを 目指すのか?技術書編
masayoshi takahashi
?
The History of Ruby; 20th Anniversary Ed.
masayoshi takahashi
?
lldecade2012
masayoshi takahashi
?
mruby for embedded systems
masayoshi takahashi
?
尘谤耻产测のすすめ
masayoshi takahashi
?
「执笔のためのエレベータピッチ」のテンプレート
masayoshi takahashi
?
Recently uploaded
(9)
PDF
安尾 萌, 松下 光範. 環境馴致を計量可能にするための試み,人工知能学会第4回仕掛学研究会, 2018.
Matsushita Laboratory
?
PDF
SIG-AUDIO 2025 Vol.02 オンラインセミナー 「GDC2025 オーディオ報告会」SIG-Audio_GDC2025_報告会資料_渡辺さ...
IGDA Japan SIG-Audio
?
PDF
マルチAIエージェントの産業界での実践に向けたオープンソース活動の展望 - Japan Regional User Group (RUG) Meet-Up
Kosaku Kimura
?
PDF
API認可を支えるKeycloakの基本と設計の考え方 ~ OAuth/OIDCによるAPI保護のベストプラクティス ~
Hitachi, Ltd. OSS Solution Center.
?
PDF
安尾 萌, 北村 茂生, 松下 光範. 災害発生時における被害状況把握を目的とした情報共有システムの基礎検討, 電子情報通信学会HCGシンポジウム2018...
Matsushita Laboratory
?
PDF
安尾 萌, 藤代 裕之, 松下 光範. 協調的情報トリアージにおけるコミュニケーションの影響についての検討, 第11回データ工学と情報マネジメントに関する...
Matsushita Laboratory
?
PDF
論文紹介:AutoPrompt: Eliciting Knowledge from Language Models with Automatically ...
Toru Tamaki
?
PDF
SIG-AUDIO 2025 Vol.02 オンラインセミナー 「GDC2025 オーディオ報告会」SIG-Audio_GDC2024_報告会資料_増野さ...
IGDA Japan SIG-Audio
?
PDF
論文紹介:Unbiasing through Textual Descriptions: Mitigating Representation Bias i...
Toru Tamaki
?
安尾 萌, 松下 光範. 環境馴致を計量可能にするための試み,人工知能学会第4回仕掛学研究会, 2018.
Matsushita Laboratory
?
SIG-AUDIO 2025 Vol.02 オンラインセミナー 「GDC2025 オーディオ報告会」SIG-Audio_GDC2025_報告会資料_渡辺さ...
IGDA Japan SIG-Audio
?
マルチAIエージェントの産業界での実践に向けたオープンソース活動の展望 - Japan Regional User Group (RUG) Meet-Up
Kosaku Kimura
?
API認可を支えるKeycloakの基本と設計の考え方 ~ OAuth/OIDCによるAPI保護のベストプラクティス ~
Hitachi, Ltd. OSS Solution Center.
?
安尾 萌, 北村 茂生, 松下 光範. 災害発生時における被害状況把握を目的とした情報共有システムの基礎検討, 電子情報通信学会HCGシンポジウム2018...
Matsushita Laboratory
?
安尾 萌, 藤代 裕之, 松下 光範. 協調的情報トリアージにおけるコミュニケーションの影響についての検討, 第11回データ工学と情報マネジメントに関する...
Matsushita Laboratory
?
論文紹介:AutoPrompt: Eliciting Knowledge from Language Models with Automatically ...
Toru Tamaki
?
SIG-AUDIO 2025 Vol.02 オンラインセミナー 「GDC2025 オーディオ報告会」SIG-Audio_GDC2024_報告会資料_増野さ...
IGDA Japan SIG-Audio
?
論文紹介:Unbiasing through Textual Descriptions: Mitigating Representation Bias i...
Toru Tamaki
?
青空文庫テキストフォーマットについて (aozorahack)
1.
青空文庫テキスト フォーマットについて 2017/03/11 aozorahack/株式会社達人出版会 高橋征義
2.
クイズで学ぶ 青空文庫 (フォーマット編)
3.
第1問 青空文庫公式サイトでサポートし ていないファイル形式はどれ? 1) テキストファイル 2) HTML 3)
Word 4) エキスパンドブック 5) PalmDoc
4.
第1問 青空文庫公式サイトでサポートし ていないファイル形式はどれ? 1) テキストファイル 2) HTML 3)
Word 4) エキスパンドブック 5) PalmDoc
5.
稀少なフォーマット ● PDF: http://www.aozora.gr.jp/cards/000029/card 227.html 伽藍とバザール ●
エキスパンドブック: http://www.aozora.gr.jp/cards/000005/card 5.html あいびき ● palmdoc: http://www.aozora.gr.jp/cards/000114/card 608.html モウグリの兄弟たち
6.
青空文庫のテキストファイル ● 青空文庫の独自記法 – 「青空文庫形式」 ●
HTMLファイルに変換 – テキストファイルからHTML ファイルへは自動変換が可能
7.
青空文庫形式の特徴 ● 人間が読みやすい – 機械では解析しづらい ●
全角文字を記法に使う ● 「見た目」のための記法 – 「5字下げ」とか「改ページ」とか HTML?XMLやTeX等、他の記法と比べると かなり独特な記法になっている
8.
http://www.aozora.gr.jp/cards/001095/files/42626_ruby_59990.zip
9.
青空文庫形式 ● 大きく4つの部分に分かれる – ヘッダ –
注記の説明 – 本文 – フッタ ヘッダ 注記の説明 フッタ 本文
10.
ヘッダ ● タイトル ● 著者 ●
サブタイトル(もしあれば) ● 原題(もしあれば) ● 訳者(もしあれば)
11.
ヘッダの例 方丈記 鴨長明 (空行)
12.
ヘッダの例 半七捕物帳 猫騒動 岡本綺堂 (空行)
13.
【テキスト中に現れる記号について】 ------------------------------------------------------- 【テキスト中に現れる記号について】 《》:ルビ (例)三毛《みけ》猫 |:ルビの付く文字列の始まりを特定する記号 (例)寛政|申《さる》年生まれ [#]:入力者注 主に外字の説明や、傍点の位置の指定 (数字は、JIS X 0213の面区点番号またはUnicode、底本のページと行数) (例)※[#「日+向」、第3水準1-85-25] -------------------------------------------------------
14.
フッタの例 底本:「時代推理小説 半七捕物帳(一)」光文社文庫、光文社 1985(昭和60)年11月20日初版1刷発行 入力:tatsuki 校正:山本奈津恵 1999年7月24日公開 2012年6月12日修正 青空文庫作成ファイル: このファイルは、インターネットの図書館、青空文庫 (http://www.aozora.gr.jp/)で作られました。入力、校正、制 作にあたったのは、ボランティアの皆さんです。
15.
全体の構成 【ヘッダ】 (空行*1) -------- 【テキスト中に現れる記号について】 -------- 【本文】 (空行*3) 【フッタ】
16.
クイズ?第2問 青空文庫記法で対応していないも のはどれ? 1) 改ページ 2) 表 3)
画像 4) 罫線(罫囲み) 5) 返り点
17.
クイズ?第2問 青空文庫記法で対応していないも のはどれ? 1) 改ページ 2) 表 3)
画像 4) 罫線(罫囲み) 5) 返り点
18.
青空文庫の注記記法 【[#……]】という形 – [#改ページ] – [#挿絵1(fig54921_04.png、横 336×縦400)入る]
19.
字下げの例 …ここでもっと大事なのは論述のスタイルで ある。 [#3字下げ]灰いろの抽象の世に住まんに は濃きに過ぎたる煩悩の色 九鬼周造が詩と短歌をかなり数多く残し、 …
20.
字下げの例 …然し愚な純な弱い白が、主人夫妻にはいつまでも忘られぬので ある。 [#ここから5字下げ] 白は大正七年一月十四日の夜半病死し、赤沢君の山の上の小家の 梅の木陰に葬られました。甲州に往って十年です。村の人々が赤 沢君に白のクヤミを言うたそうです。「白は人となり候」と赤沢 君のたよりにありました。「白」は幸福な犬です。 大正十二年二月九日追記 [#ここで字下げ終わり]
21.
見出し 序文[#「序文」は大見出し]
22.
見出しの例 [#2字下げ]上 先生と私[#「上 先生と私」は大見出し] [#5字下げ]一[#「一」は中見出し] 私《わたくし》はその人を常に先生と呼んでいた。だからここ でもただ先生と書くだけで本名は打ち明けない。これは世間を憚 《はば》かる遠慮というよりも、その方が私にとって自然だから である。私はその人の記憶を呼び起すごとに、すぐ「先生」とい いたくなる。筆を執《と》っても心持は同じ事である。よそよそ しい頭文字《かしらもじ》などはとても使う気にならない。
23.
ルビの例 [#2字下げ]上 先生と私[#「上 先生と私」は大見出し] [#5字下げ]一[#「一」は中見出し] 私《わたくし》はその人を常に先生と呼んでいた。だからここ でもただ先生と書くだけで本名は打ち明けない。これは世間を憚 《はば》かる遠慮というよりも、その方が私にとって自然だから である。私はその人の記憶を呼び起すごとに、すぐ「先生」とい いたくなる。筆を執《と》っても心持は同じ事である。よそよそ しい頭文字《かしらもじ》などはとても使う気にならない。
24.
ルビの例 http://www.aozora.gr.jp/cards/000148/files/773_14560.html
25.
罫囲み [#ここから1段階小さな文字] [#ここから1字下げ] [#ここから41字詰め] [#ここから罫囲み] 附記[#「附記」は太字] この探偵小説には私が懸賞をだします。犯人を推定した最も優秀な答 案に、この小説の解決篇の原稿料を呈上します。細目はいずれ、誌上に発表しますが、だいたい、 九回か十回連載の予定、大いに皆さんと知慧くらべをやりましょう。当らなければ、原稿料は差上 げませんよ。たいがい、差上げずに、すむでしょう。[#地から1字上げ]坂口安吾 [#ここで罫囲み終わり] [#ここで字詰め終わり] [#ここで字下げ終わり] [#ここで小さな文字終わり] [#5字下げ]四 第一の殺人[#「四 第一の殺人」は中見出し] http://www.aozora.gr.jp/cards/001095/files/42626_60035.html
26.
罫囲み [#ここから1段階小さな文字] [#ここから1字下げ] [#ここから41字詰め] [#ここから罫囲み] 附記[#「附記」は太字] この探偵小説には私が懸賞をだします。犯人を推定した最も優秀な答 案に、この小説の解決篇の原稿料を呈上します。細目はいずれ、誌上に発表しますが、だいたい、 九回か十回連載の予定、大いに皆さんと知慧くらべをやりましょう。当らなければ、原稿料は差上 げませんよ。たいがい、差上げずに、すむでしょう。[#地から1字上げ]坂口安吾 [#ここで罫囲み終わり] [#ここで字詰め終わり] [#ここで字下げ終わり] [#ここで小さな文字終わり] [#5字下げ]四 第一の殺人[#「四 第一の殺人」は中見出し]
27.
クイズ?第3問 青空文庫で使っている文字集合はどの 範囲まで? 1) JIS X
0208(第1?2水準) 2) JIS X 0213(第3?4水準) 3) UnicodeのBMP(?U+FFFF)まで 4) Unicode 6.0全て 5) それ以上
28.
クイズ?第3問 青空文庫で使っている文字集合はどの 範囲まで? 1) JIS X
0208(第1?2水準) 2) JIS X 0213(第3?4水準) 3) UnicodeのBMP(?U+FFFF)まで 4) Unicode 6.0全て 5) それ以上
29.
青空文庫と文字コード ● テキストはJIS X
0208(Shift_JIS) で記述する – 包摂規準はJIS X 0213ではなく JIS X 0208の包摂規準を使う ● JIS X 0208で記述できない文字に ついては外字記法を使う
30.
外字記法 ※[#「てへん+劣」、第3水準1-84-77] → 挘 ※[#「二/二」、U+4E96、167-2] → 亖
31.
外字記法 ※[#「仝」の「工」に代えて 「サ」、屋号を示す記号、75-9] http://www.e-yamasa.com/
32.
http://www.aozora.gr.jp/gaiji_chuki/index.html
33.
http://www.aozora.gr.jp/gaiji_chuki/gaiji_chuki.pdf
34.
青空文庫形式 テキストファイルを 扱えるツール
35.
aozora2html ● 青空文庫形式のテキストファイル をHTMLに変換するツール ● 青空文庫で配布しているtxt2html (t2hs.rb)
を改造したもの ● 2017/03/10リリースのver.0.9.0 で大幅改造 ● ライセンス: CC0
36.
https://rubygems.org/gems/aozora2html/
37.
AozoraEpub3 ● 「青空文庫の注記入りテキスト ファイルをePub3ファイル(zip圧 縮)に変換するツールです。」 ● ライセンス:
GPL
38.
https://github.com/hmdev/AozoraEpub3
39.
青空文庫形式 テキストファイルと 青空文庫CSV
40.
テキストファイルの探し方 ● 青空文庫のサイトの図书カードか ら探す ● 青空文庫のCSVファイルから探す
41.
図书カード
42.
図书カード
43.
青空文庫CSVファイル ● 青空文庫で配布している「作家別 作品一覧拡充版CSVファイル」
44.
https://github.com/aozorahack/hackathon2016/blob/master/doc/csv.md
45.
テーブル构成
Download