asd

山下先生フィードバック対応ログ（v3, 2026-03）

山下先生（NCNP）から受けた論文（paper1_ja.tex v2）に対する11項目のフィードバックへの対応記録。

対応状況一覧

#	フィードバック	状態	対応内容	Before → After
1	スライドにMethodsを含める	✅	Methods 2枚（データと手法 + 特徴量分類テーブル）を冒頭に追加	6枚（Resultsのみ）→ 8枚（Methods 2 + Results 6）
2	既存研究ベース vs 新規提案を明示	✅	feature_definitions.pyにclassificationフィールド追加、Method節・テーブル・スライドに反映	18特徴量を一括記述 → Classical 9個 / Novel 9個の2群に分類
3	図の可読性改善	✅	全図表のフォントサイズ引き上げ（軸≥12pt, 凡例≥10pt, アノテーション≥9pt, 相関行列≥7pt）、DPI=300	フォント小・DPI=200 → 閾値準拠・DPI=300
4	Big5全次元を本文で報告	✅	Results 3.4.1でアンサンブル全5次元、3.4.2で個別教師全次元を本文報告。A/E/N/OをAppendixから本文に移動	Cのみ本文、AENO Appendix → 全5次元を本文で報告、Cを主結果として強調
5	AENOは「予測できてない」ではない	✅	「教師モデル依存性がある」に表現統一。GPT-OSS-120B全5次元有意を明示。各次元の有意教師数を報告	「予測できていない」→ 「教師モデル依存性がある」（GPT-OSS-120Bは全次元有意）
6	アンサンブルでAENOの有意は消えるか	✅	ensemble_permutation.py新規作成。4教師item-level平均で5次元permutation test実行	個別教師4本の結果一覧 → アンサンブル主結果: O,C,A,N有意（4/5次元）、Eのみ非有意
7	教師間一致度はサプリメンタル的	✅	Results 3.4節を再構成: アンサンブル→個別教師→ベースライン比較→Bootstrap→教師間一致度（末尾）	Permutation→Teacher Agreement→Bootstrap → アンサンブル→Bootstrap→Teacher Agreement（サプリメンタル化）
8	ベースライン vs 拡張モデル比較	✅	baseline_vs_extended.py新規作成。全5次元×4教師（20パターン）で実行、Δr報告、図表生成	比較なし → Classical 9個 vs 全18個のΔrを全次元で定量報告
9	交絡対策	✅	confound_analysis.py新規作成。18特徴量のみ vs 18特徴量+性別+年齢の2条件で全20パターン実行	交絡未検討 → Cは3/4教師で交絡統制後も有意維持（平均Δr=+0.026）
10	イントロ構成改訂	✅	5段落構成に改訂: (a)会話分析の伝統 → (b)LLM+説明可能性 → (c)Classical/Novel 2群 → (d)相互補完アプローチ → (e)目的と貢献	LLMギャップ提示型 → 古典CA→LLM説明可能性→2群特徴量→行ったり来たり→貢献
11	LLM特徴量着目検証（理想）	✅	Discussion 4.5節で実現可能性の課題（テキスト操作の非自明性等）と3つの将来方向性を論じ、今後の課題として位置づけ	未言及 → Discussion内で方法論・課題・将来方向性を記述（今後の課題）

新規作成ファイル

ファイル	内容
`scripts/analysis/ensemble_permutation.py`	アンサンブルBig5（4教師item-level平均）permutation test
`scripts/analysis/baseline_vs_extended.py`	ベースライン（Classical 9個）vs 拡張（全18個）比較
`scripts/analysis/confound_analysis.py`	交絡変数（性別・年齢）統制分析

変更ファイル

ファイル	変更内容
`scripts/paper_figs/feature_definitions.py`	classificationフィールド追加（Classical/Novel/Control）、get_classical_features() / get_novel_features() API追加
`scripts/paper_figs/gen_paper_figs_v2.py`	フォントサイズ・DPI改善、新規図表4種追加（ensemble_permutation, baseline_vs_extended, 対応LaTeXテーブル2種）、tab_feature_definitionsにClassification列追加
`scripts/paper_figs/gen_kamishibai_slides.py`	Methods 2枚追加、Results構成改訂（アンサンブル・ベースライン比較スライドに差替）
`paper1_ja.tex`	Introduction 5段落構成、Method Classical/Novel分類、Results 3.4節5サブセクション再構成、Discussion交絡統制+LLM着目検証、Appendix 3セクション化、全プレースホルダーを実データに差替

想定外の結果

山下先生は「アンサンブルでAENOの有意は消えるか？」と問うたが、実際にはO, A, Nもアンサンブルで有意（p<0.05）であった。

Trait	r_obs	p値	有意?
O（開放性）	0.360	0.0048	✅
C（誠実性）	0.447	0.0004	✅
E（外向性）	0.217	0.0902	❌
A（協調性）	0.465	0.0004	✅
N（神経症傾向）	0.309	0.0152	✅

これにより、研究の主張は「Cだけが特別」から「Eを除く4次元で相互行為特徴量との有意な関連が認められる」に格上げされた。 Aがr=0.465でCを上回っている点も注目に値する（ただしAの教師間一致度はCより低い）。

交絡統制結果（C, 性別・年齢追加後）

教師	r_features	p_features	r_confounds	p_confounds	Δr
Sonnet4	0.384	0.0034	0.407	0.0016	+0.023
Qwen3-235B	0.366	0.0042	0.403	0.0020	+0.037
GPT-OSS-120B	0.445	0.0008	0.489	0.0002	+0.045
DeepSeek-V3	0.168	0.1956	0.167	0.1946	-0.001

3/4教師で交絡統制後も有意維持。むしろ精度向上（平均Δr=+0.026）。特徴量とCの関連は性別・年齢の交絡ではないことが確認された。