Date: 2026-03-25
対象: 山下祐一先生(NCNP)、宗田卓史さん(NCNP)
作成: 福原玄
本研究は「日本語会話における相互行為特徴量の定量化指標の提案」として位置づける。
| 観点 | 先行研究 | 本研究 |
|---|---|---|
| 目的 | 性格推定・ASD分類 | 相互行為特徴量の定量化指標の提案 |
| 手法 | LLM/PLM出力をそのまま推定値として使用 | 再現可能な18特徴量を明示的に定義 |
| 検証 | 単一モデル・単一指標 | 2段階検証(コーパス基本情報 + Big5) |
| 対象 | 英語・韓国語中心 | 日本語会話コーパス(CEJC) |
Results
├── 1° 提案特徴量の抽出
│ ├── 3.1 記述統計と分布 → 指標としての有用性を丁寧に報告
│ └── 3.2 カテゴリ内/間の相関分析 → 構造的妥当性
└── 2° 外部指標を用いた妥当性検証
├── 3.3 コーパス基本情報との関連性(性別・年齢)→ 表面的妥当性
└── 3.4 性格特性(Big5)との関連性 → 構成概念妥当性
以下の18特徴量を4カテゴリ(PG: タイミング、FILL: フィラー、IX: 相互行為、RESP: 応答型)に分類して使用する。
| # | 特徴量名 | カテゴリ | 概要 |
|---|---|---|---|
| 1 | PG_speech_ratio | PG | 発話率(話者の発話時間 / 会話全体時間) |
| 2 | PG_pause_mean | PG | 沈黙の平均長(同一話者の連続発話間ギャップ) |
| 3 | PG_pause_p50 | PG | 沈黙の中央値 |
| 4 | PG_pause_p90 | PG | 沈黙の90パーセンタイル |
| 5 | PG_resp_gap_mean | PG | 応答遅れの平均(話者交替時のギャップ) |
| 6 | PG_resp_gap_p50 | PG | 応答遅れの中央値 |
| 7 | PG_resp_gap_p90 | PG | 応答遅れの90パーセンタイル |
| 8 | FILL_has_any | FILL | フィラー出現発話率(えっと/えー/あのを含む発話の割合) |
| 9 | FILL_rate_per_100chars | FILL | 100文字あたりフィラー率 |
| 10 | IX_oirmarker_rate | IX | 修復開始(OIR)率(え?/えっ/なに?等で始まる応答の割合) |
| 11 | IX_oirmarker_after_question_rate | IX | 質問直後のOIR率 |
| 12 | IX_yesno_rate | IX | YES/NO応答率(はい/うん/いいえ等で始まる応答の割合) |
| 13 | IX_yesno_after_question_rate | IX | 質問直後のYES/NO率 |
| 14 | IX_lex_overlap_mean | IX | 語彙重なり(前発話と応答の文字バイグラムJaccard係数の平均) |
| 15 | IX_topic_drift_mean | IX | 話題逸脱度(1 − IX_lex_overlap_mean、共線性に注意) |
| 16 | RESP_NE_AIZUCHI_RATE | RESP | 「ね」直後の相槌率 |
| 17 | RESP_NE_ENTROPY | RESP | 「ね」直後の応答多様性(Shannon entropy) |
| 18 | RESP_YO_ENTROPY | RESP | 「よ」直後の応答多様性(Shannon entropy) |
PG(タイミング)カテゴリ
| 特徴量 | 計算アルゴリズム | 欠損値の扱い |
|---|---|---|
| PG_speech_ratio | 話者の発話時間合計 / 会話全体時間 | total_timeが0または欠損の場合NaN |
| PG_pause_mean | 同一話者の連続発話間ギャップ(≥gap_tol秒)の平均 | 該当ギャップがない場合NaN |
| PG_pause_p50 | 同上の50パーセンタイル | 該当ギャップがない場合NaN |
| PG_pause_p90 | 同上の90パーセンタイル | 該当ギャップがない場合NaN |
| PG_resp_gap_mean | 話者交替時の前発話end→応答startギャップ(≥gap_tol秒)の平均 | 該当ギャップがない場合NaN |
| PG_resp_gap_p50 | 同上の50パーセンタイル | 該当ギャップがない場合NaN |
| PG_resp_gap_p90 | 同上の90パーセンタイル | 該当ギャップがない場合NaN |
FILL(フィラー)カテゴリ
| 特徴量 | 計算アルゴリズム | 欠損値の扱い |
|---|---|---|
| FILL_has_any | フィラー(えっと/えー/あの)を1つ以上含む発話の割合 | 話者の発話が0件の場合NaN |
| FILL_rate_per_100chars | フィラー総数 / (テキスト文字数 / 100) | text_lenが0の場合NaN |
IX(相互行為)カテゴリ
| 特徴量 | 計算アルゴリズム | 欠損値の扱い |
|---|---|---|
| IX_oirmarker_rate | OIRマーカー(え?/えっ/なに?等)で始まる応答の割合。話者が応答側となる全隣接ペアに対して計算 | — |
| IX_oirmarker_after_question_rate | 前発話が質問の場合に限定したOIRマーカー応答率 | 質問直後ペアが0件の場合NaN |
| IX_yesno_rate | YES/NOプレフィックス(はい/うん/えー/いいえ等)で始まる応答の割合 | — |
| IX_yesno_after_question_rate | 前発話が質問の場合に限定したYES/NO応答率 | 質問直後ペアが0件の場合NaN |
| IX_lex_overlap_mean | 前発話と応答の文字バイグラムJaccard係数の平均 | — |
| IX_topic_drift_mean | 1 − IX_lex_overlap_mean(IX_lex_overlap_meanと共線性あり) | — |
RESP(応答型)カテゴリ
| 特徴量 | 計算アルゴリズム | 欠損値の扱い |
|---|---|---|
| RESP_NE_AIZUCHI_RATE | 前発話が「ね」終助詞で終わる場合に、応答が相槌プレフィックスで始まる割合 | n_pairs_after_NEが0の場合NaN |
| RESP_NE_ENTROPY | 「ね」終助詞直後の応答先頭トークンのShannon entropy(log2) | n_pairs_after_NEが0の場合NaN |
| RESP_YO_ENTROPY | 「よ」終助詞直後の応答先頭トークンのShannon entropy(log2) | n_pairs_after_YOが0の場合NaN |
注: Ridge回帰パイプラインでは、NaN値は
SimpleImputer(strategy="median")により中央値補完される。
18特徴量の分布をカテゴリ別に以下に示す。

主な知見:
全体として: 18特徴量の多くは個人差を捉えるのに十分なばらつきを示しており、相互行為の定量化指標として有用であることが確認された。ただし、OIR関連指標のように分布が極端に偏る特徴量については、解釈上の注意が必要。
18特徴量間のPearson相関行列をカテゴリ別ブロック構造で可視化した。

カテゴリ内相関:
カテゴリ間相関:
| 概ね低い( | r | < 0.30)。→ 4つのカテゴリが相互に独立した会話行動の側面を捉えていることを示す。 |
多重共線性への含意: Ridge回帰(α=100)の正則化により係数推定の安定性は確保されている。ただし、個々の特徴量の係数解釈にはこれらの相関構造を考慮する必要がある。
特徴量の妥当性を外部指標から検証するため、コーパスに付随する話者属性情報(性別・年齢)と18特徴量の関連を分析した。話者属性はCEJCメタ情報(話者.csv + 話者・会話対応表.csv)から conversation_id × speaker_id をキーに紐付けた(N=120全件マッチ、女性66名・男性54名)。


性別との有意な関連:
| 特徴量 | U統計量 | p値 | 解釈 |
|---|---|---|---|
| PG_speech_ratio | 950 | <0.0001 | 女性の方が発話率が高い |
| PG_pause_mean | 2645 | <0.0001 | 女性の方が沈黙が短い |
| PG_pause_p50 | 2740 | <0.0001 | 同上(中央値) |
| PG_pause_p90 | 2647 | <0.0001 | 同上(90パーセンタイル) |
| FILL_has_any | 1406 | 0.048 | 女性の方がフィラー出現発話が多い |
| IX_lex_overlap_mean | 1109 | 0.0004 | 女性の方が語彙重なりが高い |
| IX_topic_drift_mean | 2455 | 0.0004 | 男性の方が話題逸脱度が高い |
年齢との有意な関連(Pearson r, p < 0.05):
| 特徴量 | Pearson r | p値 | Spearman ρ | p値 | 解釈 |
|---|---|---|---|---|---|
| PG_speech_ratio | 0.455 | <0.0001 | 0.447 | <0.0001 | 年齢が高い話者ほど発話率が高い |
| PG_pause_mean | −0.332 | 0.0002 | −0.389 | <0.0001 | 年齢が高い話者ほど沈黙が短い |
| PG_pause_p50 | −0.436 | <0.0001 | −0.449 | <0.0001 | 同上(中央値) |
| PG_pause_p90 | −0.275 | 0.0024 | −0.343 | 0.0001 | 同上(90パーセンタイル) |
| PG_resp_gap_mean | −0.238 | 0.0087 | −0.241 | 0.0080 | 年齢が高い話者ほど応答遅れが短い |
| PG_resp_gap_p50 | −0.289 | 0.0013 | −0.256 | 0.0047 | 同上(中央値) |
| PG_resp_gap_p90 | −0.212 | 0.0204 | −0.200 | 0.0285 | 同上(90パーセンタイル) |
| FILL_has_any | 0.445 | <0.0001 | 0.442 | <0.0001 | 年齢が高い話者ほどフィラーが多い |
| FILL_rate_per_100chars | 0.415 | <0.0001 | 0.391 | <0.0001 | 同上(100文字あたり) |
| IX_yesno_rate | 0.252 | 0.0055 | 0.249 | 0.0060 | 年齢が高い話者ほどYES/NO応答が多い |
| IX_yesno_after_question_rate | 0.296 | 0.0010 | 0.279 | 0.0020 | 同上(質問直後) |
| RESP_NE_AIZUCHI_RATE | 0.272 | 0.0033 | 0.289 | 0.0017 | 年齢が高い話者ほど「ね」直後の相槌が多い |
妥当性の含意: 18特徴量のうち12特徴量が年齢と、7特徴量が性別と有意な関連を示した。特にPG系(タイミング)とFILL系(フィラー)は性別・年齢の両方と強い関連を持ち、社会言語学的に既知の知見(女性の方が発話率が高い、年齢とともにフィラー使用が増加する等)と整合する。これらの結果は、提案特徴量の表面的妥当性(face validity)を強く支持する。
本節では、提案特徴量と外部の心理学的構成概念(Big Five性格特性)との関連を報告する。本分析は特徴量の構成概念妥当性(construct validity)の検証であり、性格推定モデルの構築を目的としない。
Conscientiousness(C: 誠実性)について、4つのLLM教師それぞれを仮想教師としたPermutation test(5000回)の結果を以下に示す。
| LLM教師 | r_obs | p(|r|) | 判定 |
|---|---|---|---|
| Sonnet4 | 0.434 | 0.0008 | 有意 |
| Qwen3-235B | 0.390 | 0.001 | 有意 |
| GPT-OSS-120B | 0.447 | 0.0008 | 有意 |
| DeepSeek-V3 | 0.205 | 0.113 | 非有意 |
4教師中3教師で有意(p < 0.05)であり、Cは教師モデルに依存せず頑健に推定可能であることが示された。この結果は、相互行為特徴量がCという性格次元と安定的に関連することを示す。

同一(conversation_id, speaker_id)に対する4教師のスコア間Pearson相関の平均(off-diagonal mean r)を算出した。
| Trait | mean r(Teacher間一致度) |
|---|---|
| C | 0.699(最高) |
| E | 0.640 |
| N | 0.603 |
| O | 0.559 |
| A | 0.435(最低) |
Cはteacher間一致度が最も高く(≈0.70)、仮想教師として安定していることが、Cの頑健性の背景を説明する。一方、Aはteacher間一致度が最も低く(≈0.44)、teacher依存性が大きい。

Bootstrap 500回リサンプリングにおけるCの上位特徴量(topk_rate降順)を以下に示す。
| 特徴量 | 方向 | topk_rate | sign_agree_rate |
|---|---|---|---|
| FILL_has_any | + | 0.838 | 0.968 |
| IX_oirmarker_after_question_rate | + | 0.824 | 0.984 |
| PG_speech_ratio | + | 0.804 | 0.932 |
| PG_resp_gap_mean | − | 0.746 | 0.986 |
| PG_resp_gap_p50 | − | 0.678 | 0.864 |
| IX_lex_overlap_mean | − | 0.672 | 0.980 |
| IX_topic_drift_mean | + | 0.656 | 0.980 |
| RESP_NE_AIZUCHI_RATE | + | 0.626 | 0.914 |
| IX_yesno_rate | + | 0.568 | 0.896 |
| PG_pause_p50 | − | 0.564 | 0.886 |
上位3特徴量(FILL_has_any, IX_oirmarker_after_question_rate, PG_speech_ratio)はいずれも正の方向で安定しており、Cが高い話者は「フィラーを含む発話が多い」「質問直後に修復開始(OIR)が多い」「発話率が高い」傾向を示す。

NCNPレビュー(山下先生・宗田さん)から、以下の主要フィードバックを受けた:
| フィードバック | 反映箇所 | 対応内容 |
|---|---|---|
| メインメッセージの転換 | 1章(研究の位置づけ)、論文Introduction | 「性格推定」→「相互行為特徴量の定量化指標の提案」に変更。Big5分析は構成概念妥当性の検証として位置づけ |
| Results構成の改訂 | 3章(結果)、論文Results | 新4段構成: 記述統計→相関→コーパス基本情報→Big5 |
| コーパス基本情報の活用 | 3.3節、論文Results 3.3 | 性別・年齢との関連分析を追加。CEJCメタ情報(話者.csv + 話者・会話対応表.csv)からN=120全件の話者属性を紐付け。性別で7特徴量、年齢で12特徴量に有意な関連を確認 |
| 新規図表の追加 | 3.1〜3.3節 | 特徴量分布図、相関ヒートマップ、性別×特徴量箱ひげ図、年齢×特徴量散布図を追加 |