Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Les identifiants renseignés dans le jeu de données sur les arrêts de transport en France ne permettent pas de retrouver les sources via l'API. #4237

Open
l-atometrics opened this issue Oct 1, 2024 · 7 comments
Assignees

Comments

@l-atometrics
Copy link

Les identifiants renseignés dans le jeu de données sur les arrêts de transport en France ne permettent pas de retrouver les sources via l'API.

Lien vers le jeu de données en question

Le champ dataset_datagouv_id du fichier gtfs-stops-france-export-2024-02-01.csv doit permettre d'obtenir des informations sur le jeu de données source.

Liste des appels API qui donnent une erreur 404:

https://transport.data.gouv.fr/api/datasets/6246416dbd6bdfe8bceb4ce1
https://transport.data.gouv.fr/api/datasets/5ce8865306e3e760b2d57ec0
https://transport.data.gouv.fr/api/datasets/5f727b96e0db0e5a8d8021e6
https://transport.data.gouv.fr/api/datasets/5f727b966c0e98506c8021e6
https://transport.data.gouv.fr/api/datasets/58b69b59a3a7295a7d8251db
https://transport.data.gouv.fr/api/datasets/632a56a68a907ff3d4eacfa5
https://transport.data.gouv.fr/api/datasets/5f727b959d8643680e8021e7
https://transport.data.gouv.fr/api/datasets/60783f75fe19a0fdff30007c
https://transport.data.gouv.fr/api/datasets/5f727b957ba624d0618021e6
https://transport.data.gouv.fr/api/datasets/5f727b95da00e0a55d5b654c
https://transport.data.gouv.fr/api/datasets/632a56a6a0eb7f886aeacfa5
https://transport.data.gouv.fr/api/datasets/5f056a8175835e3ce8745e8f
https://transport.data.gouv.fr/api/datasets/632a56a68a907ff3d4eacfa4
https://transport.data.gouv.fr/api/datasets/63b53ae1295baecca51919e8
https://transport.data.gouv.fr/api/datasets/5f98489963e530e1f7084070
https://transport.data.gouv.fr/api/datasets/642a93532f52c89ac0ecb689
https://transport.data.gouv.fr/api/datasets/632a56a64561af3796eacfa5
https://transport.data.gouv.fr/api/datasets/5f727b954d128d4c0a5b654c
https://transport.data.gouv.fr/api/datasets/5f031c9444300aab6a6dcf09
https://transport.data.gouv.fr/api/datasets/60a3802aae371dbb3f9625a6
https://transport.data.gouv.fr/api/datasets/632a56a74561af3796eacfa7
https://transport.data.gouv.fr/api/datasets/646f12ce780e30e5d150ba84
https://transport.data.gouv.fr/api/datasets/62955cfa91ea46c59fc7fd48
https://transport.data.gouv.fr/api/datasets/5f727b9628bcf5467b8021e7
https://transport.data.gouv.fr/api/datasets/5c17b64f634f4175a506ba76
https://transport.data.gouv.fr/api/datasets/632a56a75dfc2ff050eacfa5
https://transport.data.gouv.fr/api/datasets/632a56a64561af3796eacfa4
https://transport.data.gouv.fr/api/datasets/615c0a9a40b5fbeb152d9e3c
https://transport.data.gouv.fr/api/datasets/632a56a6375be9df218c0d3b
https://transport.data.gouv.fr/api/datasets/632a56a74916728dc7eacfa5
https://transport.data.gouv.fr/api/datasets/632a56a644e491b8ebeacfa5
https://transport.data.gouv.fr/api/datasets/632a56a78a907ff3d4eacfa7
https://transport.data.gouv.fr/api/datasets/632a56a65dfc2ff050eacfa4
https://transport.data.gouv.fr/api/datasets/632a56a70dfc531954eacfa5
https://transport.data.gouv.fr/api/datasets/5f9a080205ce9ab00bd5f959
https://transport.data.gouv.fr/api/datasets/63ecea29553d609b56622f1b
https://transport.data.gouv.fr/api/datasets/632a56a60dfc531954eacfa4
https://transport.data.gouv.fr/api/datasets/63b4c3d200fbf8e5ed9dde9b
https://transport.data.gouv.fr/api/datasets/632a56a744e491b8ebeacfa6
https://transport.data.gouv.fr/api/datasets/632a56a687192cc1b58c0d3a
https://transport.data.gouv.fr/api/datasets/632a56a7a0eb7f886aeacfa7
https://transport.data.gouv.fr/api/datasets/5f52213d51742b7b9e3133cb
https://transport.data.gouv.fr/api/datasets/632a56a7052625d602eacfa7
https://transport.data.gouv.fr/api/datasets/5d84ec576f4441350e5fde2b
https://transport.data.gouv.fr/api/datasets/5c2f22d6634f416a515cb152
https://transport.data.gouv.fr/api/datasets/632a56a687192cc1b58c0d3b
https://transport.data.gouv.fr/api/datasets/642fd4d08b9ae74c3d759b9f
https://transport.data.gouv.fr/api/datasets/639b2ed1754a7678eb3cb425
https://transport.data.gouv.fr/api/datasets/632a56a78a907ff3d4eacfa6
https://transport.data.gouv.fr/api/datasets/632a56a75dfc2ff050eacfa6
https://transport.data.gouv.fr/api/datasets/650af320fff6622ea76975fe
https://transport.data.gouv.fr/api/datasets/5e42c92b6f44413a6da1bfb0
https://transport.data.gouv.fr/api/datasets/632a56a74916728dc7eacfa6
https://transport.data.gouv.fr/api/datasets/632a56a7052625d602eacfa6
https://transport.data.gouv.fr/api/datasets/5f900525ff6a4d20bc9c08a7
https://transport.data.gouv.fr/api/datasets/642fd6578972f13859cbf603
https://transport.data.gouv.fr/api/datasets/632a56a744e491b8ebeacfa7
https://transport.data.gouv.fr/api/datasets/5e6a099a634f4126d8ee8575
https://transport.data.gouv.fr/api/datasets/632a56a6a0eb7f886aeacfa4
https://transport.data.gouv.fr/api/datasets/65a53188e2e747a6799b9dd7
https://transport.data.gouv.fr/api/datasets/5d80dcf46f44411ec84dab7e
https://transport.data.gouv.fr/api/datasets/63abf4f10245adea27f49b56
https://transport.data.gouv.fr/api/datasets/6061a66ab05ac8509352aa12

Les autres identifiants fonctionnent.

Que puis-je faire? Existe-t-il une autre façon d'accéder aux sources?

Mon projet consiste à catégoriser les types d'arrêts (bus, train, métro).
L'information se trouve dans routes.txt à l'intérieur de ces jeux de données source.

@ptitfred
Copy link
Contributor

ptitfred commented Oct 2, 2024

Bonjour,

Il existe 2 identifiants pour les datasets comme pour les ressources selon que l'on parle de transport.data.gouv.fr ou data.gouv.fr.

Pour retrouver les datasets ou resources sur l'API de transport.data.gouv.fr il vous faudra donc utiliser le second jeu d'identifiants.

En espèrant que cela réponde à votre question.

@ptitfred
Copy link
Contributor

ptitfred commented Oct 2, 2024

Bonjour,

Il existe 2 identifiants pour les datasets comme pour les ressources selon que l'on parle de transport.data.gouv.fr ou data.gouv.fr.

* Les colonnes `dataset_datagouv_id` et `resource_datagouv_id` contiennent les identifiants de https://data.gouv.fr.

* Les colonnes `dataset_id` et `resource_id` contiennent les identifiants de https://transport.data.gouv.fr.

Pour retrouver les datasets ou resources sur l'API de transport.data.gouv.fr il vous faudra donc utiliser le second jeu d'identifiants.

En espèrant que cela réponde à votre question.

J'ai dit des bétises. Je regarde plus en détails.

@l-atometrics
Copy link
Author

@ptitfred

Bonjour, merci pour votre réponse si rapide.

Voici un lien vers un colab qui montre le problème:

lien vers le colab

J'ai testé tous les identifiants disponibles, et seul le dataset_datagouv_id répond en HTTP200, tous les autres sont en HTTP404.

J'ajoute le code ici au cas où vous ne pourriez pas ouvrir le colab:


!wget https://www.data.gouv.fr/fr/datasets/r/69cf54c6-6591-4920-b1d6-2a5292964606 -O gtfs-stops-france-export-2024-02-01.csv

import pandas as pd
df = pd.read_csv('gtfs-stops-france-export-2024-02-01.csv')

dataset_id = df.head(1).dataset_id.at[0]
dataset_id

dataset_datagouv_id = df.head(1).dataset_datagouv_id.at[0]
dataset_datagouv_id

resource_id = df.head(1).resource_id.at[0]
resource_id

dataset_aom_id = df.head(1).dataset_aom_id.at[0]
dataset_aom_id


import requests

response = requests.get(f"https://transport.data.gouv.fr/api/datasets/{dataset_id}")
response

response = requests.get(f"https://transport.data.gouv.fr/api/datasets/{dataset_datagouv_id}")
response

response = requests.get(f"https://transport.data.gouv.fr/api/datasets/{resource_id}")
response

response = requests.get(f"https://transport.data.gouv.fr/api/datasets/{dataset_aom_id}")
response

response = requests.get(f"https://transport.data.gouv.fr/api/datasets/{dataset_id+resource_id}")
response


@ptitfred ptitfred self-assigned this Oct 2, 2024
@ptitfred
Copy link
Contributor

ptitfred commented Oct 2, 2024

Une partie des datasets n'existent tout simplement plus sur datagouv :

https://www.data.gouv.fr/api/1/datasets/5ce8865306e3e760b2d57ec0/
https://www.data.gouv.fr/api/1/datasets/58b69b59a3a7295a7d8251db/
https://www.data.gouv.fr/api/1/datasets/60783f75fe19a0fdff30007c/
https://www.data.gouv.fr/api/1/datasets/5f056a8175835e3ce8745e8f/
https://www.data.gouv.fr/api/1/datasets/5f98489963e530e1f7084070/
https://www.data.gouv.fr/api/1/datasets/5c17b64f634f4175a506ba76/
https://www.data.gouv.fr/api/1/datasets/5f9a080205ce9ab00bd5f959/
https://www.data.gouv.fr/api/1/datasets/63b4c3d200fbf8e5ed9dde9b/
https://www.data.gouv.fr/api/1/datasets/5f52213d51742b7b9e3133cb/
https://www.data.gouv.fr/api/1/datasets/5d84ec576f4441350e5fde2b/
https://www.data.gouv.fr/api/1/datasets/650af320fff6622ea76975fe/
https://www.data.gouv.fr/api/1/datasets/65a53188e2e747a6799b9dd7/
https://www.data.gouv.fr/api/1/datasets/63abf4f10245adea27f49b56/
https://www.data.gouv.fr/api/1/datasets/6061a66ab05ac8509352aa12/

Pour les autres cas je dois analyser les raisons de l'écart entre transport.data.gouv.fr et data.gouv.fr (404 chez transport, 200 chez data.gouv).

J'attire votre attention sur le fait que l'export CSV date de février dernier, et ne refléte donc pas les changements des 8 derniers mois. Il faut s'attendre à ce que l'API ne trouve pas tout ce qui est listé dans le CSV.

@louispaulet
Copy link

louispaulet commented Oct 2, 2024

Merci!

EDIT: je passe donc par l'api data.gouv au lieu de transport.gouv pour minimiser les 404.

@ptitfred
Copy link
Contributor

ptitfred commented Oct 2, 2024

Les datasets suivants ont été archivés sur data.gouv.fr aux dates suivantes :

https://www.data.gouv.fr/api/1/datasets/5f727b96e0db0e5a8d8021e6/ "2024-06-12T10:18:53.469000+00:00"
https://www.data.gouv.fr/api/1/datasets/5f727b966c0e98506c8021e6/ "2024-06-12T10:18:52.611000+00:00"
https://www.data.gouv.fr/api/1/datasets/5f727b959d8643680e8021e7/ "2024-06-12T10:18:53.575000+00:00"
https://www.data.gouv.fr/api/1/datasets/5f727b957ba624d0618021e6/ "2024-06-12T10:18:52.138000+00:00"
https://www.data.gouv.fr/api/1/datasets/5f727b95da00e0a55d5b654c/ "2024-06-12T10:18:52.656000+00:00"
https://www.data.gouv.fr/api/1/datasets/5f727b954d128d4c0a5b654c/ "2024-06-12T10:18:53.617000+00:00"
https://www.data.gouv.fr/api/1/datasets/5f031c9444300aab6a6dcf09/ "2024-07-06T00:08:29.701000+00:00"
https://www.data.gouv.fr/api/1/datasets/60a3802aae371dbb3f9625a6/ "2024-09-03T00:05:12.091000+00:00"
https://www.data.gouv.fr/api/1/datasets/5f727b9628bcf5467b8021e7/ "2024-06-12T10:18:52.186000+00:00"

@ptitfred
Copy link
Contributor

ptitfred commented Oct 2, 2024

Les datasets restants sont présents dans notre historiques mais ne remontent pas dans les résultats de l'API actuellement. C'est un bug. Liste des datasets concernés pour mémoire :

https://www.data.gouv.fr/api/1/datasets/6246416dbd6bdfe8bceb4ce1/
https://www.data.gouv.fr/api/1/datasets/632a56a68a907ff3d4eacfa5/
https://www.data.gouv.fr/api/1/datasets/632a56a6a0eb7f886aeacfa5/
https://www.data.gouv.fr/api/1/datasets/632a56a68a907ff3d4eacfa4/
https://www.data.gouv.fr/api/1/datasets/63b53ae1295baecca51919e8/
https://www.data.gouv.fr/api/1/datasets/642a93532f52c89ac0ecb689/
https://www.data.gouv.fr/api/1/datasets/632a56a64561af3796eacfa5/
https://www.data.gouv.fr/api/1/datasets/632a56a74561af3796eacfa7/
https://www.data.gouv.fr/api/1/datasets/646f12ce780e30e5d150ba84/
https://www.data.gouv.fr/api/1/datasets/62955cfa91ea46c59fc7fd48/
https://www.data.gouv.fr/api/1/datasets/632a56a75dfc2ff050eacfa5/
https://www.data.gouv.fr/api/1/datasets/632a56a64561af3796eacfa4/
https://www.data.gouv.fr/api/1/datasets/615c0a9a40b5fbeb152d9e3c/
https://www.data.gouv.fr/api/1/datasets/632a56a6375be9df218c0d3b/
https://www.data.gouv.fr/api/1/datasets/632a56a74916728dc7eacfa5/
https://www.data.gouv.fr/api/1/datasets/632a56a644e491b8ebeacfa5/
https://www.data.gouv.fr/api/1/datasets/632a56a78a907ff3d4eacfa7/
https://www.data.gouv.fr/api/1/datasets/632a56a65dfc2ff050eacfa4/
https://www.data.gouv.fr/api/1/datasets/632a56a70dfc531954eacfa5/
https://www.data.gouv.fr/api/1/datasets/63ecea29553d609b56622f1b/
https://www.data.gouv.fr/api/1/datasets/632a56a60dfc531954eacfa4/
https://www.data.gouv.fr/api/1/datasets/632a56a744e491b8ebeacfa6/
https://www.data.gouv.fr/api/1/datasets/632a56a687192cc1b58c0d3a/
https://www.data.gouv.fr/api/1/datasets/632a56a7a0eb7f886aeacfa7/
https://www.data.gouv.fr/api/1/datasets/632a56a7052625d602eacfa7/
https://www.data.gouv.fr/api/1/datasets/5c2f22d6634f416a515cb152/
https://www.data.gouv.fr/api/1/datasets/632a56a687192cc1b58c0d3b/
https://www.data.gouv.fr/api/1/datasets/642fd4d08b9ae74c3d759b9f/
https://www.data.gouv.fr/api/1/datasets/639b2ed1754a7678eb3cb425/
https://www.data.gouv.fr/api/1/datasets/632a56a78a907ff3d4eacfa6/
https://www.data.gouv.fr/api/1/datasets/632a56a75dfc2ff050eacfa6/
https://www.data.gouv.fr/api/1/datasets/5e42c92b6f44413a6da1bfb0/
https://www.data.gouv.fr/api/1/datasets/632a56a74916728dc7eacfa6/
https://www.data.gouv.fr/api/1/datasets/632a56a7052625d602eacfa6/
https://www.data.gouv.fr/api/1/datasets/5f900525ff6a4d20bc9c08a7/
https://www.data.gouv.fr/api/1/datasets/642fd6578972f13859cbf603/
https://www.data.gouv.fr/api/1/datasets/632a56a744e491b8ebeacfa7/
https://www.data.gouv.fr/api/1/datasets/5e6a099a634f4126d8ee8575/
https://www.data.gouv.fr/api/1/datasets/632a56a6a0eb7f886aeacfa4/
https://www.data.gouv.fr/api/1/datasets/5d80dcf46f44411ec84dab7e/

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants