Théorie des ensembles
Le temps et les univers mathématiques, paradoxe de Russell et notion de classe

Cette page est obsolète (13/9/2008). Voir le nouveau sommaire : Théorie des ensembles et fondements des mathématiques.

Ancien sommaire:
1.1. Qu'est-ce que la logique mathématique
1.2. A propos de théorie des ensembles


1.3. Variables et ensembles
1.4. Applications, relations unaires et compréhension


1.5. Le paradoxe du langage et son explication temporelle
1.6. Paradoxe de Russell et explications (notion de classe)


1.7. Ensembles finis, n-uplets, familles, produit
1.8. Opérations, relations
1.9. Construction des termes et énoncés


1.5. Le paradoxe du langage et son explication temporelle

Remontant temporairement de l'étude rigoureuse de quelque notion mathématique particulière, nous allons encore profiter de la souplesse et des raccourcis du langage courant pour apporter commodément quelques éclairages sur des problèmes auxquels la métamathématique est confrontée, déjouer les paradoxes qui y règnent et qui d'un point de vue formel risqueraient de constituer des obstacles beaucoup plus difficiles à comprendre et à surmonter. En effet, l'objectif des fondements des mathématiques est de décrire la manière dont le monde mathématique se pense lui-même. Or, il se trouve que la manière dont il se pense lui-même ressemble étrangement à la manière dont nous humains pouvons le penser, les deux processus étant finalement l'image l'un de l'autre afin de garantir la rigueur profonde de toute étude mathématique. Et comme nous le pensons et avons conscience de le penser peut-être plus naturellement et intuitivement au premier abord que la manière dont il se pense lui-même et dont nous pouvons comprendre qu'il se pense, nous allons ici aborder quelques notions fondamentales des problèmes concernant les manières par lesquelles les mathématiques peuvent se penser elles-mêmes, dans un langage métaphorique basé sur la manière dont nous humains pouvons le penser. Ainsi nous verrons pourquoi nous devons rejeter certaines manières de penser et en développer d'autres, pour éviter les contradictions. Ceci permet l'adoption d'une logique cohérente munie d'une approche des problèmes métamathématiques fondamentaux, rendue plus facilement compréhensible que ce que sa complexité intrinsèque aurait permis d'un point de vue formel, par transport de la compréhension intuitive de la version humaine de chaque problème. Voici donc:
Nous avons commencé à parler des objets mathématiques, et aussi du langage pour en parler, lequel est aussi fait d'objets mathématiques. C'est ainsi que nous parlons de tout, et aussi d'autre chose. Mais cela ne devrait pas nous étonner. Car même en voulant parler de tout, il restera toujours quelque chose d'autre auquel nous n'aurons pas pensé. A savoir déjà, comme nous venons de le dire, le fait même d'en parler. Est-ce à dire que nous ne pouvons pas parler de ce qu'on peut dire ? Mais si bien sûr, puisque nous venons de le faire. Alors, quel est le problème ? Expliquons les choses en détails.
Un propos ne peut pas parler de lui-même et de "ce dont il parle". Car si je parle de "ce dont je parle", de quoi est-ce que je parle ? N'importe quelle réponse marcherait, mais ce fait n'est pas cohérent avec la forme grammaticale du propos qui semble parler d'une chose précise. Mais si je veux parler d'"autre chose que ce dont je parle", la situation devient plus grave.
Cela ne m'empêche pourtant pas de parler de "ce dont j'ai parlé hier", ce qui a bien une signification précise à condition que j'aie bien parlé hier d'une chose précise. Mais si je veux parler de "ce dont je parlerai demain", on ne sait pas encore de quoi il s'agit. Mais quand bien même je saurais d'avance quels mots je prononcerai, cela ne suffirait pas forcément pour autant à préciser de quoi il sera question. Surtout si je prévois de parler alors de "ce dont j'ai parlé hier", c'est-à-dire aujourd'hui. Car cela devrait bien avoir un sens demain si je reconnaissais un sens à mon propos d'aujourd'hui, ce qui est absurde.
Contrairement à ce qu'on pourrait penser, il ne s'agit pas d'un problème purement syntaxique qu'on puisse résoudre de manière entièrement satisfaisante par une formalisation fixe et adéquate.
Maintenant je proposerai d'étudier la question suivante B qui peut porter sur n'importe quelle question A: "La question A a-t-elle une réponse bien définie et qui en particulier vaut "non" si on l'applique à A elle-même ?". Cette question est constituée de deux sous-questions:
B1(A) = "La question A(A) a-t-elle une signification bien définie ?"
B2(A) = nonA(A)="La question A donne-t-elle "non" si on l'applique à A elle-même ?"
B(A) = (B1(A)  et B2(A))
Il est impossible que B(B) soit bien défini de réponse oui, car par définition, cela signifierait qu'elle se comprendrait elle-même comme ayant une signification bien définie mais répondant non sur elle-même, ce serait absurde.
Aussi, peut-être que déjà une des questions A et B ne s'intègrerait de toute manière pas elle-même au départ à son champ de considération (on ne pourraît même pas écrire B(B) avant de se demander si c'est vrai ou non) ? Dans ce cas, les questions qu'elle se pose ne sont pas des questions sur elle-même et le paradoxe est résolu. Mais, si une question ne se voit pas elle-même dans son champ de vision, on peut toujours l'interroger sur une copie conforme d'elle-même. Ce sur quoi dont on peut espérer qu'elle donnera la même réponse (quoique...).
Sinon, écrivons donc B(B)... à moins qu'on doive se contenter d'écrire B(B′) où B′ n'est qu'une copie conforme de l'énoncé B, et de même pour A. Elle est soit fausse, soit sans signification. Mais si elle est fausse, alors B2(B) est vraie par définition de B2, de sorte que B1(B) doit être fausse. Dans tous les cas, B(B) est sans signification, du moins au sens de la notion d'"être sans signification" que donne B1.
Mais qu'est-ce qui, parmi les deux sous-questions B1(B) et B2(B), peut paraître manquer de signification ? Peut-être la sous-question B1(B), de savoir si B(B) a une signification bien définie ou pas. Mais si on donne un critère syntaxique formel et clair pour reconnaître la forme des questions dont on sera sûr qu'elles auront un sens (encore faut-il préciser quel critère), cela ne tient plus la route, car une telle vérification grammaticale sera un procédé bien défini, qu'on pourrait (imaginons un instant) accompagner d'une méthode d'interprétation des propos de ce type qui formalisera B2. Ainsi B(B) se trouve-t-elle elle-même syntaxiquement incorrecte après que B1(B) (la vérification syntaxique) ait été vue bien définie puisqu'exprimant un supposé critère syntaxique clair. La réponse à B1(B) est en fait "non" comme nous venons de le dire.
Or, sachant ainsi que B(B) est de la forme (faux et...), cela ne suffirait-il pas déjà pour conclure avec assurance que la réponse à B(B) sera non ? Mais la question B1(B) n'a visiblement pas dû pouvoir prendre acte, dans sa notion de "question bien définie", de la remarque que, dans B(B), la sous-question B1(B) donnant une réponse négative, il n'est plus nécessaire de chercher un sens à B2(B) pour vérifier que la réponse globale est ainsi déjà bien déterminée par ce fait (excusons-la, le calcul de la réponse effective à une sous-question alourdirait sérieusement la simple vérification de correction syntaxique que nous demandions au départ, ceci compliquant en cercle vicieux le problème de la correction syntaxique de la notion de correction syntaxique !).
Notons B1(X,Y) l'énoncé "La question X(Y) a-t-elle une signification bien définie ?"
Mais si B1 est donné par une règle syntaxique clairement définie au point que B1(B1,B) soit vrai, alors B1(B2,B) doit être faux pour que B1(B) puisse être faux. Ainsi la méthode d'interprétation de B2 s'avère non conforme au critère de correction énoncé en B1. Or ce critère était celui qui doit garantir l'interprétabilité de la question considérée par B2. Pourtant cette méthode d'interprétation est aussi interprétable, non par elle-même, mais à condition de faire pour cela appel à une méthode d'interprétation plus puissante.
Mais laissons de côté cette question de hiérarchie des formalismes qui nécessiterait des explications d'un autre niveau de difficulté, et retenons l'idée qu'une théorie mathématique ne peut guère inclure son propre langage parmi ses objets d'étude, sous peine de le voir comme privé de sa signification. Et aussi, que pour que cela ait un sens de parler de la signification d'un propos, il ne suffit pas de savoir que ce propos a un sens, mais il faut également savoir l'interpréter effectivement.
Ainsi, je peux certes sans encombre parler de "ce dont je parlais hier" si cela avait bien un sens, car j'avais déjà alors saisi ce sens et je m'en souviens; mais même si je pouvais prédire quels propos je prononcerai demain et m'assurer qu'ils devront avoir un sens, je ne saurais pas pour autant quels en seront les objets, car ne les ayant pas encore prononcés, je n'ai pas encore expérimenté leur signification en moi et je ne la possède pas. D'ici là, je peux toujours discuter du sens qu'ils pourront avoir, mais cette discussion restera vide de sens jusqu'au moment où ces propos auront effectivement été prononcés. Mais comme l'intérêt est maigre de parler d'un propos sans sa signification, mieux vaut me taire à son sujet, et ne prendre la peine d'évoquer que la signification de mes propos passés.
Ainsi faudra-t-il clairement séparer entre l'univers des objets d'une théorie, et le langage servant à les désigner. Pourtant nous voulons parler de tous les objets mathématiques, or le langage est fait d'objets mathématiques comme les autres. Et nous voulons en parler aussi, car nous voulons savoir par quel langage nous allons désigner nos objets. Alors, comment faire ?
Cela n'a finalement rien de mystérieux: l'univers des objets dont je peux parler aujourd'hui inclut non seulement l'univers des objets dont je pouvais parler hier, mais aussi les propos que j'ai pu tenir à leur sujet et leur signification. Je peux donc parler aujourd'hui de choses extérieures à l'univers de ce dont je pouvais parler hier. Pourtant, depuis hier, je n'ai pas appris à parler le martien ni n'ai acquis une nouvelle intelligence transcendantale. Simplement, la même intelligence et le même langage s'appliquent à un univers plus grand, enrichi de nouveaux objets. Ces nouveaux objets sont semblables aux précédents, ainsi mon univers d'aujourd'hui est assez semblable à mon univers d'hier. Il lui est semblable, mais différent, (comme deux objets mathématiques tels deux points sur une droite peuvent être semblables mais différents). D'un univers à l'autre, des copies d'un même énoncé peuvent avoir un sens différent.
Voulant parler d'un univers d'objets mathématiques et aussi d'un langage qui en parle, nous parlerons de notre univers d'hier et de ce qu'on a pu dire à son sujet. Ne cherchant pas encore à tout savoir sur comment nos propos d'hier peuvent s'intègrer précisément à notre univers d'aujourd'hui, et n'ayant pas non plus le courage de composer un discours de divers propos invoquant, au titre de l'univers d'hier, les différents univers qui ont pu se succéder au cours de la journée d'hier, nous aimerions supposer qu'hier le temps s'est arrêté à un univers particulier. Mais combien de temps cette supposition pourrait-elle résister au passage du temps ? Nous le verrons bientôt.

1.6. Paradoxe de Russell et explications

Enoncé du paradoxe
Dans ce que nous avons fait jusqu'à présent, nous avons employé des symboles comme "x", "E" et "F" pour désigner un objet mathématique quelconque, ou un ensemble quelconque.
Il serait naturel de voir cela comme des utilisations particulières de symboles de variables. A un détail près, dont nous allons voir qu'il a une importance capitale: nous ne nous sommes pas intéressés à leur domaine. Nous avons seulement prévenu que cela serait appliquable à n'importe quels objets ou ensembles. Ainsi, nous avons vu les choses commes interprétées avec des valeurs particulières, sans préciser lesquelles, ni même nous intéresser à la question (le point de vue "de l'extérieur").
Or, on serait tenté de considérer que ces domaines existent. D'ailleurs, nous avons décrit les ensembles comme étant utilisés dans le langage courant sous forme de noms communs, d'où sont tirées les variables par l'emploi d'articles indéfinis. Et c'est ce que nous avons précisément fait en parlant d'"un objet x" ou d'"un ensemble E". Est-ce à dire que nous avons tiré ces variables de l'ensemble des objets mathématiques, ou de l'ensemble des ensembles ? Autrement dit, l'univers des objets mathématiques peut-il être un ensemble bien précis ? Et de même, peut-on définir l'ensemble des ensembles (comme la partie de cet univers constituée des objets qui sont des ensembles) ?
Le paradoxe de Russell montre que non, de la manière suivante.
Etant donné un ensemble E, soit F={xE|x est un ensemble et xx}. Ainsi pour tout élément x de E qui soit lui-même un ensemble, on a xF ⇔ xx. Mais cet énoncé vrai pour tout ensemble x dans E est faux si x=F, de sorte que FE. Ainsi, pour tout ensemble E il existe un ensemble F qui ne lui appartient pas. Autrement dit, aucun ensemble ne peut contenir tous les ensembles.
Autrement dit, si jamais on voulait considérer un possible domaine de cette sorte de variable si souvent employée quand on parle d'un objet quelconque ou d'un ensemble quelconque, on pourra toujours trouver ensuite un autre objet mathématique, à savoir du moins un autre ensemble, qui échappera à ce domaine alors même qu'il constitue une autre valeur possible de cette variable.
Mais, de par le travail introductif que nous avons fait, cela ne devrait plus nous étonner: nous avons seulement prétendu nous souvenir des discours d'hier, dont la portée est réduite à l'univers des objets dont nous pouvions parler hier. Or ce faisant nous savions déjà que ces discours eux-mêmes pouvaient constituer de nouveaux objets en dehors de cet univers. Maintenant, nous venons de trouver effectivement des objets nouveaux créés par ce discours, bien que nous ayons tenté de notre mieux de ne regarder que ce qui apparaissait du côté de l'univers des objets, et non du côté du langage.
L'arrêt du temps que nous voulions supposer un instant ne peut pas durer plus longtemps.
Ainsi faut-il distinguer entre deux sortes de variables: celles qui ont un domaine précis, qui est un ensemble, objet de l'univers mathématique considéré; et celles qui n'en ont pas, et qu'on manipule donc seulement comme variable libre .
Ces dernières peuvent se réinterpréter en termes des premières, mais à condition de fixer un univers d'objets mathématiques, supposé contenir toutes les valeurs envisagées de cette variable. Ce n'est pas forcément une bonne idée car ce n'est qu'un domaine possible parmi d'autres: on pourra toujours ensuite trouver un autre univers encore plus grand pouvant fournir d'autres valeurs possibles. En quelque sorte, le domaine de cette variable serait lui-même variable. Mais quelle sorte de variable cet ensemble variable est-il alors, suivant la classification des variables que nous venons de faire ? Eh bien, il s'agit encore d'une variable n'ayant pas de domaine bien défini, en vertu de la considération suivante.

Axiome de la réunion. Soit E un ensemble d'ensembles. Alors il existe un ensemble de tous les éléments des éléments de E, appelé union de E ou union des éléments de E, et noté E. Ainsi, pour tout objet x on a
x E ⇔ ∃FE, xF.
En effet, partant de l'ensemble E on a un point de vue global au-dessus de toutes les interprétations d'une variable F de domaine E. Par ailleurs, fixant F on tire une variable x de domaine F. Alors, du point de vue global où F est liée de domaine E, cette variable x a bien un domaine, puisqu'on l'a créée d'une manière précise à partir d'ensembles connus et non de variables indéterminées comme précédemment: ce domaine est l'union de E. CQFD
Revenant au problème des variables sans domaine fixé, si on envisageait d'attribuer à une variable x un domaine F lui-même variable mais ayant un domaine précis E, cela définirait un domaine global E pour la variable x. Donc, à moins de s'intéresser explicitement aux valeurs possibles de F et à ses variations, l'invocation de ce domaine variable F alors qu'on ne s'intéresse en fait qu'à x, n'a guère d'intérêt: autant parler tout de suite du domaine global union des domaines particuliers, qui sera alors fixé.
Mais si au contraire, comme dans le problème précédent, on a affaire à une variable qui ne peut pas avoir un domaine fixé, non seulement on ne peut pas parler de son domaine comme d'un objet bien précis (puisqu'il n'est pas fixe), mais ce domaine variable ne peut pas avoir lui-même de domaine bien précis. Alors, qu'en dire ?

Notion de classe
Considérant de telles variables indéfinies que sont par exemple "un objet" ou "un ensemble", dont on ne peut pas désigner le domaine comme étant un ensemble (objet de l'univers mathématique auquel on se réfère), des mathématiciens ont eu l'idée de généraliser la notion d'ensemble en parlant de classes pour désigner ce qui de toute manière jouerait le rôle de domaine pour toute variable même si elle n'a pas de domaine parmi les ensembles.
Mais alors, qu'est-ce qu'une classe ? Comment se distinguent les ensembles parmi les classes ? Si on n'avait affaire qu'à l'exemple le plus simple, celui de la classe de tous les objets mathématiques, autrement dit tout l'univers, on pourrait rejeter la question de sa nature comme aussi futile que d'enseigner à un poisson ce qu'est l'eau. Seulement, leur multiplicité nous oblige à les étudier: il y a la classe de tous les objets, celle de tous les ensembles, celle de tous les ensembles qui n'appartiennent pas à eux-mêmes... donc, allons-y.
On a vu que la notion de classe est irréductiblement tiraillée entre deux interprétations: comme ensemble, et comme ensemble variable. Soit x une variable indéfinie, qui n'aurait donc, en guise de domaine, qu'une classe. Une interprétation de son domaine comme un supposé ensemble E peut être dépassée par son interprétation comme ensemble variable, dès qu'apparaît une valeur possible de x en dehors de E, comme avec le paradoxe de Russell; et l'interprétation comme ensemble variable peut être dépassée, dans un univers donné, par l'interprétation comme ensemble, en vertu d'axiome de la réunion dès qu'on regarde cet univers comme un ensemble. C'est un cercle vicieux. Mais d'aucun point de vue particulier cela n'est une contradiction, puisqu'on ne peut faire un tour de ce cercle vicieux qu'à condition de changer de point de vue, à savoir de laisser le temps passer et l'univers s'agrandir, faisant défiler les interprétations de cette classe comme ensembles de plus en plus grands, enrichis de nouveaux éléments.
Considérons (pour en rester à des notions raisonnables) qu'une classe se définit par la donnée d'un énoncé caractérisant ses éléments, comme on avait fait avec le procédé de compréhension au moyen d'une relation unaire définie par un énoncé, sauf que maintenant on considère un énoncé interprétable en vrai ou faux sur tout objet de l'univers, et non seulement sur un ensemble donné. Autrement dit on parlera de la classe des objets x tels que (telle propriété est vraie pour x). Par exemple la classe des ensembles est celle des objets x tels que x est un ensemble.
Tout ensemble E est une classe, à savoir la classe des objets x tels que xE; la définition d'une partie de E par compréhension, est en particulier celle de la classe des objets x obéissant à une propriété de la forme (xE et telle propriété est vraie pour x). Ainsi définie la notion de classe, on distingue les ensembles de la manière suivante: c'est que (alors que la notion de classe s'exprime en général comme opération de distinction entre les objets qui font partie de la classe et ceux qui n'en font pas partie), la notion d'ensemble en particulier y ajoute la garantie que tout objet qui n'a pas encore été considéré (n'existant pas encore dans l'univers d'un instant donné) sera automatiquement exclu (n'appartenant pas à l'ensemble) quand il surviendra; tandis que les autres classes restent potentiellement capables de contenir de futurs éléments qui n'existent pas encore, suivant qu'ils satisferont la propriété donnée.
Cette distinction peut se comprendre de deux manières, suivant l'interprétation de la notion de classe elle-même.
Interprétée dans un univers mathématique particulier, une classe consiste en une partie de cet univers, comme définie par compréhension. Sa différence avec les ensembles est que cette partie de l'univers n'existe pas encore comme ensemble connu comme objet appartenant à ce même univers. Mais, le temps ne pouvant pas s'arrêter, cette partie étant à ce moment-là en train de naître à l'existence en tant qu'ensemble c'est-à-dire en tant qu'objet mathématique, existera désormais comme ensemble objet du nouvel univers qui viendra à l'instant suivant. Ainsi vue, la notion de classe serait l'anticipation de la nouvelle interprétation qui sera donnée à la notion d'ensemble à l'instant suivant... si seulement de nouveaux éléments ne venaient pas s'y ajouter ensuite.
Interprétée dans un univers variable, une classe définie comme partie de cet univers variable, par compréhension par la propriété de ses éléments, est également variable (s'enrichissant au cours de temps de tous les nouveaux éléments satisfaisant la propriété); c'est un ensemble ssi il est constant, la valeur de cette constante étant l'ensemble en question: c'est le temps où tous ses éléments possibles sont enfin apparus, où donc l'univers est assez grand pour englober cet ensemble. Par extension, on dira aussi qu'une classe est un ensemble lorsqu'il existe un temps à partir duquel elle devient définitivement constante. Plus précisément, une telle classe devient un ensemble à partir de cet instant, à savoir un ensemble défini par compréhension dans cet ensemble que devient ensuite l'univers de cet instant. Remarquons que l'énoncé sur un univers variable "il existe un temps à partir duquel telle classe est constante" équivaut (si les choses sont faites proprement) au fait qu'elle soit un ensemble dans l'univers union de toutes les valeurs de cet univers variable.
Il n'y a donc d'intérêt véritable à parler de classe par opposition à la notion d'ensemble, que dans la mesure où il pourra apparaître à l'avenir de nouveaux éléments de cette classe qui n'appartiennent pas à l'univers mathématique de l'instant présent.
On vérifie facilement que cette conception est cohérente avec le procédé de compréhension, à savoir que la classe F des éléments d'un ensemble E qui satisfaisont une propriété, est un ensemble: à partir du moment (dans un univers) où E est apparu comme ensemble avec donc tous ses éléments, tous les nouveaux objets apparaissant dans les univers suivants, n'appartiendront pas à E, donc n'appartiendront pas non plus à F (ici il est nécessaire que la propriété invoquée sur un élément particulier soit une propriété indépendante de l'univers).

Pourquoi la distinction des ensembles parmi les classes peut être floue ou indécidable
D'une part, comme nous avons dit, ce qui pourra finalement devenir un ensemble à l'avenir peut n'être pas encore connu comme tel tant que tous ses éléments possibles ne sont pas encore nés.
D'autre part, une classe peut être prise pour un ensemble à tort, dans la mesure où on admettrait à tort que tous ses éléments possibles seraient ceux qui sont connus et donnés par un certain ensemble, par ignorance de possibles éléments futurs qui pourraient finalement naître dans un avenir encore inconnu.
Ainsi on peut toujours hésiter à reconnaître une classe comme un ensemble de peur que d'autres éléments inconnus puissent venir ensuite, quand bien même ce ne serait pas le cas.

Pourquoi on ne peut pas définir de relation d'égalité entre classes

Ce qui empêche les classes d'être considérés comme de bons objets mathématiques, c'est qu'on ne peut pas toujours dire si deux classes sont égales ou différentes. En effet, il n'est possible de comparer deux classes qu'en tant que parties de l'univers dont on dispose à un instant donné, en se posant la question de l'existence d'un objet n'appartenant qu'à une des deux classes, qui permettrait de les distinguer. Mais justement les classes acceptent des éléments qui n'existent pas encore dans l'univers présent. Donc même si deux classes ont les mêmes éléments dans l'univers présent, on ne sait généralement pas a priori s'il pourrait ou non exister à l'avenir un nouvel objet en lequel elles diffèreront. Donc la question de leur égalité demeure irrésolue. La notion de leur égalité "dans tous les univers" ne résoud pas le problème, puisqu'on ne peut pas invoquer absolument tous les univers (mais seulement une "totalité" provisoire d'entre eux): cette question reviendrait à celle de leur égalité en particulier dans l'univers union de tous ces univers, qui pourra toujours être dépassé à l'avenir.
Autrement dit, alors que la question de l'égalité de deux ensembles se définit au moyen de quantificateurs universels portant sur ces ensembles (tout élément de l'un appartient à l'autre et inversement), il n'est pas possible d'en faire autant pour les classes, faute d'ensemble sur lequel ces quantificateurs peuvent porter.
A défaut de cela, il reste la possibilité de refonder la notion de classe en termes du langage employé pour définir une classe, à savoir l'écriture de l'énoncé par lequel la classe a été définie. Alors, étant donnés deux énoncés, on peut chercher à établir l'égalité de leurs classes en démontrant l'équivalence entre ces deux énoncés. Mais alors, comme nous avions prévenu, on ne considère plus ici que le langage lui-même privé de sa signification. Et, entre d'une part le cas d'énoncés dont l'équivalence est démontrable, d'autre part celui où on connaît un élément qui les distingue, il risque de demeurer des cas sur lesquels on ne peut pas conclure: l'impossibilité de démontrer l'équivalence entre deux énoncés A(x) et B(x) n'implique pas forcément l'existence d'un x contre-exemple, d'autant qu'on ne connaît pas d'avance toutes les possibles valeurs futures de x à essayer.

Un ensemble peut-il appartenir à lui-même ?
Le paradoxe de Russell est parti de la considération d'une classe a priori étrange, celle des ensembles qui n'appartiennent pas à eux-mêmes. Cela donne envie, par pure curiosité, de se poser la question bizarre: un ensemble peut-il appartenir à lui-même ?
A question bizarre, réponse bizarre. Ni oui ni non, nous allons répondre par quelques remarques. Vérifions d'abord qu'il n'y a a priori aucun problème à considér un univers ne contenant aucun ensemble appartenant à lui-même (un tel univers pourrait s'obtenir comme classe des objets dont on élimine les ensembles appartenant à eux-mêmes, mais aussi les ensembles contenant ces derniers et ainsi de suite; comme la construction par récurrence n'a pas encore ici été introduite, abordons la question autrement).
Considérons à une certaine date un supposé "univers" U, classe ou ensemble d'objets ne contenant aucun ensemble appartenant à lui-même. Alors, dans la suite des temps, les ensembles qui apparaîtront et s'ajouteront au fur et à mesure à cet univers (à commencer par ceux donnés par les axiomes comme celui de compréhension et de réunion), seront à chaque instant des ensembles dont tous les éléments existaient déjà dans un univers précédent. Ainsi, chaque nouvel ensemble ayant uniquement pour éléments des objets qui étaient déjà apparus avant lui, n'appartiendra pas à lui-même. Et la propriété de non-appartenance à soi-même, étant indépendante de l'univers dans lequel il se place, n'est pas affectée par le passage à une réunion d'univers: ainsi une union d'univers dont aucun objet de chacun n'appartient à lui-même, n'en comporte pas non plus.
Mais on peut encore chercher plus loin, et répondre à notre question bizarre, par une remarque encore plus précise, et... encore plus bizarre:

Devinette: quelle est la différence entre:
- D'une part, un univers dans lequel un ensemble x appartient à lui-même mais ne contient pas un élément pur y;
- D'autre part, un univers dans lequel un élément pur x appartient à un ensemble y qui n'appartient pas à lui-même ?
Réponse: il n'y en a pas, sauf que le rôle joué par l'objet x du premier univers, à savoir le rôle d'un certain ensemble contenant x mais non y, est joué par l'objet y dans le second.

Sérieusement, considérant qu'un bon ensemble est un ensemble qui a été créé à un certain moment où tous ses éléments existaient déjà, nous poserons pour toute la suite:

Axiome. Aucun ensemble n'appartient à lui-même.
Sauf qu'en pratique, non seulement les ensembles qui appartiennent à eux-mêmes sont inutiles, mais cet axiome de leur inexistence est inutile également.
Cet axiome que nous venons de voir est en fait un cas particulier de l'axiome de fondation, qui est l'expression complète de ce qui résulte des motifs et remarques qui viennent de nous permettre de le justifier. L'axiome de fondation ne serait pas formellement bien compliqué, sauf qu'avec les seuls moyens du présent chapitre il ne semblerait pas naturel et nous ne pourrions pas l'expliquer d'une manière qui évite de faire apparemment appel à l'ensemble de tous les ensembles. Il ne sera donc abordé que bien plus tard.